ExecuTorch 오픈소스 분석

ExecuTorch Overview

<aside> ✨

ExecuTorch = Executing Pytorch on the Edge

Pytorch 모델을 온디바이스(on-device)로 추론(inference) 가능하게 만드는 배포 솔루션

</aside>

모델을 더 가볍고 빠르게 만들기 위해 숫자의 정밀도를 낮추는 과정
Pytorch에서 실행하는 3단계
1. Eager mode quantization (사용자가 수동으로 추가) → torch.quantization
2. FX graph mode quantization (Torch FX를 이용해 자동으로 그래프 변환) → torch.ao.quantization.quantize_fx
3. Post-Training quantization / Quantization aware training (학습 중/후 양자화) → prepare_fx, convert_fx, prepare_qat_fx
Pytorch에서 양자화된 모델을 Executorch에서 추론용으로 실행
Executorch에서 지원하는 quantized 연산
- XNNPACKPartitioner → CPU용 int8 연산
- QNNPartitioner → Qualcomm DSP용
- CoreMLPartitioner → Apple NPU용