728x90
728x90
해당 논문은 이후 Quantization 논문을 리뷰함에 있어서 필요한 NF4 내용만 적도록 하겠다.
정규 분포를 이용한 방식으로 LUT을 이용해서 [-1 ~ 1] 범위 내의 값을 0~15의 index 값으로 표현

-. 정규 분포의 데이터를 각 구간에 따른 확률이 동일한 만큼 구간을 나누고, 해당 위치의 중앙값을 선택
-. 이때, CDF를 매번 추정 후 구간을 나눠야 하는 부분에서 과도한 연산이 발생함
320x100
- 일정 간격으로 나눠 동일 확률 구간을 만듦
- Avg = 0 , 표준편차 = $\sigma$ 양자화 구간 생성
-. 따라서, 모든 분포가 동일하게 고정되어 있다는 가정(대체로 동일함)으로 연산 과정을 생략하고 정해진 분포에 따른 포인트로 매핑해준다.
- 사용자가 지정한 개수 만큼의 분위(Quantile)를 정하고 codebook이 생성되어 있는 상태임
-. 절댓값 max를 찾고, 해당 값이 1이 되기 위해 필요한 scaling 값을 곱함
- 이렇게 곱한 값을 토대로 [-1, 1] 범위에 맞게 index mapping
- 복원할 때에는 해당 scaling 값을 역으로 곱해줌

728x90
참고자료
Reddit의 LocalLLaMA 커뮤니티: NF4 inference quantization is awesome: Comparison of answer quality of the same model quantiz
LocalLLaMA 커뮤니티에서 이 게시물을 비롯한 다양한 콘텐츠를 살펴보세요
www.reddit.com
Manal El Aidouni
Machine learning
manalelaidouni.github.io
→ 관련 코드 + 자세한 설명 있음
728x90
반응형
'공부 > NPU' 카테고리의 다른 글
| [Paper_review] NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics_2025_05 (0) | 2025.09.28 |
|---|---|
| [Paper_review] CommVQ: Commutative Vector Quantization for KV Cache Compression_2025_06 (0) | 2025.09.28 |
| [Paper review]SpinQuant: LLM quantization with learned rotation (2) | 2025.06.06 |
| Quantization 이해를 위한 기본 개념 (2) | 2025.05.26 |
| [개인 공부] Skid Buffer란? (0) | 2025.04.08 |