공부/NPU

[Paper_review] NF4 (QLORA (2023_05))

오비루 2025. 9. 28. 18:50
728x90
728x90

해당 논문은 이후 Quantization 논문을 리뷰함에 있어서 필요한 NF4 내용만 적도록 하겠다.

정규 분포를 이용한 방식으로 LUT을 이용해서 [-1 ~ 1] 범위 내의 값을 0~15의 index 값으로 표현

 

-. 정규 분포의 데이터를 각 구간에 따른 확률이 동일한 만큼 구간을 나누고, 해당 위치의 중앙값을 선택

-. 이때, CDF를 매번 추정 후 구간을 나눠야 하는 부분에서 과도한 연산이 발생함

 

320x100
  • 일정 간격으로 나눠 동일 확률 구간을 만듦
  • Avg = 0 , 표준편차 = $\sigma$ 양자화 구간 생성

-. 따라서, 모든 분포가 동일하게 고정되어 있다는 가정(대체로 동일함)으로 연산 과정을 생략하고 정해진 분포에 따른 포인트로 매핑해준다.

  • 사용자가 지정한 개수 만큼의 분위(Quantile)를 정하고 codebook이 생성되어 있는 상태임

-. 절댓값 max를 찾고, 해당 값이 1이 되기 위해 필요한 scaling 값을 곱함

  • 이렇게 곱한 값을 토대로 [-1, 1] 범위에 맞게 index mapping
  • 복원할 때에는 해당 scaling 값을 역으로 곱해줌

FP8 vs NF4 : 만리장성

 

 

728x90

 

 

참고자료


https://www.reddit.com/r/LocalLLaMA/comments/14719ch/nf4_inference_quantization_is_awesome_comparison/

 

Reddit의 LocalLLaMA 커뮤니티: NF4 inference quantization is awesome: Comparison of answer quality of the same model quantiz

LocalLLaMA 커뮤니티에서 이 게시물을 비롯한 다양한 콘텐츠를 살펴보세요

www.reddit.com

https://manalelaidouni.github.io/4Bit-Quantization-Models-QLoRa.html#1-breakdown-of-4-bit-quantization-using-nf4-data-type

 

Manal El Aidouni

Machine learning

manalelaidouni.github.io

→ 관련 코드 + 자세한 설명 있음

728x90
반응형