
기존 문제점Outlier로 인한 양자화 오류 증가quantization 범위의 과도한 확장으로 reconsturction error이 발생. 이로 인한 모델 성능 저하 현상을 해결하고자 제안.LLaMA-2 7B 모델의 특정 레이어 activation 분포가 kurtosis 200이 넘을 정도로 꼬리가 길고, 양자화 오차가 매우 큰 것을 확인할 수 있다.Random Rotation만으로는 성능 편차가 매우 큼Outlier 완화를 위한 연구 중 random orthogonal or Hadamard matrix를 곱해 activation/weight 분포를 섞는 방식은 양자화 후 성능 변동이 크게 나타남 LLaMA-2 7B 모델을 W4A4(4비트 가중치, 4비트 활성화)로 양자화했을 때, 랜덤 floating..