From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

공부/LLM 2024. 7. 10. 21:47

https://huggingface.co/papers/2407.06071

저자들은 LLM이 생성하는 잘못된 답변을 sequence repetitions, degenerate text, and hallucinations로 분류한 뒤, 다양한 통제 변인 속에서 할루시네이션과 반복 문제의 비율을 관찰하면서, 모델이 더 크고, 많이 학습될 수록, 잘못된 답변의 종류도 단순 반복에서 더 복잡한 실수인 할루시네이션 등으로 옮겨간다는 관점을 제시합니다.

+ 반복 문제랑 할루시네이션은 잘 아실 테고, degenerate text은 "Degenerate text includes repetitive textual patterns and/or rephrasing of previously generated text", 즉, 단어나 문장 단위로 반복하는 것 또는 앞서 언급한 내용을 또 말하거나 하는 문제를 지칭합니다.

저자들은 Pythia 모델을 중심으로 "모델 크기", "학습 데이터 수", "온도"를 포함해서 몇 가지 변인을 조절해가면서 잘못된 답변의 분포를 추적했습니다.

첫째로, 모델의 크기가 클 수록 정답률도 오르지만, 동시에 더 많은 할루시네이션을 만들어냅니다.

물론 정답률도 꾸준히 오르는 걸 보면 모델이 커질수록 성능이 좋아지는 것은 맞지만, 적어도 12B 수준까지는 "모델이 커져도 할루시네이션이 감소하지는 않는다"는 점이 특이하네요.

(Pythia-6.9B 기준)

둘째로, 더 많은 데이터 셋으로 학습한 모델일수록 반복 대신 더 많은 할루시네이션을 만들어냅니다.

경향성이 위 그림과 거의 비슷하다는 점이 특이사항입니다.

셋째로, 모델은 한 답변 내에서도 정상 답변 -> 할루시네이션 -> 반복 순서로 문제를 일으키는 경향이 있습니다(어디까지나 경향성입니다). 그 외에도, 답변이 길어질수록 망가질 확률이 높아집니다.

넷째로, 모델의 temperature가 높을수록 반복은 줄어들고, 더 많은 할루시네이션을 만들어냅니다.
번역기 모델들이 가끔 반복 이슈가 생기는 이유가 낮은 temperature 때문이었나 보네요.

저자들은 반복 문제는 잡기가 쉬운 반면, 할루시네이션은 확인이 어렵기 때문에 높은 temperature를 줄 적에 생기는 문제에 대해 우려합니다.

마지막으로, Instruct 모델이 base 모델보다 더 복합적이고 다양한 문제를 일으킵니다.

이 이외에도 페이퍼를 통틀어서 40개가 넘는 Figure와 함께 다양한 분석을 수록하고 있습니다.
자세한 내용은 논문을 확인해보시면 좋겠습니다.

일반적으로 큰 모델을 쓸 때, 높은 temperature를 줄 때 모델이 더 창의적인 답변을 하는 경향이 있다는 점을 생각해보면,
창의성과 할루시네이션의 차이는 무엇인가 하는 것을 생각해보게 되는 것 같습니다.

그리고 번역처럼 정답이 있는 문제를 처리할 때는 낮은 temperature+반복 감지가 필수겠습니다.

'공부 > LLM' 카테고리의 다른 글

Runpod에서 vLLM으로 배치 작업 시 GPU 가성비 비교 (0)	2024.06.20
[따라해보는 LLM 파인 튜닝] 2. 학습 - Axolotl, Llama-3, LoRA (0)	2024.05.08
[따라해보는 LLM 파인 튜닝] 1. 서버 환경 설정 - Runpod, WandB, Axolotl (0)	2024.05.07

ABOUT ME

삽질을 기록하자 삽질을 기록하자

'공부 > LLM' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'공부 > LLM' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바