환각, 패닉 없이 설명하기

지어내는 언어 모델은 오작동하는 것이 아닙니다 — 만들어진 대로 정확히 행동하는 것입니다. 환각이 왜 일어나는지, 그리고 어떻게 다스릴지 짚어 봅니다.

research2026-04-23 18:05 KST·편집장·7 분

"환각(hallucination)"은 언어 모델이 거짓을 완전한 확신을 가지고 진술할 때를 가리키는 말입니다. 존재하지 않는 그럴듯한 인용, 깔끔하게 들리지만 틀린 사실, 아무도 한 적 없는 인용구 같은 것이죠. 이 단어는 마치 그것이 결함, 가끔 제멋대로 망가지는 무언가처럼 들리게 합니다. 그렇지 않습니다. 환각은 이 모델들이 작동하는 방식의 예측 가능한 결과이며, 이를 이해하는 것이 그것을 두려워하는 일과 다스리는 일의 차이를 만듭니다.

이 글은 신중함을 걷어내지 않으면서 패닉만 걷어내는 것을 목표로 합니다. 지어낼 수 있는 모델은 잘못된 환경에서는 정말로 위험합니다. 그러나 그 행동이 어디서 비롯되는지를 보고 나면, 그 위험은 이해할 수 있고 통제할 수 있는 것이 됩니다.

모델이 실제로 하고 있는 일

언어 모델은 데이터베이스가 레코드를 저장하듯이 사실을 저장하지 않습니다. 방대한 양의 텍스트에서 패턴을 학습하고, 어떤 입력이 주어지면 그 패턴과 가장 일관된 이어짐을 만들어 냅니다. 모델의 핵심 역량은 그럴듯함(plausibility) 입니다. 보통 뒤따르는 종류의 텍스트처럼 읽히는 텍스트를 생성하는 것이죠.

대개 그럴듯함과 참은 나란히 갑니다. 참인 진술이 학습 텍스트에서 흔하기 때문입니다. 그러나 모델은 참이 아니라 그럴듯함을 최적화하며, 그 둘은 가장자리에서 갈라집니다. 갈라지는 순간 모델은 그럴듯함을 따릅니다. 그것이 모델이 추적하도록 만들어진 유일한 것이기 때문입니다. 날조된 인용은 진짜 인용과 똑같이 보입니다. 틀린 날짜는 옳은 날짜만큼이나 매끄럽게 문장 속에 자리합니다. 유창함은 정확함의 증거가 아닙니다. 유창함이 곧 산출물 그 자체입니다.

왜 자신만만한 날조가 덧붙인 게 아니라 내장된 것인가

여기 불편한 핵심이 있습니다. 정답을 만들어 내는 바로 그 기계 장치가 환각도 만들어 냅니다. 가끔 켜지는 별도의 "지어내기" 모듈 같은 건 없습니다. 모델이 패턴을 잘 알 때는 정답을 얻습니다. 모를 때는 — 정보가 드물었거나, 없었거나, 아예 학습된 적 없었기 때문에 — 모델이 멈추지 않습니다. 어쨌든 가장 그럴듯해 보이는 이어짐을 똑같은 유창한 확신으로 생성합니다. 그 기본 작동에서 "나는 이것을 안다"와 "이것이 답이 생긴 모양이다"를 구분하는 것이 아무것도 없기 때문입니다.

이것이 환각을 완전히 땜질해 없앨 수 없는 이유입니다. 그것은 언제나 무언가를 만들어 내며 자기 지식의 경계에 대한 내장된 감각이 없는 시스템의 속성입니다. 줄이고, 가두고, 탐지할 수는 있지만, 미래의 모델이 그것을 제거했다고 가정할 수는 없습니다. 그것은 모델이 애초에 생성하는 방식 자체에 짜여 들어가 있기 때문입니다.

사람이 자기 지식의 가장자리를 다루는 방식과 대조해 보면 도움이 됩니다. 어렴풋이 기억나는 것을 질문받으면, 우리는 불확실함을 느낍니다 — 그리고 그 느낌이 우리로 하여금 말을 아끼거나, 단서를 달거나, 찾아보게 합니다. 모델에는 "나는 지금 추측하고 있다"를 안정적으로 표시해 주는 동등한 내적 신호가 없습니다. 단단한 땅 위에 있든 즉흥적으로 지어내든 다음 그럴듯한 토큰을 생성하며, 그 둘 사이의 전환은 안에서 보면 매끄럽기만 합니다. 지식이 바닥날 때 울리는 내부 경보가 없습니다. 그 빠진 경보가, 어떤 개별 실수보다도 문제의 뿌리입니다.

왜 그 자신감이 위험한 부분인가

환각이 불확실하게 들린다면 — 단서를 달고, 망설이고, 눈에 띄게 자신 없어 한다면 — 훨씬 덜 해로울 것입니다. 위험은, 날조된 답이 정답과 똑같이 한결같고 권위 있는 목소리로 도착한다는 데 있습니다. 모델의 어조는 그 신뢰성의 신호가 아닙니다. 옳든 그르든 자신만만하게 읽힙니다. 자신감은 유창한 텍스트의 특징이지, 내부 확신의 표시가 아니기 때문입니다.

이것은 인간이 끊임없이 의존하는 습관을 깨뜨립니다. 우리는 상대방의 망설임을 한 번 더 확인하라는 단서로 사용합니다. 모델은 그 단서를 벗겨 냅니다. 실질적 결과는 이렇습니다. 모델의 어조로는 그것을 믿어야 할지 가늠할 수 없습니다. 매끄럽고, 구체적이고, 잘 짜인 답은 어설픈 답과 정확히 똑같은 정도로 지어낸 것일 수 있습니다 — 때로는 더 그렇습니다. 구체성이야말로 날조를 설득력 있게 만드는 요소의 일부이기 때문입니다.

환각이 더 심해질 때

환각은 균일하지 않습니다. 예측 가능한 조건에서 치솟으며, 그것들을 알면 언제 조심해야 하는지 알 수 있습니다.

모호하거나 드문 주제. 학습 범위가 얇을수록 모델은 더 즉흥적으로 지어냅니다.
구체적인 세부 사항. 정확한 숫자, 날짜, 이름, 인용, 인용구는 고위험입니다. 그럴듯하지만-틀린 변형이 많고 "이만하면 됐다"의 여유가 없기 때문입니다.
거짓 전제를 담은 질문. 존재하지 않는 무언가에 대해 물으면, 모델은 반박하기보다 자신만만한 설명을 지어내는 경우가 많습니다.
답해야 한다는 압박. "모르겠다"고 말할 여지를 주지 않고 단정적 응답을 요구하는 프롬프트는 날조를 더 일으킵니다.

공통된 실마리는, 질문이 요구하는 것과 모델이 안정적으로 아는 것 사이의 간극입니다. 그 간극이 넓을수록, 그리고 틀이 단호한 답을 더 밀어붙일수록, 지어낼 여지는 커집니다.

더 미묘한 방아쇠도 있습니다. 답이 길고 정교할수록, 엉뚱하게 지어낸 세부 하나가 끼어들 기회도 많아집니다. 짧은 사실성 답변은 오류의 표면적이 거의 없습니다. 구체적인 내용으로 가득한, 여러 단락에 걸친 폭넓은 응답은 표면적이 엄청납니다 — 그리고 각각의 구체적 내용은 들어맞을 수도, 아닐 수도 있는 작은 베팅입니다. 그래서 모델은 어떤 주제에 대해 대체로 옳으면서도 주변 문장 곳곳에 자신만만한 작은 오류들을 흩뿌릴 수 있습니다. 전체 윤곽은 맞고, 장식은 믿을 수 없는 것이죠. 길고, 상세하고, 권위 있게 들리는 답일수록 덜이 아니라 더 면밀히 따져 봐야 합니다.

어떻게 다스릴 것인가

환각을 없애는 게 아니라, 그 주위를 설계로 둘러쌉니다. 변치 않는 기법들은 이렇습니다.

모델을 제공된 자료에 근거하게 하세요. 관련 문서를 주고 오직 그것에서만 답하라고 지시하세요. 이것이 단일 레버로는 가장 효과적입니다. "기억에서의 회상"을 "증거에서의 읽기"로 대체하기 때문입니다(검색 증강 생성의 핵심 아이디어죠).
"모르겠다"를 허용하세요. 자료에 답이 없을 때 모델이 사양하는 것을 명시적으로 허락하고, 또 보상하세요. 많은 날조가 늘 무언가를 내놓아야 한다는 암묵적 요구에서 나옵니다.
출처를 요청하세요. 인용이나 사용된 구체적 구절을 요구하면 답을 확인 가능하게 만들고 — 지어낸 근거를 드러냅니다.
중요한 것은 검증하세요. 위험이 큰 세부 사항은, 믿을 사실이 아니라 확인할 초안으로 다루세요.
설계로 위험 자체를 낮추세요. 틀린 답을 잡고 고치는 비용이 싼 곳에 모델을 쓰고, 그렇지 않은 곳에는 사람의 검토를 더하세요.

이 중 어느 것도 모델을 진실하게 만들지 않습니다. 다만 모델의 실수를 잡을 수 있게 만들며, 그것이 달성 가능한 목표입니다.

인간의 판단이 여전히 속하는 곳

올바른 태도는 무시도, 맹신도 아닙니다. 모델은 그럴듯하고, 유용하고, 대체로 옳은 텍스트를 만들어 내는 놀라운 생성기입니다 — 그리고 어느 부분이 옳은지를 가리는 데는 믿을 수 없는 심판입니다. 그러니 틀리는 비용이 비싼 바로 그곳에 사람을 고리 안에 둬야 합니다. 의료, 법률, 금융, 안전 직결, 또는 한 번 더 확인 없이 발행되거나 실행될 모든 것 말이죠. 위험이 낮고, 쉽게 검증되고, 탐색적인 작업에서는 드문 자신만만한 오류가 감내할 만한 비용입니다. 신뢰의 수준을 틀리는 비용에 맞추는 것, 그것이 이 규율의 전부입니다.

정리

환각은 지나가기를 기다릴 버그가 아닙니다. 검증된 진실이 아니라 그럴듯한 텍스트를 만들도록 지어진 시스템의 그림자 면입니다. 정답을 내는 바로 그 기계 장치가 똑같이 자신만만한 목소리로 날조도 하며, 모델은 자기 지식이 어디서 끝나는지에 대한 내장된 감각이 없습니다. 그러니 유창함을 신뢰성으로 읽기를 멈추세요. 모델을 실제 자료에 근거하게 하고, "모르겠다"고 말할 허락을 주고, 출처를 요청하고, 중요한 것을 검증하세요. 환각을 알려진 속성으로 — 차분하게 — 다스리세요. 그러면 이 모델들은 당신이 미처 못 보고 당한 자신만만한 거짓말쟁이가 아니라, 강력한 도구가 됩니다.

#hallucination#grounding#reliability#llm-limits

1차 출처

Hugging Face — how language models work (course)Anthropic — reducing hallucinations