쉬운 말로 풀어 보는 어텐션

어텐션은 기술적으로 들리지만, 그 아이디어는 글을 읽을 때마다 우리가 하는 일입니다. 수식 없이, 언어 모델 안에서 그것이 정말로 무엇을 뜻하는지 짚어 봅니다.

research2026-04-30 11:26 KST·편집장·7 분

어텐션(attention)은 현대 언어 모델의 심장부에 있는 메커니즘이며, 그 이름은 가장 좋은 설명인 동시에 혼란의 원천이기도 합니다. 이 단어는 직관적인 무언가를 약속하고, 그 직관은 옳습니다. 하지만 이 용어는 행렬과 소프트맥스 아래에 묻혀 마치 난해한 기계 장치처럼 들리게 됩니다. 그렇지 않습니다. 어텐션은 하나의 명료한 아이디어이며, 우리는 문장을 주의 깊게 읽을 때마다 이미 그것을 사용하고 있습니다.

그 아이디어는 이렇습니다. 어떤 한 단어를 이해하기 위해, 모델은 다른 어떤 단어들이 그것과 관련 있는지 알아내고 바로 그 단어들로부터 정보를 끌어옵니다. 그 선택적인 끌어옴이 어텐션입니다. 나머지는 전부 구현입니다.

어텐션의 일상적인 버전

이 문장을 읽어 보세요. "트로피가 여행 가방에 들어가지 않았다. 그것이 너무 컸기 때문이다." 여기서 "그것"은 무엇을 가리킬까요, 트로피일까요 아니면 여행 가방일까요? 당신은 즉각 답했고, 주의를 기울여서 그렇게 했습니다. 당신의 머릿속은 후보 단어들을 저울질하고, "트로피"가 관련된 쪽이라고 판단해 둘을 연결했습니다.

이제 이 문장을 읽어 보세요. "트로피가 여행 가방에 들어가지 않았다. 그것이 너무 작았기 때문이다." 문장 구조는 같지만, 이번에는 "그것"이 여행 가방을 뜻하며, 또다시 당신은 힘들이지 않고 알아챘습니다. 당신은 알맞은 앞 단어에 주의를 기울이고 나머지는 무시함으로써 지시 대상을 풀어냈습니다.

이것이 개념의 전부입니다. 언어 모델에서의 어텐션은 바로 이 흘끗 보는 행위를 기계적으로 옮긴 것입니다. 모든 단어에 대해 어떤 다른 단어가 중요한지 결정하고 그 의미를 섞어 넣는 것이죠. 모델에 당신의 상식이 내장되어 있지는 않지만, 방대한 텍스트로부터 같은 종류의 선택적 바라봄을 수행하는 법을 배웁니다.

모델이 실제로 주목하는 것

모델이 한 단어를 처리할 때, 주변의 모든 단어를 똑같이 취급하지 않습니다. 단어의 모든 쌍에 대해, 하나가 다른 하나에 얼마나 관련 있는지를 계산하고, 그 관련성 점수를 사용해 각 단어가 다른 단어에 얼마나 영향을 미쳐야 할지를 결정합니다.

관련성 점수가 높은 단어는 강하게 끌려 들어오고, 점수가 낮은 단어는 대체로 무시됩니다. 그래서 앞의 트로피 문장에서 모델이 "그것"에 대해 만들어 내는 표현은, 대부분 "그것"과 짙은 분량의 "트로피"가 섞인 혼합이고, 무관한 단어들의 흔적은 희미하게만 남습니다. 그 단어는 홀로 이해되는 것이 아니라, 자신이 들여다보기로 택한 문맥의 가중 혼합으로서 이해됩니다.

이것이 같은 단어가 다른 문장에서 다른 것을 의미할 수 있는 이유입니다. "bank"는 한 곳에서는 "river"에, 다른 곳에서는 "deposit"에 주목하고, 그에 따라 결과 표현이 달라집니다. 어텐션은 의미를 고정된 것이 아니라 문맥에 따른 것으로 만드는 장치입니다.

전문 용어 없이 보는 쿼리, 키, 밸류

표준적인 설명은 세 가지 용어를 도입하는데, 바로 쿼리(query), 키(key), 밸류(value)이며, 이것들은 위압적으로 들립니다. 이 용어들은 친숙한 아이디어, 즉 무언가를 찾아보는 일에 대응됩니다.

각 단어가 자신을 이해하기 위해 필요한 것에 관해 질문을 던진다고 생각해 보세요. 그것이 그 단어의 쿼리입니다. 다른 모든 단어는 자신이 무엇을 제공하는지, 일종의 라벨을 내겁니다. 그것이 그 단어의 키입니다. 모델은 각 쿼리를 모든 키에 대조해 가장 잘 맞는 것을 찾습니다. 당신이 입력한 것을 검색 결과들의 라벨에 맞춰 보는 검색과 무척 비슷합니다. 쿼리와 키가 잘 맞는 곳마다, 모델은 그 단어의 실제 내용, 즉 그것의 밸류를 끌어옵니다.

그러니까 한 단어는 "내가 찾는 것이 무엇인가?"라고 묻고, 다른 모든 단어의 라벨을 훑어보고, 자신의 질문에 답하는 단어들의 내용을 거두어들입니다. 쿼리, 키, 밸류는 그 찾아보기에서의 세 가지 역할일 뿐입니다. 이 메커니즘은 모든 단어가 다른 모든 단어에 대해 동시에 수행하는, 부드럽고 학습된 검색입니다.

"부드럽다"는 것이 왜 중요한가

보통의 검색은 단호한 목록을 돌려줍니다. 이것들은 일치하고, 나머지는 아니라고요. 어텐션은 그보다 부드럽습니다. 단 하나의 승자를 고르는 대신, 초점을 펼쳐서 가장 관련 있는 단어에 더 큰 가중치를, 다른 단어에 더 작은 가중치를 주지만, 0을 주는 경우는 드뭅니다.

이 부드러움은 타협이 아니라 하나의 특징입니다. 언어는 부분적인 관련성으로 가득합니다. 한 단어가 대부분 어느 한 앞 단어에 의존하면서도 다른 두 단어에 약간씩 의존할 수도 있습니다. 고르는 대신 섞음으로써, 어텐션은 이런 단계적인 의존을 포착할 수 있습니다. 명백한 지시 대상에 강하게 기대면서도, 주변 문맥을 약간씩 혼합 속에 남겨 둘 수 있는 것이죠. 그 결과는 의미가 실제로 작동하는 어수선하고 겹쳐진 방식을 반영하는 표현입니다.

여러 종류의 관련성을 한 번에

두 단어가 관련되는 데에 이유가 하나뿐인 경우는 드뭅니다. "그녀"는 문법적 이유로 앞의 이름과 연결될 수도 있고, 그녀가 그 동사의 주어이기에 동사와 연결될 수도 있으며, 문장의 주제가 그것이기에 주제어와 연결될 수도 있습니다. 이것들은 서로 다른 관계이고, 이를 하나의 어텐션에 욱여넣으면 모델은 그것들을 평균 내야만 합니다.

그래서 모델은 여러 어텐션 연산을 나란히 수행하며, 각각이 자유롭게 전문화되게 합니다. 하나는 문법적 일치를 추적할 수 있고, 또 하나는 누가 무엇을 하는지를 따라갈 수 있으며, 또 하나는 주제의 흐름을 붙들 수 있습니다. 그 결과들이 결합되어, 각 단어는 여러 관련성 개념이 동시에 빚어낸 형태를 갖게 됩니다. 이것이 어텐션으로 하여금 "관련 있다"라는 단일하게 납작해진 감각이 아니라 언어의 겹겹이 포개진 구조를 포착하게 하는 것입니다.

어텐션이 아닌 것

솔깃한 오독 하나를 떨쳐 낼 필요가 있습니다. 어텐션은 모델이 사람처럼 "이해한다"거나 "의식적으로 집중한다"는 뜻이 아닙니다. 관련성 점수는 학습된 통계적 패턴이며, 예측이 잘 나오도록 조정된 것입니다. 모델이 "그것"에서 "트로피"로 주목할 때, 그것은 물리적 사물에 관해 추론하는 것이 아닙니다. 엄청난 양의 텍스트로부터, 이것이 좋은 이어짐으로 이끄는 패턴임을 학습한 것입니다.

또한 어텐션은 그 자체로 모델이 옳은 것에 주목하리라고 보장하지 않습니다. 오해를 부르는 상관관계에 매달려 엉뚱한 문맥을 끌어와 확신에 찬 실수를 만들어 낼 수 있습니다. 이 메커니즘은 강력하고 유연하지만, 신뢰할 만한 추론자가 아니라 학습된 근사입니다. 이를 알면 비유를 과장하지 않으면서도 유용하게 쓸 수 있습니다.

왜 이 단 하나의 아이디어로 충분했는가

현대의 시대를 연 논문의 제목인 "Attention Is All You Need(어텐션만 있으면 된다)"는 의도적인 주장이었습니다. 이전 아키텍처들은 어텐션을 다른 기계 장치에 덧붙였습니다. 통찰은 어텐션 하나만으로도, 깊게 쌓고 병렬로 수행하면, 단어들을 서로 관련짓는 일 전체를 해낼 수 있다는 것이었습니다.

다른 모든 것을 떼어내고 어텐션만 남기는 것이 더 단순하면서도 더 강력한 것으로 드러났습니다. 그것은 모델이 정보를 취약한 사슬을 따라 내려보내는 대신 시퀀스 전체를 직접 들여다보게 했고, 그 모든 연산이 한 번에 일어나게 했습니다. 그 도달 범위와 병렬성의 조합이야말로 어텐션이 단지 언어 모델을 개선한 데 그치지 않고 그것들의 토대가 된 이유입니다.

정리

어텐션은 모든 단어에 대해 다른 어떤 단어가 관련 있는지 결정하고 그 의미를 섞어 넣는 규율입니다. 그것은 "그것"이 무엇을 가리키는지 풀어낼 때 당신이 하는 흘끗 보는 행위의 기계적 형태입니다. 쿼리-키-밸류 장치는 시퀀스 전체에 대해 한 번에 수행되는 부드럽고 학습된 찾아보기일 뿐이고, 그것의 병렬 버전들이 여러 종류의 관련성을 함께 포착합니다. 전문 용어와 방정식을 걷어내면, 어텐션은 정확히 그 이름이 말하는 그대로입니다. 무엇이 중요한지 알아내고, 그곳을 들여다보는 행위 말입니다.

#attention#transformers#context#deep-learning

1차 출처

Vaswani et al. — Attention Is All You Need (arXiv)Hugging Face — Transformers documentation