Untold Stories of Intellectual Property: QKV

Showing posts with label QKV. Show all posts

Tuesday, September 30, 2025

AI 환각과 구글 특허: 트랜스포머가 AI 시대를 연 비결

AI는 왜 때때로 사실이 아닌 정보를 자신 있게 말할까요? 그 비밀은 언어 모델의 핵심 구조인 ‘Transformer’와 그 기술을 둘러싼 특허 전략 속에 숨겨져 있습니다.

AI의 답변, 어디까지 믿어야 할까요? 이 글에서는 언어 모델의 판도를 바꾼 Transformer의 작동 원리, AI가 ‘환각(Hallucination)’ 현상을 일으키는 구조적 이유, 그리고 세상을 바꾼 구글의 특허가 AI 개발 생태계에 미친 영향까지 깊이 있게 파헤쳐 봅니다.

ChatGPT 같은 AI와 대화하다 보면 정말 신기할 때가 많죠. 가끔은 거의 마법처럼 느껴지기도 하고요. 오늘은 이 마법 같은 AI 뒤에 숨겨진 진짜 원리를 함께 파헤쳐 보려고 합니다. 인공지능의 뇌라고 하는 ‘신경망’이 정보를 어떻게 처리하고 실수로부터 배우는지, 그리고 요즘 가장 뜨거운 주제인 ‘Transformer’와 ‘어텐션’이 문맥 파악의 핵심이라는데 대체 무엇인지, 이 복잡한 이야기들의 핵심만 쏙쏙 뽑아 나눠보겠습니다.

1. AI의 시작: 신경망은 어떻게 작동할까?

신경망은 본질적으로 숫자를 입력받아 다른 숫자를 출력하는 복잡한 계산 시스템, 즉 ‘함수’입니다. 손글씨 이미지를 보고 “이건 숫자 3이야”라고 맞추는 것처럼요. 가장 기본 단위는 ‘뉴런’이며, 이 뉴런들이 여러 ‘층(Layer)’으로 쌓여 있습니다. 입력층은 이미지 픽셀 값 같은 초기 데이터를 받고, 출력층은 0부터 9까지 각 숫자의 확률 같은 최종 결과를 내놓죠. 이 중간에 있는 ‘은닉층’이 바로 마법이 일어나는 공간입니다.

특히 이미지 인식을 위한 신경망인 합성곱 신경망(CNN)에서는 첫 은닉층이 선이나 곡선 같은 작은 특징을, 다음 층은 그걸 조합해 더 큰 형태를 인식하는 방식으로 작동합니다. 마치 레고 블록으로 작은 조각을 모아 큰 작품을 만드는 것과 유사합니다. 그러나 일반적인 신경망은 이미지의 공간적 구조를 고려하지 않으므로 이러한 계층적 특징 추출이 어렵습니다.

신경망의 확률적 예측: Softmax의 역할

신경망은 어떻게 최종 예측을 확률로 나타낼까요? 마지막 출력층에서 ‘소프트맥스(Softmax)’ 함수가 그 역할을 합니다. 손글씨 숫자 인식 예시에서 출력층의 10개 뉴런은 각자 ‘이 숫자가 0일 점수’, ‘1일 점수’ 등을 계산합니다. 소프트맥스는 이 점수들을 받아서 총합이 1이 되는 확률값으로 변환해 줍니다. 마치 여러 후보의 득표수를 전체 유권자 대비 득표율로 바꿔주는 비유와 같습니다. 예를 들어 ‘8’ 뉴런의 점수가 가장 높았다면, 소프트맥스를 거쳐 {7일 확률: 5%, 8일 확률: 90%, 9일 확률: 3%...} 와 같은 최종 확률을 내놓고, 모델은 가장 확률이 높은 ‘8’을 정답으로 예측하는 것이죠. 이 방식은 Transformer가 다음 단어를 예측할 때도 똑같이 사용됩니다.

2. AI는 어떻게 스스로 똑똑해질까? (학습의 비밀)

처음엔 무작위 값으로 시작하는 수많은 파라미터(가중치와 바이어스)를 어떻게 조절해서 정답을 맞추게 될까요? 핵심은 ‘최적화’입니다. 먼저 모델이 얼마나 틀렸는지를 나타내는 ‘비용 함수(Cost Function)’를 정의합니다. 학습의 목표는 이 비용을 최소화하는 파라미터 조합을 찾는 것이죠.

이때 사용되는 방법이 바로 ‘경사 하강법(Gradient Descent)’입니다. 짙은 안갯속에서 산의 가장 낮은 골짜기를 찾아 한 걸음씩 더듬더듬 내려가는 비유로 설명할 수 있습니다. 수많은 파라미터가 만드는 거대한 지형에서, 현재 위치에서 비용이 가장 가파르게 줄어드는 내리막길(기울기, Gradient)을 찾아 아주 조금씩 내려가는 과정을 반복하는 겁니다.

역전파: 똑똑하고 효율적인 계산법

'역전파(Backpropagation)'는 최종 출력에서 발생한 오차를 네트워크의 각 층으로 거슬러 올라가며, 각 파라미터가 오차에 얼마나 영향을 미쳤는지(기울기)를 계산하는 과정입니다. 이는 복잡한 수학적 연쇄 미분 법칙을 통해 매우 효율적으로 수행되며, 신경망 학습의 핵심 알고리즘입니다.

3. 단어를 숫자로 번역하는 마법: 임베딩 벡터

신경망은 숫자만 이해할 수 있습니다. 그렇다면 ‘고양이’나 ‘사랑’ 같은 단어는 어떻게 처리할까요? 바로 여기서 ‘임베딩 벡터(Embedding Vector)’라는 마법이 등장합니다. 임베딩은 각 단어를 수백 개의 숫자 배열(벡터)로 변환하는 기술입니다.

임베딩 벡터는 단어 간의 통계적 관계를 숫자로 표현해, 모델이 문맥에서 단어의 역할을 추론하는 데 도움을 줍니다. 예를 들어, Word2Vec 같은 고정 임베딩 모델에서는 '왕' 벡터에서 '남자' 벡터를 빼고 '여자' 벡터를 더하면 '여왕' 벡터와 유사한 결과가 나오기도 합니다. 하지만 현대 Transformer 모델은 문맥에 따라 단어의 의미가 변하는 '동적 임베딩'을 사용하므로, 이는 단순한 패턴 인식을 넘어섭니다. 그럼에도 이것이 진정한 의미 이해와는 다릅니다. '사랑'과 '행복'의 벡터가 가깝더라도, 모델이 왜 사랑이 행복을 가져오는지 논리적으로 설명할 수는 없는 것과 같습니다.

4. 언어 모델의 혁신, ‘Transformer’의 등장

이미지 분류를 넘어, AI는 어떻게 문맥 속 숨은 의미를 파악할까요? RNN이나 LSTM 같은 기존 모델들은 단어를 순서대로 처리했기 때문에 문장이 길어지면 앞부분의 정보를 잊어버리는 한계가 있었습니다. 2017년, 구글의 논문 ‘Attention Is All You Need’에서 발표된 ‘Transformer’는 이 문제를 해결하며 언어 모델의 새 시대를 열었습니다.

Transformer의 혁신은 두 가지입니다. 첫째, 단어를 순차적이 아닌 문장 전체를 한 번에 병렬로 처리하여 속도와 효율을 극대화했습니다. 둘째, 바로 그 유명한 ‘어텐션(Attention)’ 메커니즘을 도입하여 문맥 이해 능력을 혁신적으로 끌어올렸습니다.

5. Transformer의 심장, ‘어텐션’ 메커니즘 파헤치기

어텐션의 핵심 아이디어는 간단합니다. “어떤 단어의 진짜 의미를 알려면, 문장 안의 다른 모든 단어와의 관계를 살펴봐야 한다”는 것이죠. 각 단어는 다른 모든 단어에게 “나랑 얼마나 관련 있어?”라고 묻고, 관련성이 높은 단어의 정보에 더 ‘주의(Attention)’를 기울여 자신의 의미를 업데이트합니다.

임베딩 벡터에서 Q, K, V가 생성되는 과정 (비유 포함)

어텐션의 핵심 요소인 쿼리(Q), 키(K), 밸류(V) 벡터는 각 단어의 ‘임베딩 벡터’라는 원재료로부터 만들어집니다. 단어의 고유한 의미 좌표인 임베딩 벡터에, 학습을 통해 얻어진 세 종류의 변환 행렬(Wq, Wk, Wv)을 각각 곱하여 세 가지 역할 벡터를 생성합니다. 하나의 재료(임베딩)를 가지고 각각 다른 레시피(변환 행렬)를 적용해 세 가지 다른 요리(Q, K, V)를 만드는 비유와 같습니다.

연구원(현재 단어)은 자신의 연구 주제(Q)를 모든 책의 제목(K)과 비교해 관련성 점수를 매깁니다. 그리고 점수가 높은 책의 내용(V)을 더 많이 참고하여 자신의 보고서를 풍부하게 만드는 것이죠. 수학적으로는 각 책의 내용(V) 벡터에 해당 관련성 점수(어텐션 가중치)를 곱한 뒤, 이 모든 벡터들을 더하여 최종 결과 벡터를 계산합니다. 관련성 높은 단어들의 목소리는 커지고, 낮은 단어들의 목소리는 작아지는 효과입니다.

여러 관점으로 세상을 보는 ‘멀티-헤드 어텐션’

‘멀티-헤드 어텐션’은 이 어텐션 과정을 여러 세트로 동시에 진행하는 방식입니다. 각 ‘헤드’는 저마다 고유한 변환 행렬(Wq, Wk, Wv 세트)을 가집니다. 즉, 똑같은 임베딩 벡터를 입력받아도 헤드마다 각기 다른 Q, K, V를 만들어냅니다. 이를 통해 어떤 헤드는 문법적 관계를, 다른 헤드는 의미적 관계를 보는 등 서로 다른 관점에서 단어 관계를 파악할 수 있습니다. 여러 분야의 전문가들이 각자 다른 관점으로 분석한 결과를 종합해 최종 보고서를 내는 비유와 같습니다.

6. 현대 LLM의 탄생 과정: 3단계 학습법

그렇다면 이 Transformer 아키텍처를 기반으로 한 현대 LLM은 구체적으로 어떻게 만들어질까요? 일반적으로 크게 3단계의 과정을 거칩니다.

1단계: 사전학습 (Pre-training)
인터넷에 존재하는 거의 모든 텍스트 데이터를 학습하여 언어의 일반적인 패턴을 배우는 단계입니다. 이 과정은 GPU 수천 개로 수개월이 걸리는 엄청난 작업입니다. 비유하자면, 세상의 모든 책을 읽고 언어의 구조, 문법, 세상의 지식 등 기초 소양을 쌓는 과정과 같습니다.
2단계: 미세조정 (Fine-tuning)
사전학습된 모델을 번역이나 요약 같은 특정 과업에 관련된 데이터로 다시 학습시켜 해당 분야에 특화시키는 과정입니다. 기초 소양을 쌓은 학생이 법률이나 의료 같은 전문 분야를 깊게 파고들어 전문가가 되는 과정에 비유할 수 있습니다.
3단계: 인간 피드백 기반 강화학습 (RLHF)
일부 모델은 이 단계를 추가하여 인간의 선호도에 맞는 답변을 생성하도록 최적화합니다. 인간의 피드백을 통해 모델이 사회적 기준에 맞는 답변을 생성하도록 가르치지만, 피드백 데이터의 편향성이나 윤리적 해석의 차이는 여전히 문제로 남습니다.

7. 기술 혁신과 특허: 구글 특허가 바꾼 AI 개발의 판도

2017년에 발표된 ‘Attention Is All You Need’는 역대 AI 관련 논문 중 최다 인용 횟수를 기록한 전설적인 논문입니다. 이 논문 하나로 2018년 이후 자연어 처리 분야는 RNN에서 Transformer 중심으로 완전한 기술 세대교체를 겪게 됩니다. 이 거대한 혁신 뒤에는 구글의 핵심 특허(US 10459278B2)가 자리하고 있습니다.

강력한 특허 권리 범위의 비밀

구글의 Transformer 관련 특허는 특정 구현 방식을 보호하지만, '어텐션' 개념 자체는 공개된 논문을 통해 연구 커뮤니티에 개방되었습니다. 그럼에도 이 특허가 강력한 이유는 다음과 같습니다.

구체적인 기술 구현을 포함한 광범위한 권리 범위: 어텐션 메커니즘을 활용한 특정 신경망 구조와 계산 방법을 구체적으로 기술하여, 유사한 구현을 방지할 수 있습니다.
무효화의 어려움: 기존 기술들을 단순히 조합한 것이 아닌, 기술적 패러다임을 바꾼 혁신이기에 선행기술 조합으로 무효화하기가 곤란합니다.
계층적 방어 구조: 설령 가장 넓은 범위의 독립항이 무효가 되더라도, QKV 구조, 위치 인코딩, 멀티-헤드 등 각 세부 메커니즘을 종속항으로 확보하여 계층적으로 권리를 방어할 수 있습니다.

원본 Transformer와 후속 모델(GPT, BERT)의 결정적 차이

ChatGPT와 같은 후속 모델들은 Transformer의 철학을 계승했지만, 원본 논문의 구조를 그대로 사용하지는 않습니다. 목적에 따라 필요한 부분만 선택하고 발전시켰죠.

GPT 계열 (ChatGPT 등): 디코더(Decoder)만 사용 ✍️
GPT는 글을 생성하는 '창의적인 작가'에 가깝습니다. 원본 Transformer의 '디코더' 부분만 떼어내 발전시켰죠. 주어진 단어들을 보고 다음 단어를 예측하는 과업에 특화되어 있습니다. 이전 단어들만 볼 수 있는 'Causal Attention' 구조를 사용하여, 마치 사람이 글을 쓰듯 순차적으로 가장 자연스러운 문장을 만들어냅니다.
BERT 계열: 인코더(Encoder)만 사용 📚
BERT는 문장의 의미를 깊게 이해하는 '똑똑한 연구원'에 가깝습니다. 원본의 '인코더' 부분에 집중했죠. 문장의 빈칸을 뚫어놓고 앞뒤 문맥을 모두 참고하여 빈칸의 단어를 맞추는 방식으로 학습합니다. 이 '양방향(Bi-directional)' 특성 덕분에 문장 전체의 숨은 의미를 파악하는 데 탁월하며, 검색이나 감성 분석 등에 주로 사용됩니다.

8. 한계와 현실: AI는 왜 거짓말을 할까?

Transformer가 아무리 정교해도, 근본적으로는 방대한 데이터 속 통계적 패턴을 학습하는 것이지 인간처럼 진짜 의미를 ‘이해’하고 ‘추론’하는 것은 아닙니다. 이 구조적 특징 때문에 AI의 고질적인 문제인 ‘환각(Hallucination)’ 현상이 발생할 수밖에 없습니다.

AI가 그럴듯한 거짓말을 하는 이유: ‘환각(Hallucination)’

환각은 모델이 학습 데이터의 통계적 패턴에 의존해 문맥에 적합한 단어를 예측하는 과정에서 발생합니다. 예를 들어, 학습 데이터에서 '세종대왕'과 '맥북 프로'라는 서로 관련 없는 단어가 우연히 가까이 등장했다면, 모델은 이 둘을 조합해 "세종대왕이 맥북 프로를 사용했다"는 허구의 사실을 생성할 수 있습니다. AI 내부에는 사실 여부를 검증하는 ‘팩트 체커’가 내장되어 있지 않기 때문입니다. 다만, 최신 모델들은 외부 지식 검색 도구와 결합되거나 검증 단계를 추가해 환각을 줄이려는 연구가 활발히 진행되고 있습니다.

마무리하며

오늘 우리는 AI의 기본 뉴런에서 시작해 최신 언어 모델의 심장인 Transformer와 어텐션까지, 그 핵심 원리를 따라가 보았습니다. AI는 마법이 아니라, 방대한 데이터 속에서 수학적 원리를 이용해 패턴을 찾고 오차를 줄여나가도록 정교하게 설계된 시스템이라는 것을 확인할 수 있었죠.

한 가지 질문을 던지며 마무리할까 합니다. 현재 모델들은 통계적 연관성에 크게 의존합니다. 미래의 AI는 과연 이 ‘의미 이해’의 간극을 어떻게 메울 수 있을까요? 어쩌면 어텐션을 넘어서는 새로운 아키텍처가 우리를 또 다른 놀라운 세계로 이끌지도 모릅니다. 여러분의 생각은 어떠신가요?

자주 묻는 질문

Q: ChatGPT는 구글의 Transformer와 어떻게 다른가요?

A: 원본 Transformer는 번역을 위해 문장을 이해하는 '인코더'와 문장을 생성하는 '디코더'를 모두 사용했습니다. 반면 ChatGPT 같은 GPT 계열 모델은 문장 생성에 특화된 '디코더' 아키텍처만 사용하고, BERT 같은 분석 모델은 문장 이해에 특화된 '인코더' 아키텍처만 사용합니다.

Q: ‘단어 임베딩’이란 무엇이고 왜 중요한가요?

A: 단어를 컴퓨터가 이해할 수 있는 숫자 배열(벡터)로 변환하는 기술입니다. 단어의 의미를 벡터 공간의 좌표로 표현하여, 의미가 비슷한 단어는 가깝게 위치하도록 만듭니다. 이는 AI가 언어의 의미적 관계를 파악하는 출발점이기 때문에 매우 중요합니다.

Q: 왜 구글의 Transformer 특허는 강력하다고 평가받나요?

A: 특정 구현 방식이 아닌 '어텐션'이라는 개념 자체를 넓게 보호하고, 여러 세부 기술을 종속항으로 두어 방어하기 때문입니다. 이로 인해 특허를 회피하기가 매우 어렵고, AI 개발 생태계에 큰 영향을 미칩니다.

Q: AI가 거짓말을 하는 ‘환각 현상’은 왜 일어나나요?

A: AI는 사실을 말하는 것이 아니라, 다음 단어를 확률적으로 예측(샘플링)하기 때문입니다. 학습 데이터의 통계적 패턴에 따라 사실이 아닌 단어가 높은 확률을 가지면, AI는 그 단어를 선택하여 그럴듯한 거짓말을 만들어낼 수 있습니다.

Untold Stories of Intellectual Property