AI 기초 3강
생성형 AI의 확률 구조
맞는 것처럼 보이는데 어딘가 어색한
왜 그럴듯한가? 생성형 AI의 본질을 파헤칩니다.
🎯 학습 목표
- 생성형 AI가 왜 그럴듯하지만 틀릴 수 있는지 이해하기
- AI의 본질: 가장 그럴듯한 문장을 만드는 확률 시스템 파악
- 생성 과정 4단계 메커니즘 완전 이해
- 확률과 사실의 차이, 할루시네이션 원인 분석
- Temperature 개념과 실전 활용법 익히기
- AI를 올바르게 통제하는 사고방식 갖추기
AI의 확신과 우리의 맹신
생성형 AI는 매우 자신 있게 답변합니다. 그 때문에 우리는 쉽게 믿게 됩니다. 하지만 AI는 “사실”을 말하는 것이 아니라, 학습 데이터에서 가장 그럴듯한 패턴을 조합해 문장을 만들 뿐입니다. 이 차이를 이해하지 못하면 AI의 잘못된 답변을 그대로 받아들이게 됩니다. 특히 AI가 확신에 차서 말할수록 사용자는 맹신하게 되는 경향이 강합니다. 이 현상을 인지하는 것이 첫걸음입니다.
왜 생성형 AI는 그럴듯하지만 틀릴까?
맞는 것처럼 보이는데 어딘가 어색합니다.
AI가 자신 있게 말하면 우리는 믿습니다.
하지만 AI는 "사실"을 말하는 것이 아닙니다.
생성형 AI의 본질
생성형 AI는 진실을 찾는 시스템이 아닙니다. 학습한 데이터의 패턴을 바탕으로 “가장 그럴듯한 다음 단어(토큰)”를 확률적으로 선택해 문장을 조립하는 시스템입니다. 이것이 바로 “그럴듯하지만 어색한” 답변이 나오는 근본 이유입니다. AI는 사실 여부를 판단하지 않고, 단지 데이터에서 빈도가 높은 패턴을 재현할 뿐입니다.
진실을 찾는 시스템이 아니라,
확률에 기반하여 문장을 조립하는 시스템입니다.
생성 과정 4단계 메커니즘
생성형 AI가 하나의 문장을 만들 때 거치는 정확한 과정입니다. 이 과정을 이해하면 왜 AI가 때때로 사실과 다른 답변을 하는지 명확해집니다.
01. 토큰 분해
입력된 문장을 가장 작은 단위(토큰)로 분해합니다.
02. 맥락 확률 계산
이전 단어들과의 관계를 분석해 다음 단어의 확률을 계산합니다.
03. 후보 점수 부여
다음에 올 가능성이 높은 단어들에 점수를 부여합니다.
04. 확률 선택
가장 높은 확률의 단어를 선택하고 → 반복합니다.
오류의 원인: 확률과 사실
높은 확률을 가진 문장이 반드시 사실인 것은 아닙니다. AI는 데이터에 없는 정보도 “추정”하여 채웁니다. 이 과정에서 할루시네이션(환각)이 발생합니다. 예를 들어, 데이터에 없는 사실을 그럴듯하게 만들어 내는 경우가 많습니다. 따라서 AI의 답변은 항상 사실 검증이 필요합니다.
높은 확률 = 사실이 아님
데이터에 없는 정보는 추정하여 채움
심화: Temperature 제어
Temperature는 AI의 창의성과 안정성을 조절하는 핵심 파라미터입니다. 값이 높을수록 다양하고 창의적인 답변이 나오지만 오류 가능성이 커지고, 값이 낮을수록 안정적이지만 반복적이고 지루한 답변이 나옵니다. 실전에서 Temperature를 적절히 조절하면 원하는 스타일의 출력을 얻을 수 있습니다.
High Temperature
다양성 증가 → 창의적 답변
(오류 가능성 상승)
Low Temperature
보수적 선택 → 안정적 답변
(반복적 출력)
📌 핵심 요약
| 구분 | 내용 |
|---|---|
| AI 본질 | 가장 그럴듯한 문장 생성 시스템 |
| 생성 과정 | 토큰 분해 → 맥락 확률 → 후보 점수 → 선택 |
| 오류 원인 | 확률 ≠ 사실, 데이터 추정 |
| Temperature | High: 창의적 / Low: 안정적 |
✅ 스스로 점검하기
- 생성형 AI가 사실을 말하는 것이 아니라 확률적으로 문장을 조립한다는 것을 이해했나요?
- Temperature를 조절하면 답변 스타일이 어떻게 달라지는지 실험해 보았나요?
- AI의 그럴듯한 답변을 볼 때 사실 검증을 해야 한다는 점을 기억했나요?