안녕하세요! 휴회기간을 끝으로 한달만에 찾아온 BDA 뉴스레터입니다 😁
다들 휴회기간은 잘 보내셨나요? 시험을 보신 대학생 학회원 분들도, 시험준비 혹은 업무로 바쁘신 분들도 있으셨을 것 같습니다! 모두들 좋은 결과 있으셨길 소망합니다 🍀
이번주 부터는 다시 새로운 마음으로 BDA 뉴스레터도 달려가보도록 하겠습니다 💨
5월 1주차 BDA NEWS 🗞️
4월 트렌드 이슈
현재 핫한 데이터 트렌드 이슈를 알려드릴게요 ‼️
🌈 감정교류와 보상까지, 뤼튼 ‘AI 서포터’
🌈 외산 CSP의 공공시장 진출
🌈 생성형 AI의 보안 취약점 자동 점검 도구
🌈 생성형 AI의 외부 통합 표준 프로토콜, ‘MCP’
더 자세한 내용이 궁금하다면 아래의 버튼을 눌러보세요🤎
데이터 분야 채용 공모전 모음.zip
이번 주에도 어김없이 알짜배기 공모전을 가지고 왔습니다 🔥
주저하고 계시다면 지금 당장 도전해보세요 좋은 결과가 기다리고 있을 거예요🍀
아래의 버튼을 눌러 더 자세한 내용을 확인해보세요 🤎
현직자 Q&A : 데이터 분석가 편
인스타그램 무물에서 받은 질문을 바탕으로, 데이터 분석가 현직자의 생생한 답변을 가져왔습니다! 💡
Q&A 내용이 더 궁금하다면 밑의 버튼을 눌러보세요🤎
5월 1주차 DATA 트렌드 인사이트 🧐
GPT가 나를 속이고 있다고?
할루시네이션이란?
할루시네이션이란 AI가 사실이 아닌 내용을 그럴듯하게 만들어내는 현상을 의미합니다. 예를 들어, 존재하지 않는 책이나 논문을 인용하거나, 틀린 정보를 실제처럼 제시하는 경우가 이에 해당합니다.
왜 할루시네이션이 발생할까?
- **데이터 품질 및 편향**
대규모 언어모델은 인터넷, 서적, 논문 등 다양한 소스에서 수집한 방대한 텍스트 데이터를 학습합니다. 이 과정에서 오류가 포함된 정보, 편향된 서술, 근거가 부족한 데이터까지 함께 학습하게 됩니다. 이런 노이즈가 모델에 그대로 반영되면 검증되지 않은 정보를 생성할 가능성이 높아집니다.
- **확률적 생성 메커니즘**
언어모델은 다음에 올 단어(토큰)를 확률적으로 예측합니다. 이때 Temperature, Top-k, Top-p 같은 하이퍼파라미터 설정에 따라 덜 확실한 단어가 선택될 수 있습니다. 그 결과, 문법적으로는 자연스럽지만 사실과 다른 문장이 만들어질 수 있습니다.
- **지식 베이스 부재**
순수 생성형 AI 모델은 최신 정보나 특정 도메인에 대한 세부 지식을 내장하고 있지 않습니다. 외부 데이터베이스(지식원)와 연동하지 않으면, 모델이 학습 당시의 오래된 정보만을 바탕으로 답변하게 되어 최신 사실과 어긋날 수 있습니다.
- **맥락(Context) 한계**
한 번에 처리할 수 있는 텍스트 길이(컨텍스트 윈도우)에 제한이 있어, 긴 대화나 문서에서는 앞뒤 맥락을 충분히 반영하지 못합니다. 이로 인해 모델이 기억해야 할 정보가 누락되고, 빈 부분을 임의로 채우면서 허구의 내용이 생성될 수 있습니다.
- **미세조정(Fine-tuning) 및 보강학습(SFT) 오류**
특정 작업에 맞춰 추가 학습하는 과정에서 잘못된 레이블이나 품질 관리가 부족한 데이터가 사용되면, 오히려 부정확한 패턴을 학습하게 됩니다. 특히 ‘사실 검증’이 미흡한 데이터로 미세조정하면 할루시네이션 문제가 심화될 수 있습니다.
할루시네이션의 주요 증상
- **날조(Fabrication): 존재하지 않는 정보나 근거를 만들어냄
- **왜곡(Distortion): 실제 사실을 잘못 해석하거나 변형함
- **과잉 일반화(Overgeneralization): 일부 사례를 전체로 확대하여 단정함
할루시네이션 대응 방법
- **RAG(Retrieval-Augmented Generation): AI가 외부 데이터베이스를 실시간으로 검색해 근거를 바탕으로 답변하도록 유도
- **사실 검증 시스템 연동: 모델이 생성한 답변을 별도의 시스템이 검증해 오류를 걸러냄
- **프롬프트 최적화: “근거를 제시해라”, “출처를 명확히 밝혀라”와 같이 명확한 지시를 통해 답변의 신뢰도를 높임
---
AI는 매우 뛰어난 도구이지만, 때로는 자신감 넘치는 거짓말쟁이가 될 수도 있습니다. 할루시네이션 문제를 이해하고 적절히 다루는 것이 앞으로 AI를 안전하고 효과적으로 활용하는 핵심이 될 것입니다.
[출처 및 참고]
작성: 6기 서베이-리포트팀 박찬규, 신미수, 양지호
의견을 남겨주세요