다시 돌아온 BDA 뉴스레터! GPT가 날 속이고 있다고?😲

4월 트렌드 이슈, 데이터분석가 Q&A, 데이터 공모전 모음, 할루시네이션

2025.05.02 | 조회 520 |
0
|
빅데이터분석학회 B.D.A의 프로필 이미지

빅데이터분석학회 B.D.A

Be Data-literate and Achieve your dream, BDA

안녕하세요! 휴회기간을 끝으로 한달만에 찾아온 BDA 뉴스레터입니다 😁
다들 휴회기간은 잘 보내셨나요? 시험을 보신 대학생 학회원 분들도, 시험준비 혹은 업무로 바쁘신 분들도 있으셨을 것 같습니다! 모두들 좋은 결과 있으셨길 소망합니다 🍀

이번주 부터는 다시 새로운 마음으로 BDA 뉴스레터도 달려가보도록 하겠습니다 💨


5월 1주차 BDA NEWS 🗞️

 

4월 트렌드 이슈

현재 핫한 데이터 트렌드 이슈를 알려드릴게요 ‼️

🌈 감정교류와 보상까지, 뤼튼 ‘AI 서포터’

🌈 외산 CSP의 공공시장 진출

🌈 생성형 AI의 보안 취약점 자동 점검 도구

🌈 생성형 AI의 외부 통합 표준 프로토콜, ‘MCP’

 

더 자세한 내용이 궁금하다면 아래의 버튼을 눌러보세요🤎

 

4월 트렌드 이슈

 

 데이터 분야 채용 공모전 모음.zip

이번 주에도 어김없이 알짜배기 공모전을 가지고 왔습니다 🔥

주저하고 계시다면 지금 당장 도전해보세요 좋은 결과가 기다리고 있을 거예요🍀

✅ 환경부 | 2025 환경 데이터 활용 및 분석 공모 ✅ DACON | 건설용 자각 암성 종류 분류 AI 경진대 ✅ 한국관광공사 | 2025 관광데이터 활용 공모 ✅ 포스코DX | 2025 AI Youth Challenge 제6회 전국 청소년 AI 창의 경진대회

아래의 버튼을 눌러 더 자세한 내용을 확인해보세요 🤎

 데이터 분야 채용 공모전 모음.zip

 

현직자 Q&A : 데이터 분석가 편

인스타그램 무물에서 받은 질문을 바탕으로, 데이터 분석가 현직자의 생생한 답변을 가져왔습니다! 💡 

 

Q. 코딩 테스트는 언제, 어떻게 준비해야하는지 궁금합니다 A. SQL 코딩 테스트의 경우 난이도가 그렇게 어렵지 않습니다. 합격하시는 분들은 40분 이내로 보통 푸는 편입니다. 요즘은 유튜브에도 유명한 강의들이 무료로 많이 나와있기 때문에 한 두달 정도 열심히 공부하신다면 비전공자도 코딩테스트에 충분히 합격할 수 있습니다

Q&A 내용이 더 궁금하다면 밑의 버튼을 눌러보세요🤎

현직자 Q&A : 데이터 분석가 편

 


5월 1주차 DATA 트렌드 인사이트 🧐

GPT가 나를 속이고 있다고?

 

할루시네이션이란?

할루시네이션이란 AI가 사실이 아닌 내용을 그럴듯하게 만들어내는 현상을 의미합니다. 예를 들어, 존재하지 않는 책이나 논문을 인용하거나, 틀린 정보를 실제처럼 제시하는 경우가 이에 해당합니다.

왜 할루시네이션이 발생할까?

- **데이터 품질 및 편향**

대규모 언어모델은 인터넷, 서적, 논문 등 다양한 소스에서 수집한 방대한 텍스트 데이터를 학습합니다. 이 과정에서 오류가 포함된 정보, 편향된 서술, 근거가 부족한 데이터까지 함께 학습하게 됩니다. 이런 노이즈가 모델에 그대로 반영되면 검증되지 않은 정보를 생성할 가능성이 높아집니다.

- **확률적 생성 메커니즘**

언어모델은 다음에 올 단어(토큰)를 확률적으로 예측합니다. 이때 Temperature, Top-k, Top-p 같은 하이퍼파라미터 설정에 따라 덜 확실한 단어가 선택될 수 있습니다. 그 결과, 문법적으로는 자연스럽지만 사실과 다른 문장이 만들어질 수 있습니다.

- **지식 베이스 부재**

순수 생성형 AI 모델은 최신 정보나 특정 도메인에 대한 세부 지식을 내장하고 있지 않습니다. 외부 데이터베이스(지식원)와 연동하지 않으면, 모델이 학습 당시의 오래된 정보만을 바탕으로 답변하게 되어 최신 사실과 어긋날 수 있습니다.

- **맥락(Context) 한계**

한 번에 처리할 수 있는 텍스트 길이(컨텍스트 윈도우)에 제한이 있어, 긴 대화나 문서에서는 앞뒤 맥락을 충분히 반영하지 못합니다. 이로 인해 모델이 기억해야 할 정보가 누락되고, 빈 부분을 임의로 채우면서 허구의 내용이 생성될 수 있습니다.

- **미세조정(Fine-tuning) 및 보강학습(SFT) 오류**

특정 작업에 맞춰 추가 학습하는 과정에서 잘못된 레이블이나 품질 관리가 부족한 데이터가 사용되면, 오히려 부정확한 패턴을 학습하게 됩니다. 특히 ‘사실 검증’이 미흡한 데이터로 미세조정하면 할루시네이션 문제가 심화될 수 있습니다.

 

할루시네이션의 주요 증상

- **날조(Fabrication): 존재하지 않는 정보나 근거를 만들어냄

- **왜곡(Distortion): 실제 사실을 잘못 해석하거나 변형함

- **과잉 일반화(Overgeneralization): 일부 사례를 전체로 확대하여 단정함

 

할루시네이션 대응 방법

- **RAG(Retrieval-Augmented Generation): AI가 외부 데이터베이스를 실시간으로 검색해 근거를 바탕으로 답변하도록 유도

- **사실 검증 시스템 연동: 모델이 생성한 답변을 별도의 시스템이 검증해 오류를 걸러냄

- **프롬프트 최적화: “근거를 제시해라”, “출처를 명확히 밝혀라”와 같이 명확한 지시를 통해 답변의 신뢰도를 높임

---

AI는 매우 뛰어난 도구이지만, 때로는 자신감 넘치는 거짓말쟁이가 될 수도 있습니다. 할루시네이션 문제를 이해하고 적절히 다루는 것이 앞으로 AI를 안전하고 효과적으로 활용하는 핵심이 될 것입니다.

 

[출처 및 참고]

 


작성: 6기 서베이-리포트팀 박찬규, 신미수, 양지호

 

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

빅데이터분석학회 B.D.A 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !

다른 뉴스레터

© 2025 빅데이터분석학회 B.D.A

Be Data-literate and Achieve your dream, BDA

뉴스레터 문의official.bdaa@gmail.com

메일리 로고

도움말 자주 묻는 질문 오류 및 기능 관련 제보 뉴스레터 광고 문의

서비스 이용 문의admin@team.maily.so

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울 서초구 강남대로53길 8, 8층 11-7호

이용약관 | 개인정보처리방침 | 정기결제 이용약관 | 라이선스