들어가며
구독자님, 지난주 학계에서 꽤 충격적인 일이 있었어요. 세계 최대 규모의 머신러닝 학회 ICML[1] 2026이 497편의 논문을 일괄 거부(desk reject)했어요. 이유가 특이해요. 논문 자체의 품질 문제가 아니라, 해당 논문의 저자가 다른 사람의 논문을 심사(peer review)할 때 AI를 몰래 쓴 것이 적발됐기 때문이에요.
"AI를 쓰지 않겠다"고 명시적으로 동의해 놓고, 쓴 거예요.
이 사건이 흥미로운 건, 적발 방법 때문이에요. ICML 조직위는 심사용 논문 PDF에 사람 눈에는 보이지 않는 '워터마크'를 심어뒀어요. 이 워터마크에는 AI에게만 읽히는 지시가 숨겨져 있었고, AI가 그 지시를 따라 리뷰에 특정 문구를 삽입하면 — 적발되는 구조였어요. 17만 개의 문구 사전에서 논문마다 두 개씩 무작위로 뽑았으니, 우연히 겹칠 확률은 100억분의 1 이하예요. 이 방식은 사실 예전에 제가 만든 방식 입니다. 받아드려져 기쁘기도 하면서도 씁쓸한 순간이 아닐 수 없는데...
그런데 저는 이 사건에서 적발 기법보다 더 근본적인 질문이 떠올랐어요. AI 연구의 최전선에 있는 연구자들조차 자신이 동의한 규칙을 어기면서까지 AI에 의존하는 현실 — 이건 개인의 윤리 문제일까요, 아니면 더 구조적인 무언가가 작동하고 있는 걸까요?
오늘은 이 질문을 박사과정생부터 시니어 연구자까지, 연구 생태계 전체의 맥락에서 풀어볼게요.
ICML 연구자는 왜 규칙을 어겼는가
먼저 ICML 사건의 구조를 좀 더 뜯어볼게요. ICML 2026은 AI 활용에 대해 두 가지 정책을 운영했어요. Policy A(보수적)는 심사 과정에서 AI 사용을 완전히 금지하는 것이고, Policy B(허용적)는 논문 이해와 리뷰 다듬기에 AI를 쓸 수 있게 허용하는 거예요. 심사자들은 자기가 원하는 정책을 직접 선택했어요. 즉, Policy A를 선택한 사람은 스스로 "AI를 안 쓰겠다"고 약속한 거예요.
그런데 결과는요. Policy A를 선택한 심사자 중 506명이 AI를 사용한 것으로 적발됐고, 이들이 작성한 리뷰 795건(전체 리뷰의 약 1%)이 삭제됐어요. 이 중 51명은 자신이 쓴 리뷰의 절반 이상이 AI로 작성된 것으로 확인돼 심사자 자격 자체가 박탈됐어요. ICML의 상호 심사(reciprocal review)[2] 정책에 따라, 규칙을 어긴 심사자의 논문 497편(전체 제출의 약 2%)이 거부됐고요.
여기서 주목할 점이 있어요. ICML 조직위가 명시한 것처럼, 이 적발 방법은 가장 노골적인 위반만 잡아내요. 심사 대상 논문의 PDF를 AI에 넣고 결과물을 복사-붙여넣기하는 수준의 위반이요. 워터마크의 존재는 심사 기간 대부분 동안 공개되어 있었고, 조금만 신경 쓰면 피할 수 있었어요. 그런데도 1%가 적발됐다는 건, 실제 AI 활용 비율은 이보다 훨씬 높을 수 있다는 뜻이에요. 제 이전 블로그에서도 언급했듯이 저 PDF 워크마크는 파이썬 스크립트만 한 번 거쳐도 해제가 가능합니다. 그런데도... ICML이라는 권위적이고 국제적 학술대회에 이렇게 제출하다니? 라는 생각이 듭니다.
실제로 학술 출판사 Frontiers가 2025년에 111개국 약 1,600명의 연구자를 대상으로 한 조사에서, 53%가 동료심사에 AI를 사용한 적이 있다고 답했어요. 초기경력 연구자(경력 5년 이하)로 좁히면 87%까지 올라가요. 하지만 많은 학술지와 학회의 정책은 이 현실을 따라가지 못하고 있어요.
박사과정생의 딜레마
이 현상은 학생 수준에서도 똑같이 반복되고 있어요. Nature가 약 3,800명의 박사과정생을 대상으로 진행한 설문에서 75%가 AI가 효율성을 높여준다고 답했고, 71%는 학업에 AI를 쓰는 것이 괜찮다고 했어요. 그런데 동시에 81%는 AI를 완전히 신뢰하지 않으며, 65%는 AI가 사고력·연구력·글쓰기 능력을 약화시킨다고 우려했어요.
영국 고등교육정책연구소(HEPI)의 조사는 변화의 속도를 더 선명하게 보여줘요. 영국 학부생의 AI 도구 사용률은 1년 만에 66%에서 92%로, 평가에 AI를 쓴 비율은 53%에서 88%로 뛰었어요. 조사 책임자 조시 프리먼은 이 정도 행동 변화는 "전례가 거의 없다"고 했고요.
현장의 이야기가 더 생생해요. 칭화대학의 허잉후이는 매일 ChatGPT와 Gemini를 쓰면서도 "AI가 생성한 코드는 반드시 검증해야 한다"고 강조해요. 서호주대학의 리처드 앵은 ChatGPT에게 비료 용량 계산을 맡겼다가 실험이 통째로 실패한 경험이 있어요. AI가 질문 자체를 오해한 거였어요. 그의 교훈은 이래요. "AI는 우리 설계가 이상하다고 절대 알려주지 않아요. 불가능한 작업을 시키면 그냥 해버려요."
아부자 대학의 감염병 모델링 박사과정생 레오나 디알라도 비슷한 경험을 했어요. AI에게 그래프 설명을 시켰더니 값이 증가한다고 말하는데, 실제 그래프는 감소를 보여주고 있었어요. "AI를 쓰기 전에 우리가 묻는 것에 대한 지식이 있어야 실수를 잡을 수 있어요."
결국 핵심은 이거예요. AI는 실행은 빠르지만 판단은 하지 않아요. 그리고 박사과정이 길러야 하는 핵심 역량은 바로 그 '판단'이에요.

'인지적 부채' — 뇌는 이미 반응하고 있다
이 문제가 단순히 '어디까지 써야 하느냐'의 윤리 논쟁에 그치지 않는 이유가 있어요.
MIT 미디어랩의 나탈리야 코스미나 연구팀이 2025년에 발표한 프리프린트[3] "Your Brain on ChatGPT"의 결과가 상당히 인상적이에요. 54명의 참가자를 세 그룹 — 아무 도구 없이 에세이를 쓴 그룹, 검색엔진을 쓴 그룹, ChatGPT를 쓴 그룹 — 으로 나눠 EEG[4]로 뇌 활동을 측정했어요.
결과는 명확했어요. 외부 도구 의존도가 높을수록 뇌의 기능적 연결성이 체계적으로 약해졌어요. 도구 없이 쓴 그룹은 창의성·언어·계획·작업기억 등 뇌 전체가 분산적으로 활성화된 반면, ChatGPT 그룹은 가장 약한 연결 패턴을 보였어요.
더 흥미로운 건 이후의 실험이에요. ChatGPT를 쓰다가 도구 없이 쓰게 된 참가자들은 알파파와 베타파 연결성이 감소한 상태를 보였어요. 연구팀은 이를 '인지적 부채(cognitive debt)'라고 불렀어요. AI에게 인지 작업을 위임하면 당장은 편하지만, 그 대가가 뇌의 연결 패턴 약화로 누적된다는 거예요. ChatGPT를 쓴 참가자들은 자신이 방금 '쓴' 글을 기억하지 못하는 경우도 많았어요. 글에 대한 주인 의식(ownership)도 세 그룹 중 가장 낮았고요.
물론 이 연구는 아직 동료심사를 거치지 않았고, 54명이라는 작은 표본이라는 한계가 있어요. 코스미나 연구원 본인도 "AI가 해롭다"는 단정을 경계했어요. 하지만 방향성은 분명해요. AI에 인지 작업을 아웃소싱하면, 그 작업을 수행하는 뇌의 '근육'이 약해질 수 있다는 거예요.
ICML 사건과 연결해 보면, 구조가 보여요. 연구자들이 "안 쓰겠다"고 약속하고도 AI를 쓴 건, 단순한 게으름이 아닐 수 있어요. 일단 AI에 인지를 위임하는 패턴이 형성되면, 다시 돌아가는 것 자체가 인지적으로 비용이 드는 상태가 되는 거예요.

그래서 무엇을 지켜야 하는가
대학들의 대응은 아직 이 변화를 따라가지 못하고 있어요. 유럽대학협회(EUA)가 유럽 217개 대학을 대상으로 한 조사에서 기존 AI 가이드라인이 충분하다고 답한 곳은 단 5%였어요. 38%는 처음으로 정책을 수립하는 중이었고, 13%는 아예 관련 정책이 없었어요. 한국도 사정이 다르지 않아요. 한국교육학술정보원(KERIS)의 조사에서 교수자의 절반 이상이 "학생 과제가 지나치게 패턴화되고 있다"고 답했지만, AI 활용 기준이 학칙으로 제도화된 사례는 매우 제한적이에요.
그렇다면 이 상황에서 박사과정은 무엇을 길러야 할까요?
학술 지원 기업 The Page Doctor의 아미나 요니스는 실용적인 구분을 제시해요. 문헌 검색과 정리에는 AI를 쓰되, 데이터 분석은 직접 하라고 권해요. 논문 작성도 마찬가지예요. "AI한테 먼저 쓰게 하면 그 틀에서 벗어나기 어려워요. 직접 쓴 다음에 AI로 다듬는 게 나아요."
더 큰 틀에서 보면, 계산 신경과학자 나탈리아 비엘치크의 관점이 흥미로워요. AI와 속도나 기억력으로 경쟁하지 말고, 기계가 여전히 못하는 영역 — 좋은 질문을 설계하고, 모호함 속에서 길을 찾고, 아이디어를 현실 세계에서 검증하는 방법을 고안하는 일 — 에 집중하라는 거예요. 박사과정의 진짜 초능력은 "문제 해결에 대한 체계적 접근법"을 체화하는 것이고, AI는 느리고 개념적인 작업에 더 많은 시간을 확보해주는 도구여야 한다고요.
반대편에는 AI를 아예 거부하는 연구자도 있어요. 호주국립대학의 조류행동학 박사과정생 사무엘레 라멜리니는 작년 11월 처음 AI로 그래프를 그렸는데, 2주 뒤 그 코드도, 무엇을 요청했는지도 기억하지 못했어요. 반면 10년 전 학부 졸업논문의 그래프는 하나하나 기억한다고 해요. "AI는 즉각적 보상을 주지만 배울 수가 없어요." 연구 아이디어를 AI에 넣는 것도 거부해요. "종이, 포스트잇, 화이트보드가 훨씬 나아요."
UNSW의 기후과학자 알렉스 센 굽타는 2025년 Nature 에세이에서 더 날카로운 질문을 던졌어요. 그는 박사과정의 전면 재설계를 주장하면서도 이런 불확실성을 인정해요. "아무도 이 분야가 어떻게 발전할지 예측할 수 없어요. 1년 뒤, 2년 뒤가 다를 수 있어요." 기술 기업들은 AI가 못하는 인지 영역을 발견할 때마다 그 격차를 메우려 할 거라고요.
노르웨이 외스트폴대학의 마니칸단 팔라니차미 교수는 이 문제의 타이밍을 짚어요. "학생들은 학교 다닐 때부터 책임 있는 AI 활용에 대한 윤리적 지침을 받아야 해요. 그렇지 않으면 AI 도구를 조작할 줄은 알지만, 진정한 돌파구를 만들 기초 역량이 없는 연구자 세대를 양산할 위험이 있어요."
오스왈드의 시선
ICML 사건을 보면서 저는 두 가지가 떠올랐어요.
첫 번째는 GTM 전략을 수립하면서 수없이 봐왔던 '도구 채택 곡선'의 패턴이에요. 새로운 도구가 도입되면, 초기에는 "효율성 향상"이라는 프레이밍이 지배해요. CRM이 그랬고, 마케팅 자동화가 그랬어요. 그런데 진짜 문제는 도구 자체가 아니라, 도구가 어떤 행동을 쉽게 만들고, 어떤 행동을 어렵게 만드는지예요. AI는 '남의 논문을 빠르게 훑고 그럴듯한 리뷰를 작성하는 것'을 극도로 쉽게 만들었어요. 그리고 '논문을 천천히 읽으며 자기만의 비판적 관점을 구축하는 것'을 상대적으로 어렵게 — 정확히는 비용이 높게 — 만들었어요.
두 번째는 ICML이 올 7월 서울에서 열린다는 사실이에요. 이 사건은 먼 나라 이야기가 아니에요. 한국의 AI 연구자들도 심사자이자 저자로 참여하는 학회에서 벌어진 일이에요. 그리고 한국 대학원의 현실도 크게 다르지 않아요. 한국산학기술학회지(2025)에 실린 조사에 따르면 한국 대학생의 ChatGPT 인지율은 85.7%, 실제 이용 경험은 89.3%예요.
제가 이 사건에서 가장 구조적으로 중요하다고 보는 건, MIT 연구의 '인지적 부채'와 ICML의 '규칙 위반'을 연결하는 고리예요. 연구자들이 약속을 어긴 건 단순한 게으름이 아닐 수 있어요. 인지적 편의에 한번 적응하면, 되돌아가는 것 자체가 비용이 되는 거예요. 마치 내비게이션에 익숙해진 뒤 지도를 펼쳐놓고 길을 찾는 게 고통스러운 것처럼요.
그렇다면 "AI가 못하는 것에 집중하라"는 조언도 재검토가 필요해요. 센 굽타 말처럼 AI가 못하는 영역은 계속 줄어들 거예요. 제가 보기에 더 견고한 전략은 이거예요. AI가 못하는 것이 아니라, AI를 쓰든 안 쓰든 유지되어야 하는 사고의 근육이 무엇인지 정의하는 것. 비판적 검증, 독창적 질문 설계, 불확실성 속에서의 판단 — 이건 도구가 바뀌어도 가치가 줄지 않아요.
문제는 이 근육을 기르는 훈련 과정 자체를 AI가 대체하고 있다는 점이에요. 이건 도구의 문제가 아니라 교육 설계의 문제예요. 그리고 ICML이 보여준 것처럼, 이건 학생만의 문제가 아니라 연구 생태계 전체의 문제예요.
마치며
- AI는 연구의 효율을 높여주지만, 연구자를 연구자로 만드는 핵심 역량 — 독립적 사고, 비판적 판단, 원천적 질문 설계 — 을 잠식하고 있어요.
- 이 현상은 학생에게만 해당되지 않아요. ICML 사건은 시니어 연구자들도 AI 의존의 인지적 관성에서 자유롭지 않다는 걸 보여줬어요.
- 대학과 학회의 제도는 이 변화를 따라가지 못하고 있고, 개인이 스스로 균형점을 찾아야 하는 상태예요.
요니스의 조언이 의외로 실용적이에요.
"AI는 겨우 3년 정도밖에 안 됐어요. 대부분의 사람들은 AI 없이 박사를 마쳤어요. 여러분도 할 수 있어요."
어쩌면 핵심 질문은 "AI를 쓸 것인가 말 것인가"가 아니라, 라멜리니의 질문일 거예요.
"(AI 덕분에) 한 시간을 아꼈어요. 그래서 뭘 할 건데요?"
📎 참고자료 & 더 읽기
핵심 출처
- Nature, "AI and the PhD student: friend or foe?", Nature 651, 842-844 (2026). : 오늘 뉴스레터의 주요 출발점이에요. 전 세계 박사과정생들의 AI 활용 실태를 인터뷰 중심으로 다뤘어요.
- ICML 2026 Program Chairs, "On Violations of LLM Review Policies", ICML Blog (2026.3.18). : 497편 논문 거부 사건의 공식 발표문이에요. 적발 방법의 기술적 설명과 오탐률(0.0001) 데이터가 포함돼 있어요.
- Nature, "Major conference catches illicit AI use — and rejects hundreds of papers", Nature (2026.3.25). : ICML 사건에 대한 Nature의 후속 보도예요. 학계 반응과 맥락이 잘 정리돼 있어요.
- Kosmyna, N. et al., "Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task", arXiv:2506.08872 (2025). : AI 사용 시 뇌 연결성이 체계적으로 약화된다는 MIT 미디어랩의 EEG 연구예요. 프리프린트(동료심사 전)라는 점은 감안해주세요.
- Sen Gupta, A., "PhD training needs a reboot in an AI world", Nature 647, 27-28 (2025). : 박사과정 재설계를 주장하는 에세이예요. Claude(Opus 4.1)와의 가상 대화를 통해 AI 시대 박사과정의 미래를 실험적으로 탐구한 부록이 흥미로워요.
배경 지식
- Frontiers, "Unlocking AI's untapped potential: responsible innovation in research and publishing" (2025). : 111개국 1,645명 연구자 대상 조사로, 동료심사에서 AI 사용률이 53%라는 데이터의 원출처예요.
- European University Association, "Policies in doctoral education" (2026.1). : 유럽 217개 대학의 박사과정 AI 정책 현황이에요. 5%만이 충분하다고 답한 데이터가 인상적이에요.
- Freeman, J., "AI in assessments: UK undergraduate survey", Higher Education Policy Institute (2025). : 영국 학부생 AI 사용률 급등 데이터의 원출처예요.
- 안광섭, 바이브 코딩 삽질기 EP.01, PDF AI SHIELD, 2025.05.23. : 제가 작년에 만든 제품이에요. 솔루션 통째로 어딘가에 팔았습니다. :)
각주
- [1] ICML (International Conference on Machine Learning): 세계 최대 규모의 머신러닝 학회 중 하나로, NeurIPS, ICLR과 함께 AI 분야 '3대 학회'로 꼽혀요. 2026년에는 7월에 서울에서 열려요. 전체 제출 논문이 2만 편을 넘길 정도로 규모가 커서, 동료심사 시스템에 대한 부담도 그만큼 커요.
- [2] 상호 심사 (Reciprocal Review): 학회에 논문을 제출하는 저자가 다른 사람의 논문도 심사해야 하는 제도예요. 심사자 부족 문제를 해결하기 위해 도입됐어요. ICML의 경우, 심사자가 규칙을 어기면 그 심사자의 논문도 거부되는 연대 책임 구조예요. 이번 사건에서 497편이 거부된 것도 이 구조 때문이에요.
- [3] 프리프린트 (Preprint): 학술 논문이 동료심사를 거치기 전에 arXiv 같은 공개 서버에 미리 올리는 형태예요. 최신 연구를 빠르게 공유할 수 있지만, 검증이 완료되지 않았다는 점을 감안해야 해요.
- [4] EEG (Electroencephalography, 뇌파 검사): 두피에 전극을 붙여 뇌의 전기적 활동을 실시간으로 측정하는 방법이에요. fMRI보다 공간 해상도는 낮지만 시간 해상도가 높아서, 특정 인지 작업 중 뇌가 어떻게 반응하는지 추적하기에 적합해요.

의견을 남겨주세요