🧐 Summary
1️⃣ 반복을 통해 중첩되는 패턴을 파악하고 학습하는 것이 딥러닝의 핵심입니다.
2️⃣ 반복이 너무 지나치면 사람도, AI도 성장을 멈추는 지점에 도달합니다.
3️⃣ 성장의 정체 구간이 지나면 어느 순간 성능과 지혜의 퀀텀 점프가 일어날 수 있습니다.
안녕하세요, 구독자님.
저희는 오늘 '좋은 어른' 한 분을 만나 맛있는 식사를 하며 마음을 울리는 이야기들을 듣고 왔어요. inspire X의 구독자이기도 한 그 분이 저희에게 뉴스레터를 쓰면서 한번쯤 한계점을 느끼는 때가 오겠지만, 그래도 그만두지 말고 꾸준히 한다면 그게 쌓여서 좋은 결과를 낼 수 있을 거라는 말씀을 해주셨습니다. AI가 모든 것들을 대신해주고 있는 요즘, 사람이 직접 쓴 글만이 줄 수 있는 울림이 있을거라고 믿고 있지만 그래도 종종 이게 맞는 방향일까 의구심이 드는 순간들이 있는데 오늘의 그 말씀이 큰 힘이 되었습니다.
이번달에 저희가 '반복'이 쌓여서 만들어내는 무언가에 대해 이야기하고 있는데요, 오늘은 사람과 AI의 학습 과정에서 반복이 어떠한 역할을 하는지 생각해보려 합니다.

반투명한 레이어의 중첩
딥러닝에서 모델이 데이터를 반복해서 보고 학습하는 과정을 에포크(Epoch)라고 합니다. 아주 많은 데이터를 학습시킬 때에 이 데이터를 잘라서 여러개의 묶음(Batch)으로 만들고, 이 모든 묶음을 1회 학습하는 것을 에포크라고 해요. 그리고 이 에포크를 여러번 반복해서 트레이닝시키죠. 이 과정은 우리가 얇고 투명한 종이 위에 그린 스케치를 여러장 겹쳐 올리는 것과 비슷합니다.
본질만 남기는 필터링: 각 장의 종이에는 무의미한 얼룩(노이즈)이 있을 수 있어요. 하지만 수백 장의 종이를 겹치면, 각각의 노이즈는 흐려지고 모든 종이에 공통으로 존재하는 핵심 패턴(Signal)만이 굵고 선명하게 남습니다. 이를 통계학에서는 일반화(Generalization)라고 부릅니다. 구체적인 사례들에서 보편적인 법칙을 뽑아내는 추상화의 과정이 바로 우리가 말하는 배움의 본질인거죠.
과적합(Overfitting)과 안주
하지만 이렇게 학습을 반복하다 보면 성장이 멈추는 구간이 옵니다. AI와 인간 모두에게 나타나는 현상이죠.
기계의 과적합: 데이터의 원리를 배우는 대신, 문제와 답 자체를 통째로 외워버리는 상태입니다. 같은 문제집을 열 번 이상 푼다고 생각해보세요. 나도 모르게 전체를 다 외워버리게 될 거에요. 하지만 조금 다른 문제가 나오면 풀 수 없을지도 모릅니다.
사람의 자기만족: 이와 유사하게 사람은 같은 문제집을 열 번 이상 풀고나면 "이 정도면 됐다"고 생각하고 성장을 멈춥니다. 인지 심리학에서는 이걸 학습 고원(Learning Plateau) 현상이라고 불러요.
드롭아웃(Dropout): AI를 개발할 때 일부러 뇌세포의 일부를 꺼버려(Dropout) 모델이 편한 길로만 가려는 습성을 방해하곤 합니다. 우리도 '학습 고원'에 도달했을 때에는 익숙한 루틴을 깨기 위한 불편한 자극이 필요하죠.
그로킹(Grokking)과 퀀텀점프
아무리 반복해도 실력이 늘지 않아 포기하고 싶을 때, 우리는 그로킹이라는 개념에 주목해야 합니다. 그로킹(Grokking)이란 2022년 OpenAI 연구진이 발견한 현상으로, 학습 초기에는 성과가 전혀 없다가 어느 임계점을 넘어서는 순간 갑자기 원리를 깨우치며 성능이 수직 상승(Quantum Jump)하는 현상을 말해요.
단순한 반복(Iteration)이 쌓여 임계점에 도달하면, 흩어져 있던 얇은 종이들이 한순간에 단단한 패턴을 가진 '지혜'로 변화합니다. 심리학자 앤더스 에릭슨이 말한 '의도적 수련(Deliberate Practice)'이 바로 이 퀀텀점프를 만드는 핵심 연료인거죠.
동일한 '반복'을 경험하더라도 사람의 능력에 따라, AI 모델의 성능에 따라 그 결과물은 달라질 수 있습니다. 하지만 배움에서 '반복'이 있다면 조금씩이라도 나아지는 것은 공통된 사실입니다. 각자의 능력이나 성능에 따라 선이 굵어지는 속도는 다르겠지만, 포기하지 않고 반투명한 레이어를 겹치는 행위 자체는 이전보다 더 선명한 선을 만들어 내니까요. AI는 사람의 성장을 본떠 설계되었기 때문인지 AI에 대해 공부하며 가끔은 이렇게 사람으로서의 삶의 태도를 생각해보게 되곤 합니다.
저희도 오늘의 뉴스레터를 통해 또 한 장의 레이어를 쌓아보며, 몇 년 후 두껍게 겹쳐진 종이들 위에 또렷한 선이 그어지기를 기대해봅니다.
[inspire X 오픈카톡방]
https://open.kakao.com/o/gBHmseah
Reference
[1] Power, A., Burda, Y., Edwards, H., Babuschkin, I., & Misra, V. (2022). Grokking: Generalization beyond overfitting on small algorithmic datasets. arXiv preprint arXiv:2201.02177.
[2] Ericsson, A., & Pool, R. (2016). Peak: Secrets from the new science of expertise. Random House.
의견을 남겨주세요