🧐 Summary
1️⃣ AI가 스스로 문제를 만들고 풀며 학습하는 자율 학습 AI에 대한 연구가 주목받고 있어요.
2️⃣ 자율 학습 AI는 정답이 명확히 존재하는 문제에만 활용 가능하기에, 사회적 맥락이 중요한 문제에는 인간의 개입이 여전히 필요해요.
3️⃣ 정답이 없는 문제를 다루는 디자인 영역에서 AI의 제안보다 더 중요한 것은 여전히 사람의 안목과 판단 그리고 그것을 설득하는 능력이라고 생각해요.
안녕하세요, 구독자님. 얼마 전 중국 칭화대에서 진행한 Absolue Zero[1]라는 연구가 공개되어 화제가 되었어요. AI가 스스로 문제를 만들고 풀며 학습하는 '자율 학습(Self-directed Learning)' 개념에서 큰 성과를 보인 연구였거든요. 이제 AI가 스스로 학습할 수 있는 시대임에도 불구하고 여전히 우리는 사람의 개입이 중요함을 인정하고 있습니다. AI가 실제로 활용될 때 사람의 개입을 중요시하는 'Human-in-the-loop(HITL)' 개념이 바로 그런거죠.
오늘은 자율 학습의 최신 사례인 Absolute Zero를 중심으로, AI가 스스로 배우는 구조가 어떻게 발전하고 있는지, 그리고 그럼에도 불구하고 왜 사람의 개입이 중요한지에 대해 함께 살펴보려고 합니다.
자율 학습 AI
AI 연구자들은 최근 들어 자율적으로 학습하고 행동하는 AI에 주목하고 있습니다. 사실 이런 개념 자체는 새로운 것은 아니에요. 대표적으로 우리가 잘 아는 알파고 역시 스스로 바둑을 두고 학습하며 인간 수준을 뛰어넘는 실력을 갖췄죠.
이 외에도 Stanford 대학의 연구진이 선보인 연구[2]에서는 25개의 AI 에이전트로 이루어진 작은 가상 마을을 만들고 각 에이전트가 사람처럼 자발적인 일상을 보내는 모습을 확인했어요. 연구진은 한 에이전트에게 “발렌타인 데이에 파티를 열고 싶다”는 목표를 심어주었는데, 며칠 사이 에이전트들이 서로에게 파티 초대장을 돌리고, 데이트 상대를 구해 파티에 같이 참석하는 등 스스로 관련된 계획을 세우고 협력하는 모습을 보여주며 자기주도적 AI의 새로운 가능성을 보여줬어요.
Uber AI Labs의 ‘Paired Open-Ended Trailblazer (POET)’ 알고리즘[3]은 AI가 스스로 새로운 문제를 생성하고 그 문제를 풀면 난이도나 유형이 다른 새 과제를 스스로 만들어내기를 반복하면서 점점 복잡한 능력을 획득하도록 설계되었어요. 연구 결과, 처음에는 간단했던 AI의 행동이 갈수록 다양해지고 정교해져서 인간 연구자가 미리 설정하지 않은 복잡한 문제들도 AI 스스로 해결해냈습니다.
이렇게 정해진 규칙과 승패가 명확한 게임 환경에서는 자율 학습이 이미 성공적으로 구현되어 온 지 오래에요. 하지만 최근 공개된 ‘Absolute Zero’ 연구[1]는 그 자율학습의 개념을 게임이나 로봇 시뮬레이션과 같은 정형화된 환경을 넘어, 논리적 추론 영역(코딩/수학문제)까지 확장했다는 점에서 큰 의의를 가집니다.
다만 이 방식은 정답이 명확하고 검증이 가능한 문제에만 적용 가능하다는 한계도 분명합니다. 이 연구에서는 코딩이나 수학처럼 '모두가 정답에 동의할 수 있는' 문제를 만들었기에 실행 결과를 통해 정답 여부를 스스로 판단하고 학습한거잖아요. 하지만 우리가 UX 디자이너로서 늘 마주하는 정답이 없는 문제, 사회적 맥락과 해석이 중요한 문제에서는 이러한 접근은 불가능하죠.
그렇기에, Absolute Zero와 같은 자율학습 방식이 놀라운 가능성을 보여줬음에도 불구하고 여전히 우리는 인간의 개입이 필요하다고 믿고 있습니다. 문제를 만들고, 풀고, 검증하는 과정을 스스로 하는 AI가 있더라도, 그 결과를 사회적으로 받아들일 수 있는지, 혹은 그 선택이 정말 좋은 결과를 낳을 것인지는 여전히 사람의 안목과 판단이 필요한 영역이에요.
인간 개입의 필요성
이와 같이 자율 학습이 강력한 학습 메커니즘으로 발전하고 있지만, 실제로 AI가 사회적 맥락 안에서 의미 있게 작동하기 위해서는 여전히 인간의 개입이 필요합니다. 특히 감정적 판단, 윤리적 고려, 문화적 수용성처럼 정답이 명확하지 않은 문제 앞에서는 AI의 판단에 대해 여전히 사람들은 신뢰하지 못하죠. 그렇기에 AI의 학습부터 실행까지 각 단계에서 인간의 개입이 중요함을 강조하는 개념이 바로 Human-in-the-loop입니다.
우선 AI 훈련 단계에서 사람의 판단을 활용하는 강화학습 인간 피드백이 있어요.
OpenAI의 연구[4] 에서는 사람이 원하는 방향으로 보상 신호를 대신 제공하여, AI 에이전트가 복잡한 작업을 수행하도록 만들었습니다 . 사람이 두 개의 수행 결과 영상을 보고 어느 쪽이 더 목표에 부합하는지 알려주는 방식으로 AI를 가르쳤더니, 별도의 명시적 보상 함수를 모르더라도 AI가 성공적으로 학습할 수 있었습니다. 이는 전체 상호작용의 1% 미만에 대해서만 인간이 피드백을 주고도 충분했을 정도로 효율적이었고, 약 한 시간 남짓한 사람의 피드백을 활용해 이전에 불가능했던 새로운 동작(예:시뮬레이터 속 로봇의 백플립 동작)까지 학습시킬 수 있음을 보여주었습니다.
이러한 인간 피드백 기반 학습은 거대 언어모델에서도 좋은 결과를 보였어요. 한 연구[5]에서는 GPT-3를 이용해 사람 평가자들이 올바른 답변에 더 높은 점수를 주도록 모델을 강화학습으로 미세조정했더니, 모델 크기가 100배 작은 13억 파라미터짜리 AI가 오히려 기존 GPT-3보다도 사용자 평가에서 선호되는 결과를 보였어요. 또한 인간 피드백으로 조정한 모델은 사실성 측면에서 더 향상되고 유해한 출력은 줄어드는 동시에, 기존 NLP 성능도 거의 저하되지 않았다고 합니다.
이처럼 사람의 피드백으로 AI의 출력을 바로잡고 조정하는 접근(Reinforcement Learning from Human Feedback, RLHF)은 실제 챗봇이나 콘텐츠 생성 AI의 품질과 신뢰성을 높이는 데 핵심적인 역할을 하고 있습니다.
무엇보다도 AI 시스템 운용 단계에서 인간의 최종 판단은 안전장치로서 중요합니다. 자율적으로 학습한 AI라도 예기치 않은 상황에서는 잘못된 판단을 할 수 있는데, 사람이 중간에 개입해 검토하면 중대한 오류나 윤리적 문제를 걸러낼 수 있기 때문이죠. 이러한 원칙은 여러 연구자들이 강조하는 인간 중심 AI 철학과 일맥상통합니다. Ben Shneiderman은 저서 ‘Human-Centered AI’에서 AI는 어디까지나 인간을 보조하는 도구로 설계되어야 하며, 최종 책임과 통제는 인간에게 있어야 한다고 강조합니다[6] . 결국 AI를 설계할 때 인간의 전문 지식과 가치 판단이 녹아들도록 하는 장치를 넣어야, 기술을 효과적으로 활용하면서도 사회적으로 신뢰할 수 있는 결과를 얻을 수 있다는 것이죠.
자율 학습과 인간 개입, 이 두 가지 접근법 중 어느 하나가 더 낫다고 얘기할 수는 없어요.자기주도적 AI는 데이터 없이도 빠르게 확장 가능하다는 장점이 있지만, 맥락과 윤리, 사회적 수용성은 결국 사람이 판단해야 합니다.
디자인 작업에서도 마찬가지입니다. 아이디어 생성과 반복(iteration)은 AI가 잘 도와줄 수 있습니다. 그러나 무엇을 선택할지, 왜 그것을 선택했는지를 설명하고 설득하는 과정은 여전히 사람의 영역입니다. AI 시대의 디자이너에게 필요한 것은 손의 기술이 아니라, 선택할 줄 아는 눈과 그 선택을 말로 설득할 줄 아는 힘이라는 거, 이제는 모두 동의하시죠?
이런 이야기, 누군가와 함께 나눠보고 싶지 않으세요? 곧 있을 저희 뉴스레터 오프라인 모임에 참석해주세요 :) 아래 링크에서 상세 내용 확인 및 신청 가능하니 많은 관심 부탁드려요!
Reference
[1] Zhao, A., Wu, Y., Yue, Y., Wu, T., Xu, Q., Lin, M., ... & Huang, G. (2025). Absolute Zero: Reinforced self-play reasoning with zero data. arXiv preprint arXiv:2505.03335.
[2] Park, J. S., O’Brien, J. C., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative agents: Interactive simulacra of human behavior. arXiv. Org (2023, April 7) https://arxiv. org/abs/2304.03442 v2.
[3]Wang, R., Lehman, J., Clune, J., & Stanley, K. O. (2019). Paired open-ended trailblazer (poet): Endlessly generating increasingly complex and diverse learning environments and their solutions. arXiv preprint arXiv:1901.01753.
[4] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.
[5] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35, 27730-27744.
[6] Shneiderman, B. (2022). Human-centered AI. Oxford University Press.
의견을 남겨주세요