📩 AI 트렌드 뉴스레터 (Geumverse Digest)
“AI 통합의 다른 시각: 만들기 / 표현하기 / 착용하기”
TL;DR
- 오픈AI 공동창립자 안드레이 카르파시가 4시간, 100달러로 챗GPT 구조를 재현한 ‘나노챗(NanoChat)’을 공개했다.
- 구글은 ‘비오 3.1(Veo 3.1)’을 통해 AI가 영상과 오디오를 완전하게 통합할 수 있음을 보여줬다.
- 애플은 XR 헤드셋 대신 ‘스마트 안경’ 개발로 방향을 전환하며, 비전 OS(Vision OS)를 중심으로 감각적 AI 생태계를 구축하고 있다.
1. 나노챗(NanoChat): 4시간, 100달러로 만드는 GPT
오픈AI 공동창립자 안드레이 카르파시(Andrej Karpathy)가 챗GPT와 유사한 구조를 단 4시간, 100달러로 구현한 오픈소스 프로젝트 ‘나노챗(NanoChat)’을 공개했다.
이 프로젝트는 8000줄 미만의 파이썬 코드로 구성된 초경량 AI 파이프라인으로, 토크나이징부터 사전학습(Pre-training), 지도학습(SFT), 강화학습(RL), 벤치마크 평가, UI 배포까지 모든 단계를 포함한다.
결과물은 약 5억 6000만 개의 파라미터를 가진 미니 챗봇으로, 단순한 대화와 기본적인 코드 작성, 간단한 문제 풀이가 가능하다.
카르파시는 이 과정을 ‘스피드런(Speedrun)’이라 부르며, “누구나 GPT를 직접 만들어볼 수 있다”는 비전을 제시했다.
그는 복잡한 엔지니어링이 아닌, 직관적이고 감각적인 개발 흐름을 ‘바이브 코딩(Vibe Coding)’이라 정의했다.
그가 운영 중인 AI 교육 플랫폼 ‘유레카 랩스(Eureka Labs)’는 이러한 개발 방식을 교육 커리큘럼으로 확장하고 있다.
플랫폼의 핵심 과정인 ‘LLM101n’은 대규모 언어모델의 구조와 학습 과정을 누구나 실습할 수 있도록 설계되어 있으며, 나노챗은 그 기술적 데모 역할을 맡고 있다.
한국에서도 경량화된 AI 모델 구축 흐름이 이어지고 있다.
네이버의 HyperCLOVA X mini, 업스테이지의 Solar, 리벨리온의 Rebel Core AI칩 등은 모두 자국 내 AI 독립 생태계를 강화하는 방향으로 움직이고 있다.
나노챗은 이런 글로벌 경향 속에서 “개인 단위의 LLM 제작 시대”의 신호탄으로 해석된다.
2. 비오 3.1(Veo 3.1): 영상과 오디오의 경계를 지우다
구글은 5개월 전 공개한 AI 영상 생성 모델 ‘비오 3(Veo 3)’을 업그레이드한 ‘비오 3.1(Veo 3.1)’을 발표했다. 이번 버전은 영상의 물리적 사실감, 조명, 그림자, 질감 표현을 대폭 강화하고, AI 오디오 생성 기능을 완전히 통합했다.
가장 주목받는 기능은 ‘Ingredients to Video’와 ‘Frames to Video’, 그리고 ‘Scene Extension’이다. 세 장의 이미지만으로 시각적 흐름과 사운드를 동시에 구성하거나, 시작과 끝 이미지를 연결해 자연스러운 전환을 구현하며, 기존 영상의 마지막 장면을 최대 1분까지 확장하면서 상황에 맞는 오디오를 자동 생성한다.
사용자는 별도의 후반 편집 없이 톤, 감정, 스토리텔링이 어우러진 완성형 영상을 제작할 수 있다.
이는 AI가 실제 ‘감독의 감각’을 모방하기 시작했다는 의미다.
토마스 일리치 구글 랩스 제품관리 총괄은 “Veo 3.1은 인간 영화 제작자의 사고방식에 가까운 기능을 제공한다”며 “장면 구성과 컷 간 연속성, 오디오 조화를 AI가 자동화했다”고 설명했다.
현재 Veo는 Flow 앱, Gemini API, Vertex AI를 통해 제공되며, 표준(Standard) 모델은 초당 0.40달러, 고속(Fast) 모델은 초당 0.15달러로 이용할 수 있다.
기본 영상 길이는 4~8초이며 확장 기능을 통해 최대 2분 30초 이상으로 제작할 수 있다.
출시 직후 Veo 3.1은 OpenAI의 Sora 2와 직접 비교되었다. 일부 전문가는 “Sora보다 다소 인공적”이라고 평가했지만, 많은 크리에이터들은 “Veo 3.1의 오디오 품질과 장면 확장 기능이 더 뛰어나다”고 평가했다.
한국 시장에서는 Veo 3.1이 영상 제작자의 워크플로를 혁신할 수 있는 도구로 주목받고 있다.
오디오 자동 생성 기능은 기존 편집 툴로는 구현하기 어려웠던 감정 중심의 시각·청각 일체화를 가능하게 하며, 광고·뮤직비디오·스토리보드 영상 제작에 즉시 활용될 수 있다.
3. 애플 비전 OS: 헤드셋에서 안경으로, 감각의 OS를 향해
애플이 저가형 XR 헤드셋 ‘비전 에어(Vision Air)’ 개발을 중단하고, 대신 ‘스마트 안경’ 개발에 집중하고 있다.
이는 비전 프로(Vision Pro)의 상업적 확산이 더디자, 일상에서 착용 가능한 기기로 중심을 옮긴 결정으로 보인다.
블룸버그 보도에 따르면 애플은 현재 개발 중인 두 종류의 AI 안경에 비전 프로의 운영체제인 ‘비전 OS’를 이식하고 있다.
즉, 하드웨어는 바뀌지만 운영체제는 그대로 유지된다.
비전 OS는 공간 인식, 제스처 추적, 오디오 공간화 기능을 포함하며, 안경 형태에서도 작동할 수 있도록 경량화가 진행 중이다.
이는 헤드셋을 포기한 것이 아니라, 향후 안경과 헤드셋을 통합하기 위한 전략적 재배치로 해석된다.
애플은 아이폰–아이패드–워치로 이어진 계층적 생태계처럼, 비전 제품군 역시 여러 단계로 나눌 계획이다.
기본형 안경은 디스플레이 없이 음성 중심의 인터페이스를, 고급형은 AR 기능을, 상위 모델은 비전 프로 후속 XR 헤드셋 형태로 구성된다.
메타의 레이밴 디스플레이 안경이 보여준 ‘포스트 스마트폰’ 가능성과도 맞물린다.
완전 몰입형 헤드셋보다 자연스럽게 착용할 수 있는 안경형 디바이스가 차세대 플랫폼으로 자리 잡는 흐름이다.
이달 중 공개될 신제품 발표에서는 개선된 비전 프로 신형 모델과 함께 M5 칩을 탑재한 아이패드 프로, 맥북 프로가 포함될 예정이다.
내년 초에는 M5 프로·맥스 모델이 추가 공개될 가능성이 높다.
애플의 전략은 ‘감각 중심의 OS’를 기반으로 한 생태계 재편이다.
AI를 서비스 단위로 추가하는 것이 아니라, 기기 간 경험을 하나의 감각적 시스템으로 통합하는 방향이다.
“애플의 진짜 혁신은 기기가 아니라, 기기들을 하나로 묶는 감각의 OS에 있다.”
그렇다면 기술의 다음 단계는 성능이 아니라, 인간이 느끼는 ‘경험의 질’을 얼마나 섬세하게 다룰 수 있는가가 아닐까.
4. 산업군별 인사이트와 바른 발전의 방향
[기술 산업]
나노챗이 보여준 흐름은 AI 인프라의 개인화다.
AI를 거대 자본이 독점하던 시대에서, 개발자 한 명이 스스로 학습 파이프라인을 구축할 수 있는 시대로 전환되고 있다.
이 흐름이 확산될수록 기술은 민주화되지만, 동시에 책임의 무게도 분산된다.
우리는 ‘누가 만들었는가’보다 ‘무엇을 위해 만들고 있는가’를 묻기 시작해야 한다.
→ 앞으로의 방향: 개방형 기술 생태계와 협력 구조 확립
[콘텐츠 산업]
Veo 3.1은 AI가 감정과 서사를 해석하고 시각화하는 능력을 보여줬다.
이는 인간 창작자의 감정 노동을 대체하기보다, 새로운 창작 방식과 협업 모델을 제시한다.
이제 콘텐츠 산업은 AI와 함께 만드는 감정의 시대를 맞이하고 있다.
감정이 기술에 흡수되지 않도록, 우리는 AI를 창작의 파트너로 어떻게 설정할 것인지 고민해야 한다.
→ 앞으로의 방향: 인간 중심의 감정 협업 시스템 설계
[하드웨어 산업]
애플의 비전 OS 전략은 기술의 중심을 성능에서 감각으로 옮기고 있다.
하드웨어가 아니라 경험의 매개체로서의 기기를 만드는 것이다.
디스플레이·센서·칩 산업은 이제 “어떻게 AI가 인간의 감각을 방해하지 않고 확장시킬 수 있는가”라는 질문으로 이동하고 있다.
→ 앞으로의 방향: 감각 친화형 UX 설계와 지속 가능한 디자인 철학
[사회와 정책]
AI가 감각과 경험의 영역으로 들어오면서, 프라이버시·데이터 소유권·윤리적 설계의 문제가 더 복잡해지고 있다.
AI를 단순히 규제할 것이 아니라, ‘신뢰가 내장된 기술(Trust by Design)’로 만들어야 한다.
기술의 자유보다 중요한 것은 기술이 신뢰받는 방식으로 존재하는가다.
→ 앞으로의 방향: 신뢰 기반의 AI 거버넌스 확립
앞으로의 질문
기술은 빠르게 진보하지만, 방향은 여전히 인간이 정한다. 이제 우리는 다음 질문을 던져야 한다.
- AI를 누가, 어떻게, 어떤 목적으로 만들 것인가?
- AI가 감정을 표현할 때, 그 감정은 누구의 것인가?
- 기술이 감각 속에 녹아들 때, 인간의 주체성은 어디에 머무는가?
AI 통합의 진짜 경쟁은 속도가 아니라 철학이다. 누가 더 많이 통합하느냐보다, 무엇을 위해 통합하느냐가 기술의 품격을 결정할 것이다.
AI의 미래는 더 강력한 통합이 아니라, 더 올바른 통합을 향해 가야 한다.
💡 결론
📌 저작권 안내
본 뉴스레터는 공개된 뉴스 기사와 공식 발표를 바탕으로 한 정보 요약 및 해석 콘텐츠입니다.
기사 전문 복사 없이 핵심 요약과 분석 중심으로 구성되었습니다. 문제가 될 경우
요청 즉시 수정 및 삭제하겠습니다.
이 뉴스레터는 GPT-4.0 를 통해 요약·해석되었습니다.
이 뉴스레터의 모든 콘텐츠(텍스트, 이미지, 디자인 등)는 저작권법의 보호를 받으며, 미드저니를 이용한 AI 아트를 창작물을 포함합니다.
뉴스레터 발행자의 승인 없이 무단 복제, 배포, 수정, 전재, 또는 상업적 이용을 금합니다.
개인적인 참고나 공유를 위해 사용하실 경우, 원본 링크를 명확히 표시해 주시기 바랍니다.
![[prompt: 나노챗]](https://cdn.maily.so/du/soloplay/202510/1760845433987150.png)
![[prompt : 나노챗]](https://cdn.maily.so/du/soloplay/202510/1760845494313151.png)

의견을 남겨주세요
Hoffman
Veo 3.1과 애플의 비전 OS까지 한꺼번에 다루신 요약, 정말 잘 읽었습니다. 세 회사가 각기 다른 방식으로 ‘감각의 통합’을 시도하는 모습이 인상 깊어요. 특히 구글의 “감정의 시각화” 접근은 예술적 실험의 새로운 장을 여는 것 같습니다. AI가 창작을 돕는 도구로 발전하는 모습은, https://tunnelrushgame.io 게임처럼 인간과 기술이 함께 리듬을 타는 과정 같아요 — 속도와 몰입 속에서도 결국 조화와 감각이 핵심이죠.
의견을 남겨주세요
Nulls brawl
비공개 댓글 입니다. (메일러와 댓글을 남긴이만 볼 수 있어요)
의견을 남겨주세요
fluffycouga
This is a fascinating glimpse into the future of AI. The integration of Google, Apple, and OpenAI highlights exciting possibilities. Speaking of integration, it reminds me of the simple yet addictive fun of Slope Game, where everything smoothly connects. NanoChat is impressive; imagine what could be created with further AI accessibility! The idea of easily building your own GPT is revolutionary. https://slopegamefree.com/
의견을 남겨주세요
yaqian
Veo 3.1의 영상 오디오 통합 기능은 정말 실용적이에요! 이전에는 영상 생성 후 수동으로 오디오를 입혀야 했는데, 이제 AI가 서사와 감정의 일관성을 자동으로 처리하니 효율이 최소 두 배는 늘겠어요. 빨리 워크플로우에 적용하고 싶어요! https://www.drift-boss.cc/
의견을 남겨주세요