최근 나노바나나가 정말 핫합니다. 나노바나나는 이미지 생성 AI인데요. 빠른 속도 + 일관성 + 퀄리티로 전 세계 사람들에게 큰 임팩트를 주었다고 봐요.
오늘은 나노바나나를 개발한 구글 개발자, Logan Kilpatrick의 인터뷰를 각색해서, 어떻게 나노바나나가 개발되었는지 이야기를 가져와 보았어요. '대체 나노바나나의 실체가 무엇인지' 궁금한 분들에게 도움이 될 것 같아요. :)
1. 나노 바나나란 무엇인가
Q. 나노 바나나가 정확히 어떤 모델인가요?
나노 바나나는 사실 코드명이고, 정식 명칭은 Gemini 2.5 Flash Image 모델이에요. 이 모델의 핵심은 단순히 이미지를 생성하는 것을 넘어서 네이티브 멀티모달 아키텍처를 가지고 있다는 점입니다. 텍스트와 이미지를 하나의 통합된 단계에서 처리하도록 처음부터 훈련되었죠.
기존에는 이미지를 잘 생성하는 모델과 이미지를 편집하는 모델이 따로 있었어요. 생성 모델은 예쁜 이미지를 만들 수 있었지만 실제로 활용하기는 어려웠고, 편집 모델은 이미지를 수정할 수 있었지만 제한적이었습니다. 우리가 만든 이 모델은 두 가지 기능을 융합했을 뿐만 아니라, Gemini 모델의 기본 지능까지 결합했어요.
그래서 단순히 사용자가 요청한 대로만 수정하는 게 아니라, 물리 법칙, 빛의 원리, 세상에 대한 이해를 바탕으로 편집을 합니다. 맹목적으로 생성하거나 편집하는 게 아니라 현실과 맥락에 기반해서 작업하는 거죠.
Q. 다른 이미지 AI와 다른 가장 큰 차이점은 뭔가요?
캐릭터 일관성이 가장 큰 차이점이에요. 제가 시연한 예시 중에 'Past Forward'라는 데모가 있는데, 사용자의 사진 하나를 넣으면 1950년대, 1970년대, 1980년대, 2000년대 스타일로 변환해줍니다. 각 시대별로 옷차림, 헤어스타일, 배경은 완전히 달라지지만 얼굴 특징은 그대로 유지되요.
이게 왜 중요하냐면, MidJourney나 OpenAI의 이미지 생성기들은 가장 간단한 작업도 제대로 못했거든요. "내 얼굴은 그대로 두고 마티니 대신 콜라를 들게 해줘"같은 단순한 요청도 처리하지 못했습니다. 하지만 우리 모델은 이런 작업을 자연스럽게 해냅니다.
이게 가능한 이유는 모델이 모든 기능을 통합적으로 가지고 있기 때문이에요. 이미지 이해 능력과 생성 능력이 같은 모델 안에 융합되어 있으면, 다른 모델들이 할 수 없는 일들을 할 수 있게 됩니다. Veo3의 비디오 생성 능력도 Gemini 모델의 비디오 이해 능력에서 비롯된 거예요.
Q. 속도와 비용 면에서는 어떤가요?
거의 실시간으로 이미지가 생성되고 편집돼요. 이게 중요한 이유는 많은 편집이나 생성 경험들이 45초씩 기다려야 하면 사용자들이 떠나버리거든요. 하지만 우리 모델은 그런 지연 없이, 4-5초안에 바로바로 결과를 보여줍니다.
비용도 이미지당 약 4센트 정도예요. 1000장의 이미지를 생성해도 40달러밖에 안 됩니다. 그래서 사용자들이 마음껏 실험하고 놀아도 비용 부담이 크지 않아요.
Google AI Studio에서는 이 모든 기능을 무료로 사용할 수 있어요. 개발자들이 와서 프로토타입을 만들고 테스트하는 데 비용이 전혀 들지 않습니다. 나중 실제 제품을 만들 때 Gemini API를 사용하면 되는 거죠.
Q. 마케팅이나 비즈니스에 실제로 활용할 수 있나요?
직접 만든 예시를 보여드릴게요. 구글 픽셀 10의 제품 사진 하나만 있으면, 그걸로 다양한 광고 포맷을 만들 수 있습니다. 럭셔리 매거진 광고, 지하철 광고, 도시 벽화 광고, 빗속 버스 정류장 광고 등 여러 버전을 즉시 생성할 수 있어요.
더 인상적인 건, 모델이 단순히 제품을 배치하는 게 아니라 맥락을 이해한다는 거예요. 예를 들어 도시 벽화로 만들면 정말 거리에서 볼 법한 자연스러운 벽화가 되고, 지하철 광고로 만들면 실제 지하철에서 볼 법한 광고가 됩니다.
이전에는 이런 작업을 하려면 포토샵을 다룰 줄 아는 사람을 고용해야 했어요. 지금은 그냥 평범한 언어로 "이 제품을 지하철 광고로 만들어줘"라고 하면 됩니다. 20명 규모의 스타트업도 이걸로 소셜 미디어용 콘텐츠를 만들어서 인스타그램이나 X에 올릴 수 있죠.
2. 왜 이렇게 잘 만들 수 있었는가
Q. 구글 딥마인드의 AI 연구가 도움이 된건가요?
맞아요. 데미스 하사비스가 이끄는 딥마인드의 연구가 Gemini에 이식되고 있어요. 데미스는 화학 분야 노벨상을 받은 전 세계 유일한 CEO잖아요. 이 리더십이 한 몫을 했어요.
AlphaFold가 대표적인 예인데, 이전에는 단일 단백질 하나를 접는 데 여러 명의 과학자가 5년 동안 수백만 달러를 써야 했어요. 딥마인드는 강화학습 기술을 사용해서 알려진 우주의 모든 단백질, 그러니까 수백만 개를 전부 접어서 공개했습니다. 하룻밤 사이에 수십만 년 분량의 인간 연구 시간과 수억 달러의 R&D 비용을 절약한 거예요.
최근에는 AlphaEarth라는 지리공간 모델도 나왔는데, Google Earth Engine과 AI를 융합한 거예요. 이런 혁신이 왜 중요하냐면, 이 연구 성과들이 다시 메인 Gemini 모델로 돌아와서 모델을 개선시키거든요.
최근엔 수학 증명을 위한 연구를 했는데, 겉으로 보면 실용적이지 않아 보일 수 있어요. 하지만 이 연구가 Gemini 모델에 통합되면서 추론 능력이 향상됐고, 길고 복잡한 문제를 더 잘 이해하게 됐습니다. 결과적으로 모든 AI 에이전트 사용 사례가 개선된 거죠.
Q. 진짜 인간 수준 AI (AGI) 가 등장할까요?
원래 Gemini 1.0 모델을 네이티브 멀티모달로 만든 이유가 AGI로 가는 길이라고 믿었기 때문이에요. 인간이 여러 능력을 하나의 개체 안에 융합하듯이, 모델도 그래야 한다고 봤죠.
실제로 이 접근법이 맞다는 게 증명되고 있어요. IO 2024에서 우리는 월 500억 개의 토큰을 처리했는데, IO 2025에서는 월 4800억 개가 됐고, 지금은 월 1조(quadrillion) 개를 넘었습니다. 조 다음이 경인데, 사람들이 조보다 큰 숫자를 생각해본 적이 없다면 경이 조 다음이에요. 그리고 둔화될 기미가 전혀 없습니다.
중요한 건 우리가 아직 초기 단계라는 거예요. 제 개인 생활만 봐도 AI가 실제로 도와주는 부분이 그렇게 많지 않아요. 아마 월 수천만 개 토큰 정도? 하지만 미래에는 전문 업무, 개인 생활 등 모든 영역에서 월 수십억 개의 토큰이 각 개인을 위해 사용될 거예요.
TPU(AI 가속기)가 이 확장을 가능하게 하는 핵심이에요. 구글은 하드웨어부터 소프트웨어까지 모든 레이어를 제어할 수 있고, 실제 실리콘 칩 레벨까지 최적화할 수 있습니다. 다른 회사들은 하드웨어를 직접 만들지 않으니까 우리가 할 수 있는 최적화를 못하죠.
그 결과 우리는 계속 비용 대비 성능의 파레토 프론티어에 있었어요. 가장 높은 지능을 가장 낮은 비용으로 제공하는 거죠. Gemini는 처음부터 100만에서 200만 토큰 컨텍스트 윈도우를 지원했고, 연구에 따르면 1000만 토큰까지도 확장 가능합니다. 이런 인프라 우위가 AGI 경쟁에서 중요한 차별화 요소가 될 거예요.
3. 나노바나나를 가장 잘 쓸 수 있는 방법
Q. 나노바나나를 가장 잘 쓸 수 있는 프롬프팅 방법은 뭔가요?
핵심 원칙은 키워드를 나열하지 말고 장면을 설명하라는 거예요. 모델의 핵심 강점은 깊은 언어 이해력이거든요. 서술적인 문단이 단순한 키워드 나열보다 거의 항상 더 좋고 일관된 이미지를 만들어냅니다.
사실적인 이미지를 원한다면 사진작가처럼 생각하세요. 카메라 앵글, 렌즈 타입, 조명, 세부 디테일을 언급하면 모델이 사실적인 결과물을 만들어냅니다. 예를 들어 "85mm 인물 렌즈로 촬영한, 부드럽고 흐릿한 배경을 가진 일본 도예가의 클로즈업 초상화"같은 식으로요.
스티커나 아이콘을 만들 때는 스타일을 명확히 하고, 배경이 필요하면 흰색 배경을 명시적으로 요청하세요. "귀여운 빨간 팬더 스티커, 굵고 깨끗한 외곽선, 간단한 셀 셰이딩, 생생한 색상 팔레트, 배경은 반드시 흰색"처럼요.
이미지 내 텍스트를 정확하게 렌더링할 수도 있어요. 원하는 정확한 텍스트, 폰트 스타일, 전체적인 디자인을 명확히 하면 됩니다. "The Daily Grind라는 커피숍의 현대적이고 미니멀한 로고, 깨끗하고 굵은 산세리프 폰트, 텍스트와 자연스럽게 통합된 커피콩 아이콘"같은 식으로요.
Q. 사진을 여러번 수정하고 싶다면요?
가장 좋은 방법은 '한번에 가장 좋은 사진 뽑아내기'를 연습하는 거예요. 모델이 한 번에 여러 작업을 할 수는 있지만, 여러 지시사항을 겹쳐서 주면 의도를 놓치는 경우가 많습니다.
하지만 나노바나나의 좋은 점은 다중 턴 편집을 해도 이미지 품질이 떨어지지 않는다는 거예요. 그래서 첫 번째 편집에서 모든 걸 완벽하게 할 필요가 없습니다. 작은 단계로 나눠서 편집하면 됩니다.
제가 여자친구의 사무실 커튼 색상을 정하는 걸 도와줬는데, 30초 만에 앱을 만들어서 37가지 다른 녹색 톤의 커튼을 보여줬어요. 그녀는 스크롤하면서 원하는 걸 골라서 바로 아마존에서 주문했죠.
이게 바로 이 모델의 힘이에요. 복잡한 도구 없이도 즉시 시각적 실험을 할 수 있다는 거죠.
4. 나노바나나가 가진 비즈니스 기회
Q. 지금 나노바나나로 비즈니스를 할 수 있을까요?
지금이 정말 중요한 타이밍이에요. 이 모델이 존재한다는 걸 알고 제품을 만드는 사람이 아직 적거든요. 소비자들의 관심은 엄청난데, 실제로 이런 서비스를 제공하는 제품은 손에 꼽을 정도예요.
예를 들어 제가 만든 광고 생성 도구를 보세요. 제품 사진 하나로 럭셔리 매거진 광고, 지하철 광고, 도시 벽화 광고를 만들 수 있어요. 이전에는 각각 다른 디자이너를 고용하거나 에이전시를 써야 했는데, 이제는 몇 초 만에 가능합니다.
부동산이나 인테리어 산업에 쓰기 좋을거에요. AI 홈 디자인 앱을 바이브 코딩으로 만들면, 사용자가 자기 방 사진을 올리고 다양한 스타일을 즉시 시험해볼 수 있어요.
이런 도구를 만드는 데 이제는 개발자가 필요 없습니다.
Q. 지금 당장 나노 바나나를 써야 하는 이유는 뭔가요?
경쟁 우위예요. 이 모델이 존재한다는 걸 알고 제품을 만드는 사람이 아직 제한적이거든요. 이런 사용 사례에 대한 소비자 관심은 엄청난데, 실제로 서비스하는 제품은 몇 개 안 됩니다.
지금 뭔가를 만들어서 사람들 손에 쥐어주면, 대부분 "와, 이런 게 가능해?"라는 반응을 보일 거예요. 길거리의 평범한 사람에게 이걸 보여주면 정말 놀라워할 겁니다.
Q. 앞으로 구글 AI는 어떤 방향으로 가나요?
우리는 아직 시작 단계예요. AI Studio도 완전히 재설계된 경험이 곧 나올 예정이고, 나노 바나나 같은 모델들도 계속 개선될 거예요.
제가 팀과 얘기한 건, 지금 사용자들이 AI 도구를 처음 만났을 때 "뭘 할 수 있는지, 어떤 모델들이 있는지, 각 모델이 뭘 잘하는지" 전부 사용자가 공부하면서 알아내야 한다는 거예요. 우리는 이 부담을 덜어주려고 합니다.
AI가 만드는 생성 UI(바이브코딩)가 흥미로운 기회라고 봐요. 지금까지 소프트웨어는 미리 정해진 대로만 작동했잖아요. 포토샵을 예로 들면, 초보자용 버전, 중급자용 버전, 전문가용 버전을 각각 따로 만들려면 엄청난 비용이 들고 현실적으로 불가능해요.
하지만 AI가 있으면 달라집니다. 사용자가 포토샵 같은 도구를 쓰다가 "배경 지우기"를 하고 싶어한다고 해보세요. AI가 대화를 통해 "아, 이 사람은 배경 지우기 기능이 필요하구나. 그럼 색상 조정 기능도 도움이 될 것 같은데?"라고 판단하면, 그 자리에서 바로 필요한 기능의 코드를 만들어서 화면에 버튼으로 띄워줄 수 있어요.
쉽게 말해서, 각 사용자마다 딱 맞는 맞춤형 소프트웨어를 실시간으로 만들어주는 거예요. 초보자에게는 간단한 3개 버튼만, 전문가에게는 복잡한 20개 기능을 자동으로 보여주는 식으로요. 이게 바로 바이브 코딩이 가능하게 만든 미래입니다.
9월 11일 목요일, '나노바나나로 30분만에 이미지 SaaS 만들기' 무료 바이브코딩 특강을 진행합니다. 단톡방에 입장하셔서, 500+개의 1인 기업가 데이터 베이스 선물을 받아가시고, 오픈 특강을 기다려주세요.
9월 11일, 나노바나나를 제가 직접 바이브코딩하면서, 여러분과 함께 새로운 비즈니스 기회를 탐색해보는 세션을 마련하였어요. 나노바나나를 직접 쉽연동해보고, 제품을 만들어보며 소통하는 시간을 가져보고자 합니다.
일시: 9월 11일 목요일 8시 - 10시
장소: AI 솔로프리너 (조쉬의 뉴스레터) 단톡방
나노바나나를 통한 바이브코딩을 체험해보고, 새로운 비즈니스 기회를 탐색해보세요. :) 또한, 해당 일자에 큰 성원을 받았떤 ASC 2기를 모집합니다.
[단톡방 참여하기]
9월 23일, 카카오의 테크&프로덕트 컨퍼런스 if(kakao)25를 개최합니다. 저도 참가하여 카카오의 제품, 기술 비전을 보게 될 예정이에요.
카카오가 9/23~25 용인 ‘카카오 AI 캠퍼스’에서 if(kakao)25를 엽니다. 슬로건은 ‘가능성, 일상이 되다’. 첫날 카카오톡 대개편, 신규 AI 서비스, 오픈 AI와 만든 공동 프로덕트가 공개되고, 에이전틱 AI 방향성과 자체 모델 ‘카나나‘(언어·멀티모달·영상)의 진화도 소개돼요.
둘째 날엔 온디바이스 AI와 개방형 MCP 'PlayMCP', AI 모델 개발기까지 공개된다고 해요. 현장 체험존 운영하고, 키노트는 온라인 생중계된다고 합니다. 저도 초대받아 같이 참가하니, 함께 구경해요.
- 장소: 경기도 용인시 카카오 AI 캠퍼스
- 일정: 9월 23일(화) ~ 9월 25일(목) *25일은 카카오 개발자 임직원 행사로 진행
- 참가 신청 : ~9월 8일(월) 낮 12시까지
의견을 남겨주세요