구글 개발자가 말하는 나노바나나의 진짜 실체

최근 나노바나나가 정말 핫합니다. 나노바나나는 이미지 생성 AI인데요. 빠른 속도 + 일관성 + 퀄리티로 전 세계 사람들에게 큰 임팩트를 주었다고 봐요.

오늘은 나노바나나를 개발한 구글 개발자, Logan Kilpatrick의 인터뷰를 각색해서, 어떻게 나노바나나가 개발되었는지 이야기를 가져와 보았어요. '대체 나노바나나의 실체가 무엇인지' 궁금한 분들에게 도움이 될 것 같아요. :)

Logan Kilpatrick과의 인터뷰를 담은 영상(출처: Greg Isenberg 유튜브)

1. 나노 바나나란 무엇인가

Q. 나노 바나나가 정확히 어떤 모델인가요?

나노 바나나는 사실 코드명이고, 정식 명칭은 Gemini 2.5 Flash Image 모델이에요. 이 모델의 핵심은 단순히 이미지를 생성하는 것을 넘어서 네이티브 멀티모달 아키텍처를 가지고 있다는 점입니다. 텍스트와 이미지를 하나의 통합된 단계에서 처리하도록 처음부터 훈련되었죠.

Late Fusion과는 다르게 정보를 초기부터 합치는 Early Fusion은 데이터 간의 미묘한 맥락까지 파악하여 강력한 멀티모달 AI를 가능하게 한다.

기존에는 이미지를 잘 생성하는 모델과 이미지를 편집하는 모델이 따로 있었어요. 생성 모델은 예쁜 이미지를 만들 수 있었지만 실제로 활용하기는 어려웠고, 편집 모델은 이미지를 수정할 수 있었지만 제한적이었습니다. 우리가 만든 이 모델은 두 가지 기능을 융합했을 뿐만 아니라, Gemini 모델의 기본 지능까지 결합했어요.

눈앞의 현실 같은 이미지: 나노 바나나는 마이클 잭슨과 빌리 아일리시를 합성하면서도 물리 법칙과 세계의 맥락을 완벽히 반영했다. 이는 단순한 편집 이상의 AI 역량을 보여준다.(출처: @Lars_pragmata)

그래서 단순히 사용자가 요청한 대로만 수정하는 게 아니라, 물리 법칙, 빛의 원리, 세상에 대한 이해를 바탕으로 편집을 합니다. 맹목적으로 생성하거나 편집하는 게 아니라 현실과 맥락에 기반해서 작업하는 거죠.

Q. 다른 이미지 AI와 다른 가장 큰 차이점은 뭔가요?

캐릭터 일관성이 가장 큰 차이점이에요. 제가 시연한 예시 중에 'Past Forward'라는 데모가 있는데, 사용자의 사진 하나를 넣으면 1950년대, 1970년대, 1980년대, 2000년대 스타일로 변환해줍니다. 각 시대별로 옷차림, 헤어스타일, 배경은 완전히 달라지지만 얼굴 특징은 그대로 유지되요.

실제로 일론 머스크의 사진을 넣고 실행해 본 결과 얼굴 특징은 남겨둔채 시대상에 맞게 이미지를 생성해주는 것을 볼 수 있다.(pastforward.cloud)

이게 왜 중요하냐면, MidJourney나 OpenAI의 이미지 생성기들은 가장 간단한 작업도 제대로 못했거든요. "내 얼굴은 그대로 두고 마티니 대신 콜라를 들게 해줘"같은 단순한 요청도 처리하지 못했습니다. 하지만 우리 모델은 이런 작업을 자연스럽게 해냅니다.

나노 바나나와 다른 모델들과의 비교. 다른 모델들과 비교해 오염 영역을 정교하게 인식하고 제거하는 탁월한 성능을 자랑한다.

이게 가능한 이유는 모델이 모든 기능을 통합적으로 가지고 있기 때문이에요. 이미지 이해 능력과 생성 능력이 같은 모델 안에 융합되어 있으면, 다른 모델들이 할 수 없는 일들을 할 수 있게 됩니다. Veo3의 비디오 생성 능력도 Gemini 모델의 비디오 이해 능력에서 비롯된 거예요.

Q. 속도와 비용 면에서는 어떤가요?

거의 실시간으로 이미지가 생성되고 편집돼요. 이게 중요한 이유는 많은 편집이나 생성 경험들이 45초씩 기다려야 하면 사용자들이 떠나버리거든요. 하지만 우리 모델은 그런 지연 없이, 4-5초안에 바로바로 결과를 보여줍니다.

8월 25일 기준, text-to-image arena에서 나노 바나나가 1위를 기록하며 경쟁 모델들을 앞서나가고 있다.(출처: lmarena.ai)

비용도 이미지당 약 4센트 정도예요. 1000장의 이미지를 생성해도 40달러밖에 안 됩니다. 그래서 사용자들이 마음껏 실험하고 놀아도 비용 부담이 크지 않아요.

지금 Google AI Studio에 들어가면 나노 바나나를 무료로 사용해 볼 수 있다.

Google AI Studio에서는 이 모든 기능을 무료로 사용할 수 있어요. 개발자들이 와서 프로토타입을 만들고 테스트하는 데 비용이 전혀 들지 않습니다. 나중 실제 제품을 만들 때 Gemini API를 사용하면 되는 거죠.

Q. 마케팅이나 비즈니스에 실제로 활용할 수 있나요?

직접 만든 예시를 보여드릴게요. 구글 픽셀 10의 제품 사진 하나만 있으면, 그걸로 다양한 광고 포맷을 만들 수 있습니다. 럭셔리 매거진 광고, 지하철 광고, 도시 벽화 광고, 빗속 버스 정류장 광고 등 여러 버전을 즉시 생성할 수 있어요.

모델 사진과 제품 사진 하나만 있으면 자연스럽게 광고 이미지가 완성된다(출처: @HalimAlrasih)

더 인상적인 건, 모델이 단순히 제품을 배치하는 게 아니라 맥락을 이해한다는 거예요. 예를 들어 도시 벽화로 만들면 정말 거리에서 볼 법한 자연스러운 벽화가 되고, 지하철 광고로 만들면 실제 지하철에서 볼 법한 광고가 됩니다.

사물들의 상호작용과 공간적 관계를 고려하여 실제와 같은 이미지를 구현해 준다(출처: Creative Pad Media 유튜브)

이전에는 이런 작업을 하려면 포토샵을 다룰 줄 아는 사람을 고용해야 했어요. 지금은 그냥 평범한 언어로 "이 제품을 지하철 광고로 만들어줘"라고 하면 됩니다. 20명 규모의 스타트업도 이걸로 소셜 미디어용 콘텐츠를 만들어서 인스타그램이나 X에 올릴 수 있죠.

2. 왜 이렇게 잘 만들 수 있었는가

Q. 구글 딥마인드의 AI 연구가 도움이 된건가요?

맞아요. 데미스 하사비스가 이끄는 딥마인드의 연구가 Gemini에 이식되고 있어요. 데미스는 화학 분야 노벨상을 받은 전 세계 유일한 CEO잖아요. 이 리더십이 한 몫을 했어요.

영국의 인공지능 연구자이자 Google DeepMind와 Ismorphic Labs CEO를 맡고 있는 기업인 Demis Hassabis(24년 노벨 화학상 수상자)

AlphaFold가 대표적인 예인데, 이전에는 단일 단백질 하나를 접는 데 여러 명의 과학자가 5년 동안 수백만 달러를 써야 했어요. 딥마인드는 강화학습 기술을 사용해서 알려진 우주의 모든 단백질, 그러니까 수백만 개를 전부 접어서 공개했습니다. 하룻밤 사이에 수십만 년 분량의 인간 연구 시간과 수억 달러의 R&D 비용을 절약한 거예요.

'알파어스'와 같은 모델은 전 세계의 위성 데이터를 분석하여 기후 변화, 산림 파괴, 수자원 부족 등 복잡한 문제를 실시간에 가깝게 파악한다. 이를 통해 정부와 기관은 자연재해(홍수, 산불 등)에 더 빠르게 대응하고, 환경 보호를 위한 정책을 더 효과적으로 수립할 수 있다.

최근에는 AlphaEarth라는 지리공간 모델도 나왔는데, Google Earth Engine과 AI를 융합한 거예요. 이런 혁신이 왜 중요하냐면, 이 연구 성과들이 다시 메인 Gemini 모델로 돌아와서 모델을 개선시키거든요.

Gemini Deep Think가 IMO 2025(국제 수학 올림피아드)에서 42점 만점에 35점을 획득, 금메달 수준의 성과를 내며 복잡한 수학 증명 연구를 성공시켰다. 이는 시스템에 더욱 유연하고 직관적인 추론 능력을 부여함으로써, 더욱 복잡하고 진보된 수학 문제를 해결할 수 있는 AI를 개발하는 데 한 걸음 더 다가가고 있다는 평가를 받고 있다.(출처: deepmind.google)

최근엔 수학 증명을 위한 연구를 했는데, 겉으로 보면 실용적이지 않아 보일 수 있어요. 하지만 이 연구가 Gemini 모델에 통합되면서 추론 능력이 향상됐고, 길고 복잡한 문제를 더 잘 이해하게 됐습니다. 결과적으로 모든 AI 에이전트 사용 사례가 개선된 거죠.

Q. 진짜 인간 수준 AI (AGI) 가 등장할까요?

원래 Gemini 1.0 모델을 네이티브 멀티모달로 만든 이유가 AGI로 가는 길이라고 믿었기 때문이에요. 인간이 여러 능력을 하나의 개체 안에 융합하듯이, 모델도 그래야 한다고 봤죠.

실제로 이 접근법이 맞다는 게 증명되고 있어요. IO 2024에서 우리는 월 500억 개의 토큰을 처리했는데, IO 2025에서는 월 4800억 개가 됐고, 지금은 월 1조(quadrillion) 개를 넘었습니다. 조 다음이 경인데, 사람들이 조보다 큰 숫자를 생각해본 적이 없다면 경이 조 다음이에요. 그리고 둔화될 기미가 전혀 없습니다.

AI 토큰 사용량의 폭발적인 증가: 단 2개월 만에 500조 개의 토큰이 추가 처리되며 AI 기술의 급성장을 증명하고 있다.(출처: https://blog.google/technology/)

중요한 건 우리가 아직 초기 단계라는 거예요. 제 개인 생활만 봐도 AI가 실제로 도와주는 부분이 그렇게 많지 않아요. 아마 월 수천만 개 토큰 정도? 하지만 미래에는 전문 업무, 개인 생활 등 모든 영역에서 월 수십억 개의 토큰이 각 개인을 위해 사용될 거예요.

TPU(Tensor Processing Unit)는 구글이 인공지능(AI) 및 머신러닝 워크로드에 특화하여 개발한 주문형 반도체(ASIC)다. 일반적인 CPU나 GPU보다 딥러닝 모델의 행렬 연산에 최적화되어 있어, 훈련 및 추론 작업의 속도와 효율성을 크게 향상시킨다.(구글이 클라우드 넥스트 컨퍼런스에서 공개한 최신 TPU 'AI 가속기 칩 '아이언우드')

TPU(AI 가속기)가 이 확장을 가능하게 하는 핵심이에요. 구글은 하드웨어부터 소프트웨어까지 모든 레이어를 제어할 수 있고, 실제 실리콘 칩 레벨까지 최적화할 수 있습니다. 다른 회사들은 하드웨어를 직접 만들지 않으니까 우리가 할 수 있는 최적화를 못하죠.

그 결과 우리는 계속 비용 대비 성능의 파레토 프론티어에 있었어요. 가장 높은 지능을 가장 낮은 비용으로 제공하는 거죠. Gemini는 처음부터 100만에서 200만 토큰 컨텍스트 윈도우를 지원했고, 연구에 따르면 1000만 토큰까지도 확장 가능합니다. 이런 인프라 우위가 AGI 경쟁에서 중요한 차별화 요소가 될 거예요.

3. 나노바나나를 가장 잘 쓸 수 있는 방법

Q. 나노바나나를 가장 잘 쓸 수 있는 프롬프팅 방법은 뭔가요?

핵심 원칙은 키워드를 나열하지 말고 장면을 설명하라는 거예요. 모델의 핵심 강점은 깊은 언어 이해력이거든요. 서술적인 문단이 단순한 키워드 나열보다 거의 항상 더 좋고 일관된 이미지를 만들어냅니다.

사실적인 이미지를 원한다면 사진작가처럼 생각하세요. 카메라 앵글, 렌즈 타입, 조명, 세부 디테일을 언급하면 모델이 사실적인 결과물을 만들어냅니다. 예를 들어 "85mm 인물 렌즈로 촬영한, 부드럽고 흐릿한 배경을 가진 일본 도예가의 클로즈업 초상화"같은 식으로요.

스티커나 아이콘을 만들 때는 스타일을 명확히 하고, 배경이 필요하면 흰색 배경을 명시적으로 요청하세요. "귀여운 빨간 팬더 스티커, 굵고 깨끗한 외곽선, 간단한 셀 셰이딩, 생생한 색상 팔레트, 배경은 반드시 흰색"처럼요.

Gemini 2.5 Flash Image는 이미지 안에 텍스트를 렌더링할 수 있다.

이미지 내 텍스트를 정확하게 렌더링할 수도 있어요. 원하는 정확한 텍스트, 폰트 스타일, 전체적인 디자인을 명확히 하면 됩니다. "The Daily Grind라는 커피숍의 현대적이고 미니멀한 로고, 깨끗하고 굵은 산세리프 폰트, 텍스트와 자연스럽게 통합된 커피콩 아이콘"같은 식으로요.

Q. 사진을 여러번 수정하고 싶다면요?

가장 좋은 방법은 '한번에 가장 좋은 사진 뽑아내기'를 연습하는 거예요. 모델이 한 번에 여러 작업을 할 수는 있지만, 여러 지시사항을 겹쳐서 주면 의도를 놓치는 경우가 많습니다.

하지만 나노바나나의 좋은 점은 다중 턴 편집을 해도 이미지 품질이 떨어지지 않는다는 거예요. 그래서 첫 번째 편집에서 모든 걸 완벽하게 할 필요가 없습니다. 작은 단계로 나눠서 편집하면 됩니다.

나노 바나나의 뛰어난 일관성 덕분에 여러 번의 편집 과정을 거쳐도 처음 의도한 결과물을 그대로 유지할 수 있다. 원하는 이미지가 나올 때까지 끊임없이 수정하고 보완하며 완성도를 높일 수 있다.(출처: blog.google)

제가 여자친구의 사무실 커튼 색상을 정하는 걸 도와줬는데, 30초 만에 앱을 만들어서 37가지 다른 녹색 톤의 커튼을 보여줬어요. 그녀는 스크롤하면서 원하는 걸 골라서 바로 아마존에서 주문했죠.

이게 바로 이 모델의 힘이에요. 복잡한 도구 없이도 즉시 시각적 실험을 할 수 있다는 거죠.

4. 나노바나나가 가진 비즈니스 기회

Q. 지금 나노바나나로 비즈니스를 할 수 있을까요?

지금이 정말 중요한 타이밍이에요. 이 모델이 존재한다는 걸 알고 제품을 만드는 사람이 아직 적거든요. 소비자들의 관심은 엄청난데, 실제로 이런 서비스를 제공하는 제품은 손에 꼽을 정도예요.

예를 들어 제가 만든 광고 생성 도구를 보세요. 제품 사진 하나로 럭셔리 매거진 광고, 지하철 광고, 도시 벽화 광고를 만들 수 있어요. 이전에는 각각 다른 디자이너를 고용하거나 에이전시를 써야 했는데, 이제는 몇 초 만에 가능합니다.

샹들리에를 인식해서 전등을 켜줄 뿐 아니라 거울에 비친 모습까지 구현해준다.(출처: 인스타, @amirhosseinnoori)

부동산이나 인테리어 산업에 쓰기 좋을거에요. AI 홈 디자인 앱을 바이브 코딩으로 만들면, 사용자가 자기 방 사진을 올리고 다양한 스타일을 즉시 시험해볼 수 있어요.

건물 스케치 한 장만 있으면, 비싼 소프트웨어 없이도 실제 사진 같은 렌더링을 얻을 수 있다.

이런 도구를 만드는 데 이제는 개발자가 필요 없습니다.

Q. 지금 당장 나노 바나나를 써야 하는 이유는 뭔가요?

경쟁 우위예요. 이 모델이 존재한다는 걸 알고 제품을 만드는 사람이 아직 제한적이거든요. 이런 사용 사례에 대한 소비자 관심은 엄청난데, 실제로 서비스하는 제품은 몇 개 안 됩니다.

nano-banana.app이라는 이름을 선점하고 단순한 기능으로 이미 수익화를 실현하고 있는 SaaS.

지금 뭔가를 만들어서 사람들 손에 쥐어주면, 대부분 "와, 이런 게 가능해?"라는 반응을 보일 거예요. 길거리의 평범한 사람에게 이걸 보여주면 정말 놀라워할 겁니다.

Q. 앞으로 구글 AI는 어떤 방향으로 가나요?

우리는 아직 시작 단계예요. AI Studio도 완전히 재설계된 경험이 곧 나올 예정이고, 나노 바나나 같은 모델들도 계속 개선될 거예요.

제가 팀과 얘기한 건, 지금 사용자들이 AI 도구를 처음 만났을 때 "뭘 할 수 있는지, 어떤 모델들이 있는지, 각 모델이 뭘 잘하는지" 전부 사용자가 공부하면서 알아내야 한다는 거예요. 우리는 이 부담을 덜어주려고 합니다.

소프트웨어 개발시 단계에 대한 예상 비용. 위 표에서 보듯, 디자인(UI/UX)과 개발에만 전체 비용의 60~75%가 소요된다. 하지만 AI는 이 거대한 비중을 차지하는 과정을 자동화하고, 사용자에 맞춰 '초개인화된 버전'을 실시간으로 만들어낼 수 있다. 이는 엄청난 시간과 비용을 절감하는 동시에, 전에 없던 기회를 열어줄 것이다.(출처: wearetenet)

AI가 만드는 생성 UI(바이브코딩)가 흥미로운 기회라고 봐요. 지금까지 소프트웨어는 미리 정해진 대로만 작동했잖아요. 포토샵을 예로 들면, 초보자용 버전, 중급자용 버전, 전문가용 버전을 각각 따로 만들려면 엄청난 비용이 들고 현실적으로 불가능해요.

AI가 사용자의 의도를 먼저 읽어낸다. 이미지를 클릭하는 순간, AI가 편집하려는 오브젝트를 정확히 파악하고 바로 작업 가능한 UI를 제안한다. 마치 AI가 당신의 다음 행동을 미리 아는 것처럼(나노 바나나로 만든 AI 가상 이미지)

하지만 AI가 있으면 달라집니다. 사용자가 포토샵 같은 도구를 쓰다가 "배경 지우기"를 하고 싶어한다고 해보세요. AI가 대화를 통해 "아, 이 사람은 배경 지우기 기능이 필요하구나. 그럼 색상 조정 기능도 도움이 될 것 같은데?"라고 판단하면, 그 자리에서 바로 필요한 기능의 코드를 만들어서 화면에 버튼으로 띄워줄 수 있어요.

구글이 공개한 AI 기반 도구 '스티치(Stitch)'. 사용자의 자연어 명령이나 이미지를 바탕으로 앱 디자인과 프런트엔드 코드를 즉시 생성하며, 디자인 구상을 현실로 만드는 데 걸리는 시간을 획기적으로 단축해준다. 현재 구글 랩스에서 실험 단계로 제공되고 있다.(출처: timesofindia)

쉽게 말해서, 각 사용자마다 딱 맞는 맞춤형 소프트웨어를 실시간으로 만들어주는 거예요. 초보자에게는 간단한 3개 버튼만, 전문가에게는 복잡한 20개 기능을 자동으로 보여주는 식으로요. 이게 바로 바이브 코딩이 가능하게 만든 미래입니다.

9월 11일 목요일, '나노바나나로 30분만에 이미지 SaaS 만들기' 무료 바이브코딩 특강을 진행합니다. 단톡방에 입장하셔서, 500+개의 1인 기업가 데이터 베이스 선물을 받아가시고, 오픈 특강을 기다려주세요.

9월 11일, 나노바나나를 제가 직접 바이브코딩하면서, 여러분과 함께 새로운 비즈니스 기회를 탐색해보는 세션을 마련하였어요. 나노바나나를 직접 쉽연동해보고, 제품을 만들어보며 소통하는 시간을 가져보고자 합니다.

일시: 9월 11일 목요일 8시 - 10시

장소: AI 솔로프리너 (조쉬의 뉴스레터) 단톡방

나노바나나를 통한 바이브코딩을 체험해보고, 새로운 비즈니스 기회를 탐색해보세요. :) 또한, 해당 일자에 큰 성원을 받았떤 ASC 2기를 모집합니다.

[단톡방 참여하기]

9월 23일, 카카오의 테크&프로덕트 컨퍼런스 if(kakao)25를 개최합니다. 저도 참가하여 카카오의 제품, 기술 비전을 보게 될 예정이에요.

카카오가 9/23~25 용인 ‘카카오 AI 캠퍼스’에서 if(kakao)25를 엽니다. 슬로건은 ‘가능성, 일상이 되다’. 첫날 카카오톡 대개편, 신규 AI 서비스, 오픈 AI와 만든 공동 프로덕트가 공개되고, 에이전틱 AI 방향성과 자체 모델 ‘카나나‘(언어·멀티모달·영상)의 진화도 소개돼요.

둘째 날엔 온디바이스 AI와 개방형 MCP 'PlayMCP', AI 모델 개발기까지 공개된다고 해요. 현장 체험존 운영하고, 키노트는 온라인 생중계된다고 합니다. 저도 초대받아 같이 참가하니, 함께 구경해요.