🧐 Summary
1️⃣ OpenAI는 감정을 이해하고 감정을 표현할 수 있는 멀티모달 AI로 발전하는 ChatGPT-4o를 내놓았습니다.
2️⃣ 구글은 그들의 다양한 툴이 가진 정보를 통합해서 처리하고 도움을 줄 수 있는 AI로 발전하는 Gemini 1.5 Pro를 공개했습니다.
3️⃣ 생성형 AI가 보다 대중들의 삶에 깊이 들어가기 위해서는 보다 뾰족한 usecase를 발굴하고 커뮤니케이션 하는 것이 우선 시 되어야 할 것 같습니다.
안녕하세요, 구독자. 지난주 소식으로 OpenAI와 Google의 AI 업데이트에 대해 전해드렸죠. 월요일 뉴스로 짧게 다루기에는 너무 아쉬운 소식들이라서 오늘은 이번 OpenAI의 ChatGPT-4o와 Google의 Gemini 1.5 Pro에 대해서 좀 더 자세히 이야기해보려 합니다.
ChatGPT-4o
먼저 Google I/O 2024 하루 전 선수를 친 OpenAI의 ChatGPT-4o부터 알아볼게요.
감정을 이해하며 말하는 ChatGPT-4o
지난 뉴스에서도 말씀드렸듯이 가장 큰 변화는 ‘Voice’였던 것 같습니다. 지금까지의 ChatGPT는 텍스트 기반의 AI로 이 텍스트를 음성으로 읽어주는 것이 가능했다면, 4o에서는 Speech to Speech로 실시간 대화가 가능해졌습니다. 단순히 속도만 빨라지는 것에 그치는 것이 아니라 또 하나의 놀라운 변화는 ‘감정’이 실렸다는 것이었어요. 대화할 때 들리는 주변의 소리, 그리고 나의 목소리에서 상황과 감정을 알아차리고 그에 맞는 감정을 담아 대답해주는 것이 인상적이었죠. 이번 업데이트 공개 시 시연을 보시면 다양한 감정을 목소리에 담아 이야기를 들려주는 것을 확인하실 수 있어요. 로봇이 나오는 bedtime story를 만들어서 읽어달라고 하면서 좀 더 극적으로, 또는 좀 더 로봇의 느낌이 나게 부탁하면 계속 목소리와 어투를 바꿔가며 읽어주더라구요. 그리고 지난 뉴스레터 읽으신 분들은 다양한 음성으로 자장가 불러주는 것도 들어보셨죠?
영상으로 상황을 이해하는 ChatGPT-4o
좀 더 인상적이었던 것은 영상을 통해서 상황을 이해한다는 것이었습니다. 아래 영상을 보시면 케익과 촛불을 보고 누군가의 생일인 것을 인식하고 생일 축하 노래를 불러주는 것을 확인하실 수 있어요.
이 기능을 좀 더 실용적으로 활용한다면, 시각장애인들을 도울 수 있겠죠? 아래 영상에서는 여행 중인 시각장애인에게 주변 환경을 설명해주고 심지어 택시를 잡는 것 까지 디테일하게 도와주는 케이스를 보실 수 있습니다. 전 살짝 감동받았어요. Be My Eyes는 시각장애인들과 시각적 장애가 없는 자원봉사자들을 연결시켜주고 비디오콜로 도움을 주는 앱인데요, 이제 자원봉사자들의 역할을 ChatGPT-4o가 대신할 수 있는 것이죠.
영화 Her에서나 나오던 이야기가 정말 현실이 되고 있습니다. Siri가 처음 등장했을 때 샌프란시스코에서 Siri 사용자들 대상으로 섀도잉을 한 적이 있었어요. 인터뷰를 진행해보면 Siri를 ‘It’이 아닌 ‘She’라고 지칭하는 것도, ‘그녀가 최선을 다하고 있기에 가끔 실수가 있어도 이해한다’는 것도 모두 놀라웠었는데요. Siri가 나온 게 2011년, 그리고 영화 Her이 나온 게 2013년이라고 합니다. 그리고 2024년에는 이렇게 ChatGPT-4o와 이야기를 나눌 수 있는 시대가 왔어요. 사실 ChatGPT를 거의 생산성 도구로만 활용하고 있는 저는 ChatGPT의 발전이 이런 방향일 것이라 생각해보지 않았습니다. 하지만 생성형 AI가 가장 잘하는 일이 인간을 모방하는 것이잖아요. 지적 능력의 발전으로 나의 업무를 대신해주는 것도 생성형 AI의 발전 방향 중 하나이겠지만, 사람과 감정적인 교류를 나누며 마음을 어루만져 주는 Social AI로 발전하고 있는 것이 이번 ChatGPT-4o의 큰 방향성인 것 같아요.
Gemini 1.5 Pro
그럼 ChatGPT-4o과 닮은 듯 하면서도 조금은 다른 결을 지닌 Gemini 1.5 Pro에 대해 알아볼게요. ChatGPT-4o처럼 보이스가 강화된 Gemini 1.5 Pro 역시 영상으로 주변 상황을 인식하여 이를 기반으로 의사소통이 가능하며, 실시간 대화 중간에 말을 끊고 끼어들어 이야기 하는 것도 가능합니다. 하지만 감성적인 교류를 강조하던 ChatGPT와는 달리 Gemini는 구글이 가진 다양한 툴들을 통합하는 역할을 강조합니다. 각자가 가진 자산이 다르기에 생성형 AI가 나아가는 방향 역시 조금은 다른 것 같네요. 올 초 구글은 생성형 AI의 브랜딩을 Gemini로 통합하며 구글의 다양한 툴들의 중심에 Gemini가 있다는 것을 강조했었는데요, 이번 Google I/O에서 이런 면을 여실히 보여주었습니다.
구글의 다양한 툴을 통합하는 중심축, Gemini
아래 영상에서는 구글의 워크스페이스에서 Gemini를 어떻게 활용할 수 있는지 보여주는데요, 최근 이메일들을 요약해달라고 하거나, 미팅을 녹화하고 미팅 내용을 요약할 수도 있습니다.
또한 구글포토에서도 Gemini를 활용할 수 있습니다. 아래 영상에서는 딸 Lucia의 수영 실력이 어떻게 발전해왔는지 구글 포토에게 물어보는 것을 보실 수 있어요. 그럼 구글 포토는 딸의 수영과 관련된 사진들을 정리해서 보여주는 것이죠. 딸이 수영장에서, 바다에서 수영하는 시간들을 훑어보며 어떻게 딸의 수영 실력이 발전해 왔는지 한 눈에 볼 수 있습니다.
아래는 상황을 이해하고 도움을 주는 Gemini 영상이에요. 친구가 피클볼을 하자고 메시지를 보냈는데, 피클볼에 대해서 잘 몰라서 유튜브 영상을 찾아보고 있는 상황이에요. Gemini는 이 상황을 이해하고 지금 보고 있는 비디오에 대해 물어볼 수 있게 해줍니다. 영상에 나오는 경기 룰 하나를 Gemini에게 물어보면 경기 룰을 공부할 수 있는 영상을 제공해주는 것이죠.
감성적인 AI vs. 개인비서 AI
자, ChatGPT-4o와 Gemini 1.5 Pro가 지향하는 바가 상당히 다르다는 거 느끼셨나요? 인간을 닮은 감성적인 AI가 되어가는 ChatGPT와, 진정한 Personal assistant가 되어가는 듯한 Gemini. 이번 발표에서 대중들은 대부분 ChatGPT에게 더 후한 점수를 줬습니다. 예상하지 못했던 깜짝 발표에서 놀라운 업데이트들이 있었기 때문이겠죠. 저 역시 두 회사의 업데이트 소식을 영상으로 접하고는 구글에 약간 실망했던게 사실이구요. 하지만 구글 역시 자신들이 가진 자산을 충분히 활용해서 Gemini를 잘 발전시켜 나가고 있다는 생각이 들어요. 구글을 사용하는 사람들이 구글의 생태계 속에서 쌓아둔 정보들을 잘 활용할 수 있게 도와준다면 그 또한 얼마나 편리한 일이겠어요.
저는 이번 Google I/O를 보면서 제가 아주 좋아하는 작가 테드 창의 단편 모음집 ‘숨’ 중 ‘사실적 진실, 감정적 진실’ 이라는 소설이 떠올랐어요. 이 이야기에서는 사람의 라이프로그를 기록해주는 영상장치가 있어서 인생의 모든 장면이 녹화가 되거든요. 이 이야기의 주인공은 자신의 기억을 바탕으로 글을 쓰다가 자신의 딸의 라이프로그를 보고 자신이 사실이라고 믿고 있었던 자신의 기억이 실은 자신이 임의로 조작해 기억하고 있었던 잘못된 기억이라는 것을 알고 큰 충격에 빠지게 되죠. 우리도 이런 경우가 종종 있죠? 내 기억과 사실이 다른 경우 말이에요. 구글 포토에서 딸의 수영에 대한 추억들을 정리해주는 것을 보면서 아, 이제 우리의 기억은 이 소설 속에서처럼 마음대로 조작될 수 없을 수도 있겠다는 생각이 들었어요.
앞으로 생성형 AI가 변화시킬 미래가 어떤 세상일지 알 수는 없지만, 소비자의 입장에서는 다양하게 발전해 나가는 생성형 AI가 고마울 따름입니다. 이렇게 빠르게 기술이 발전하고 있지만 아직 생성형 AI를 한 번도 써보지 않은 사람들도 주변에 많죠. 지금처럼 AI가 빠르게 발전하는 시기에는 각 제품들이 다양한 가능성을 열어두는 것에 집중하겠지만, 이것들이 정말 대중에게 깊이 스며들기 위해서는 보다 뾰족한 사용케이스를 만들어 나가는 것이 중요할 것 같습니다. 올 2024년 중에는 이 모든 업데이트가 완료될거라고 하니 각자 사용해보시면서 좋았던 사용케이스가 있으면 함께 공유해주세요. 저희도 지속적으로 사용해보며 가끔씩 후기 들려드리겠습니다.
의견을 남겨주세요