원조 AI 맛집 구글 | Google's Gemini, Lumiere, AMIE, AlphaGeometry

💡 이번 달에는 유난히도 구글의 새로운 인공지능 논문, 제품 발표가 많았습니다.

그런데, 왜 찜찜한 기분일까요?

구글의 발표에는 항상 OpenAI와의 비교가 같이 언급됩니다. 반면, OpenAI의 발표에는 그들의 계획과 비전이 있을 뿐이죠.

구글 브레인에서 지금의 GPT를 있게 한 Transformer 가 개발된 만큼, 그들의 저력은 분명 있을 겁니다. 따라 잡았다고 자랑하는거 그만하고, 제치고 먼저 나아가는 모습의 구글을 보고 싶습니다.

언타랩스와 함께, AI의 흥미로운 발전을 계속 따라가고 싶다면?

🚀 뉴스레터 구독

2024년 1월 17일

AlphaGeometry

기하학을 위한 올림피아드 수준의 AI 시스템

구글 딥마인드

인간 올림피아드 금메달리스트와 비슷한 수준으로 복잡한 기하학 문제를 풀 수 있는 인공지능 시스템, AlphaGeometry가 발표됐다.

국제 수학 올림피아드가 얼마나 어려운 수준이냐면,

올림피아드 제한 시간 내에 금상 수상자는 기하학 문제 30문제 중 평균 25.9개를 맞추고 은상은 평균 22.9개, 동상은 평균 19.3개를 맞추곤 한다.

이번에 발표된 구글의 AlphaGeometry는 금메달리스트와 거의 동등하게 25개의 문제를 맞췄다.

참고로 이전 SOTA 모델(Wu's method)은 10개밖에 못 맞추는 수준이었다.

AlphaGeometry가 기하학 문제를 푸는 방식을 쉬운 예제로 설명해보면,

우리가 삼각형 기하학 문제를 풀 때, 가상의 선을 그어 보조선의 도움을 받아 문제의 해를 추론했던 것 처럼 이 모델도 기호 엔진을 사용해 보조선을 긋는다.

복잡한 문제에서도 마찬가지로, 여러 보조선을 그어보고 해를 찾을 때까지 새로운 보조선을 그어보며 추론한다. 단계별로 적절한 전제를 만들면서 말이다.

2015년 국제수학올림피아드 문제라는데, AlphaGeometry는 무려 109개의 논리적 단계를 통해 풀이했다.

인공지능이 기하학 문제를 잘 푸는게 무슨 대수일까?

AlphaGeometry의 우수한 점은 먼저, 인간의 시연 없이 처음부터 스스로 학습했다는 점에 있다. 또한 인간이 수학을 접근하는 방식대로, 논리를 전개해 나가는 법을 보여주었다. 심지어는 인간이 생각해낸 정답보다 더 창의적인 풀이를 내놓기도 했다.

이러한 발전은 인공지능이 단순히 수학을 잘 푼다는 것을 넘어, 논리를 갖기 시작한 첫 걸음이 될지 모른다.

현대사회의 대부분의 공학 문제는 곧 수학을 베이스로 하고 있기 때문에 인간보다 수학을 잘 하는, 더 논리적인 인공지능이 개발된다면 우리가 지금껏 풀지 못하는 수많은 난제들을 대신 해결하게 되는 미래가 오지 않을까 기대해본다.

출처: https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

2024년 1월 23일

구글 크롬 + AI

구글 크롬 블로그 출처

Google Chrome 브라우저에 인공지능 기능들이 자연스럽게 탑재 됐다.

글쓰기 도우미, 자동 탭 정리 도구, 이미지 생성기를 이용한 맞춤 테마 작성기 등이며, 바로 구글 크롬 실험실을 통해 써볼 수 있다.

이번 업데이트는 제품 개선 팀으로서 해야할 당연한 기능추가지만, 아직 유저 입장에서 눈에 띄게 사용성이 좋아진 느낌은 없다.

출처: https://techcrunch.com/2024/01/23/google-chrome-gains-ai-features-including-a-writing-helper-theme-creator-and-tab-organizer/

2024년 1월 24일

유출된 CEO 순다르 피차이의 메모

구글의 2024년 7가지 목표

유출된 순다르 피차이 구글 CEO의 메모에서 올해 구글의 7가지 목표가 공개되었다.

1. 세계에서 가장 진보되고 안전하며 책임감 있는 AI 제공
2. 지식, 학습, 창의성, 생산성 향상
3. 가장 유용한 개인용 컴퓨팅 플랫폼 및 기기 구축
4. 조직과 개발자가 Google Cloud에서 혁신할 수 있도록 지원
5. 세계에서 가장 신뢰받는 제품 및 플랫폼 제공
6. 구글러를 위한 특별한 Google 구축
7. 회사의 속도, 효율성, 생산성 향상, 지속적인 비용 절감
구글 CEO, 순다르 피차이의 메모

한편 요즘 구글은 매우 시끄럽다.

구글에서 8년 넘게 일한 직원의 리더십 부재에 대한 일침부터 올초부터 진행중인 layoff 등..

작년 말 인공지능 도입으로 생산성이 향상된 광고영업부문에서 3만명을 정리해고하겠다 발표한데 이어,

올해에도 인공지능 연구에 더 많은 자원을 투자하기 위해 Layoff를 계속할 계획이라고 한다.

당분간 내부의 혼란은 계속되겠지만, 어쩌면 투자자로서는 기대되는 행보일지도? (는 주식 없습니다)

출처: https://www.inc.com/nick-hobson/a-leaked-memo-from-google-ceo-sundar-pichai-comes-amidst-employee-discontent-no-ceo-wants-this-for-their-company.html

2024년 1월 24일

Lumiere 루미에르

가장 진보된 AI 비디오 생성 알고리즘, 구글의 루미에르가 발표되었다.

이전에도 RunwayML 이라던가, 상용화 툴로 출시된 Pika labs, Heygen, Kaiber, LeiaPix 등. 그러나 이를 압도할만한 성능의 알고리즘이 나왔다.

너무 속상하게도 메일리 뉴스레터에서는 gif를 지원하지 않네... 꼭 Lumiere github 를 방문해서 실제 움직이는 모습을 보면 좋겠다.
여기 : https://lumiere-video.github.io/#section_text_to_video

Text-to-Video

프롬프트 예시)
- Aurora Borealis Green Loop Winter Mountain Ridges Northern Lights
- Astronaut on the planet Mars making a detour around his base

Text-to-Video

Image-to-Video

이미지를 기반으로 영상을 만들어내는 건 훨씬 더 자연스럽다.

예를들어, 진주 목걸이를한 소녀 그림과 함께 "A girl winking and smilling" 텍스트를 주었을 때

Image-to-Video

Stylized Generation 스타일 기반 생성

특정 스타일의 레퍼런스 이미지를 주었을 때, 비슷한 스타일의 2D, 3D 이미지 영상들을 곧잘 만들어낸다.

Stylized Generation

비디오 스타일 변환

소스 비디오를 기반으로 여러 변환을 명령할 수도 있다. 조깅하는 여자를, 나무 블록으로 바꿀수도 종이접기 스타일 또는 장난감 레고 스타일로 바꿀 수도 있다. 그리고 그 결과물이 꽤나 말이 된다.

시네마그래픽스

유저가 특정 영역을 선택할 경우 이미지에 애니메이션을 적용할 수도 있다. 이미 RunwayML의 Gen-2 또는 Pika Labs의 모션 브러쉬로 접해본 기능이긴 해서, 실제 체험해볼 수 있는 프로덕트가 나와야 정확한 비교가 가능해 보인다.

Cinemagraphs

Runway의 Gen-2 모션 브러쉬 성능을 보고 싶다면, 이 영상을 참고해 보자.

Runway Gen 2 Multi Motion Brush Guide (Direct AI Films With 5 Motio...

#runwayml #runwaygen2 #promptengineering #MotionBrush #midjourney #midjourneyv6 #Midjourney6 #AIV...

www.youtube.com

진보된 에디팅 도구들

GIF로 변환하면서 화질이 살짝 깨져서 그렇지, 실제 github에 올라온 결과물의 퀄리티는 정말 놀랍다.

왼쪽의 검게 칠해져 비어있는 빈 요소를 AI가 감쪽같이 채워넣었는데 그 오른쪽의 결과물을 보면 전혀 어색하지 않다.

Video Inpainting

비디오 인페인팅 기술

마찬가지로 영상 안의 일부분을 의도적으로 변화할 수도 있다. 영상 속 일부 영역을 설정하고 자연어 텍스트를 통해 변환시킬 수 있다. 사람의 옷을 바꿀 수도 있고 귀여운 병아리가 샤워 가운을 입은 모습을 만들 수도 있다.

Video Inpainting

Lumiere는 논문으로만 나오고 실제 사용할 수 있는 제품은 아직 나오지 않았지만, 정말 '곧' 이라는 느낌이 든다. text -> image -> video 라는 말은 예전부터 나왔지만 그게 올해가 될 줄은 몰랐다. 너무 빠르다 빨라.

출처: https://lumiere-video.github.io/#section_text_to_video

2024년 1월 25일

의사 구글 인공지능 AMIE

구글 딥마인드가 개발한 AMIE(Articulate Medical Intelligence Explorer)라는 AI 모델은 환자와의 대화를 통해 질병을 진단하는 인공지능이다.

개발을 위해 10만건 이상의 의사와 환자간 대화 녹취록과 임상의가 작성한 의료 요약본 65건 등을 학습했다. 의학 기록의 학습에 더해 시뮬레이션 대화를 통해 자체적으로 학습하는 피드백 기능을 더했다.

AMIE를 테스트하기 위해 캐나다, 인도, 영국의 실험 참가자 20명(*실제 환자가 아니라 배우)을 대상으로 인간 의사와 챗봇 AMIE가 온라인 대화를 나눴다. 실험 참가자들은 149개의 임상 시나리오를 기반으로 실험을 한 다음 그들의 경험을 평가했고, 별도의 전문가 그룹도 인간 의사와 챗봇 AMIE의 성과를 평가했다.

그 결과, 에이미는 6개의 의학 전문 분야에서 인간 의사의 진단 정확도와 일치하거나 이를 능가한 것으로 나타났다. 특히 챗봇은 정중함, 상태와 치료 설명을 비롯해 돌봄과 헌신 등 공감 능력을 표현하는 26개 기준 중 14개에서 인간 의사를 앞선 것으로 나타났다.

전문가 그룹이 평가한 진단의 정확도

대화의 퀄리티에 대한 참가자 설문조사 결과. 붉은색이 AMIE, 파란색이 인간의사.

물론 실제 환자를 대상으로 한 실험이 아니기 때문에 실제 임상 결과 달라질 수도 있으나, 전문분야 특히나 환자와의 대화를 통해 정보를 이끌어내고 판단해야 하는 상담 진단의 영역에서 이미 인공지능이 가진 가능성을 훌륭히 보여준 것으로 보인다.

출처 : https://spectrum.ieee.org/ai-doctor

2024년 1월 25일

Hugging Face 🤝 GCP

구글 클라우드가 허깅페이스와 제휴하여, 클라우드 이용 고객들이 허깅페이스의 다양한 인공지능 모델에 더 쉽게 접근할 수 있도록 지원한다.

Hugging Face는 오픈소스 기반의 인공지능 라이브러리를 제공하는 커뮤니티로 유명하다.

허깅페이스는 많은 기업들이 개방형 모델과 오픈 소스 기술을 활용하여 자체 AI를 구축할 수 있도록 도우며,

이를 위해 개발자들이 최신 모델에 쉽게 접근하고 활용할 수 있도록 인프라를 제공하는 일을 하고 있다.

이번 파트너십을 통해 구글 클라우드 고객은 허깅 페이스 모델을 자사 서비스에 더 쉽게 통합할 수 있게 된다.

MS Azure에 맞서는 AWS와 GCP의 스트레스가 클듯 하다.

OpenAI의 GPT를 단독으로 사용할 수 있는 MS Azure는 GPT 연계 이후 시장 점유율이 더 가파르게 성장하고 있다.

데이터 포인트는 각 년도 별 기사발췌. 그래프는 ChatGPT 생성

참고로 Microsoft는 2020년 9월 GPT-3의 독점 라이센스를 획득했고, ChatGPT(GPT-3.5)가 2022년 11월 출시된 이래 곧바로 12월 MS Azure와 연결되었다.

데이터 더블체크용

출처 : https://huggingface.co/blog/gcp-partnership

2024년 1월 27일

구글의 Gemini Pro가 GPT-4를 이기다

lmsys.org on X: "🔥Breaking News from Arena Google's Bard has just ...

twitter.com

근데 왜 짠할까... 1위가 아니라 2위에 하이라이트된 것에 환호하고 있기 때문이 아닐까?

Google의 Gemini Pro가 HuggingFace의 Chat Bot Arena 리더보드에서 2위를 차지했다. 물론 3위의 GPT-4 를 이긴것은 사실이나, 1위는 여전히 GPT-4 Turbo 모델이다.

하지만 Gemini Pro는 Google의 두 번째로 좋은 모델로, Gemini Ultra는 아직 공개되지 않았기 때문에 충분히 붙을만 하다는 평가이다.

서로 물어뜯는 레이스를 계속하는 가운데, OpenAI의 GPT-5가 나오기 전까지 얼른 Gemini Pro, Ultra가 달려야 할 것 같다.

다만, 계속해서 "따라잡는" 모양새라 불편하다.

제치고 먼저 나아가는 모습의 구글을 보고 싶다.

여러분은 어떻게 생각하시나요?

Google vs. OpenAI & 마소 vs. Meta

이 전쟁에서 구글은 승리할 수 있을까요?

구글 브레인의 탄탄한 연구 성과에는 의심의 여지가 없습니다. 그럼에도 불구하고, 실제 프로덕트로 전환되는 과정에서 구글이 다소 뒤처지고 있다는 인상을 받게됩니다. 최근에는 구글 내부에서조차 리더십 부재가 문제로 지적되고 있습니다. 이는 구글 또한 거의 30년을 바라보는 오래된 회사가 되어가며 조직 내부 갈등과 같은 성장통을 겪고 있음을 시사할지도 모릅니다.

구글에 대한 여러분의 생각은 어떤가요? 구글에게 어떤 기대를 하고 계신가요?

세상을 바꾸는 기술에 관심이 많은 언타랩스입니다.

인공지능 기술이 나의 일과 사회에 미칠 영향을 공부하고 이를 투자와 사업에 적용하고 싶은 분들, 댓글을 통해 이야기 나누며 같이 공부하면 좋겠습니다!

언타랩스와 함께, AI의 흥미로운 발전을 계속 따라가고 싶다면?

🚀 뉴스레터 구독