7월 2주차 : 새로 공개된 신기한 생성 AI 모델 🧙‍♂️

새로 공개된 놀라운 5가지 생성 AI 모델과 데모 영상을 확인해 보세요

2024.07.10 | 조회 443 |

ℹ️ 빠르게 발전중인 생성 AI 기술 중 가장 주목할만한 모델을 격주로 큐레이션해서 보내드리는 뉴스레터에요. ✉️

ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑‍💻

ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺

데모 영상👇

MotionBooth: Motion-Aware Customized Text-to-Video Generation

MiraData는 매우 짧은 클립으로 구성된 일반적인 데이터 세트에 비해 잘리지 않은 긴 비디오 세그먼트(1~2분)를 제공하므로 더 나은 콘텐츠 모델링이 가능합니다.
각 동영상에는 평균 349단어에 달하는 다양한 관점의 상세한 캡션이 포함되어 있어 데이터 집합의 설명 품질을 풍부하게 합니다.
현재는 게임 경험과 도시/풍경 탐험을 다루며 다양한 비디오 콘텐츠를 제공하고 있고 향후 릴리스에서 더 많은 시나리오와 향상된 데이터 세트 품질로 확장할 계획입니다.

데모 영상👇

MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

InternLM-XComposer-2.5(IXC-2.5)는 텍스트와 이미지 모두에서 콘텐츠를 이해하고 제작하는 데 탁월하며, 크기는 훨씬 작으면서도 GPT-4V와 같은 고급 모델에 필적합니다.
광범위한 입출력을 처리할 수 있어(최대 96K 토큰) 초고해상도 이미지 및 세밀한 비디오 분석과 같이 상세하고 긴 맥락을 이해해야 하는 작업에 매우 효과적입니다.
IXC-2.5는 웹 페이지와 고품질 텍스트-이미지 기사를 생성할 수 있어 단순한 이해 작업을 넘어 실제 응용 분야에서도 유용합니다.

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

라이브포토는 텍스트에 설명된 동작, 카메라 움직임을 정확하게 애니메이션화해 정적 이미지에 애니메이션을 생성할 수 있는 텍스트-투-비디오 기술입니다.
Stable Diffusion을 기반으로 이미지 입력을 통합하고 더 나은 시간적 모델링을 위한 모션 모듈을 추가하여 개선되었습니다.
이 시스템은 모션 강도를 추정하고 텍스트에 가중치를 다시 부여하는 모듈을 도입하여 모호함을 줄이고 비디오 애니메이션을 보다 세밀하게 제어할 수 있습니다.

데모 영상👇

LivePhoto: Real Image Animation with Text-guided Motion Control

사용자가 지정한 특정 지점을 기반으로 GUI를 읽고 해석하는 새로운 방법인 SPR(Screen Point-and-Read)은 현재 화면 읽기 도구의 한계를 해결합니다.
계층적 레이아웃 트리를 사용하여 사용자가 지정한 좌표와 스크린샷을 기반으로 GUI 요소의 콘텐츠, 레이아웃 및 공간 관계를 파악하는 ToL(트리 오브 렌즈) 에이전트 기술 입니다.
ToL 에이전트는 상세한 레이아웃 정보를 제공하여 기존 도구에 비해 더욱 정확한 화면 해석을 가능하게 합니다.

데모 영상👇