위클리 생성 AI

7월 2주차 : 새로 공개된 신기한 생성 AI 모델 🧙‍♂️

새로 공개된 놀라운 5가지 생성 AI 모델과 데모 영상을 확인해 보세요

2024.07.10 | 조회 207 |
0
|

신기한 생성AI

“AI로 이런게 된다고??” 매주 발표되는 놀라운 생성 AI 기술만 모아서 보내드려요.

ℹ️ 빠르게 발전중인 생성 AI 기술 중 가장 주목할만한 모델을 격주로 큐레이션해서 보내드리는 뉴스레터에요. ✉️

ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑‍💻

ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺

 

MotionBooth

  • MotionBooth는 피사체와 카메라의 움직임을 모두 제어하여 사용자 지정 피사체에 애니메이션을 적용할 수 있는 새로운 시스템입니다.
  • 몇 개의 이미지를 사용하여 텍스트-비디오 모델을 미세 조정하여 물체의 모양과 특징을 정확하게 캡처합니다.
  • 주제 학습을 개선하고 모션 제어를 통합하는 새로운 기술을 도입하여 부드럽고 사실적인 애니메이션을 보장합니다.

 데모 영상👇

MotionBooth: Motion-Aware Customized Text-to-Video Generation

 

 

MiraData

  • MiraData는 매우 짧은 클립으로 구성된 일반적인 데이터 세트에 비해 잘리지 않은 긴 비디오 세그먼트(1~2분)를 제공하므로 더 나은 콘텐츠 모델링이 가능합니다.
  • 각 동영상에는 평균 349단어에 달하는 다양한 관점의 상세한 캡션이 포함되어 있어 데이터 집합의 설명 품질을 풍부하게 합니다.
  • 현재는 게임 경험과 도시/풍경 탐험을 다루며 다양한 비디오 콘텐츠를 제공하고 있고 향후 릴리스에서 더 많은 시나리오와 향상된 데이터 세트 품질로 확장할 계획입니다.

 데모 영상👇

MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

 

 

InternLM-XComposer-2.5

  • InternLM-XComposer-2.5(IXC-2.5)는 텍스트와 이미지 모두에서 콘텐츠를 이해하고 제작하는 데 탁월하며, 크기는 훨씬 작으면서도 GPT-4V와 같은 고급 모델에 필적합니다.
  • 광범위한 입출력을 처리할 수 있어(최대 96K 토큰) 초고해상도 이미지 및 세밀한 비디오 분석과 같이 상세하고 긴 맥락을 이해해야 하는 작업에 매우 효과적입니다.
  • IXC-2.5는 웹 페이지와 고품질 텍스트-이미지 기사를 생성할 수 있어 단순한 이해 작업을 넘어 실제 응용 분야에서도 유용합니다. 

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

 

 

LivePhoto

  • 라이브포토는 텍스트에 설명된 동작, 카메라 움직임을 정확하게 애니메이션화해 정적 이미지에 애니메이션을 생성할 수 있는 텍스트-투-비디오 기술입니다.
  • Stable Diffusion을 기반으로 이미지 입력을 통합하고 더 나은 시간적 모델링을 위한 모션 모듈을 추가하여 개선되었습니다.
  • 이 시스템은 모션 강도를 추정하고 텍스트에 가중치를 다시 부여하는 모듈을 도입하여 모호함을 줄이고 비디오 애니메이션을 보다 세밀하게 제어할 수 있습니다.

 데모 영상👇

LivePhoto: Real Image Animation with Text-guided Motion Control

 

 

Read Anywhere Pointed

  • 사용자가 지정한 특정 지점을 기반으로 GUI를 읽고 해석하는 새로운 방법인 SPR(Screen Point-and-Read)은 현재 화면 읽기 도구의 한계를 해결합니다.
  • 계층적 레이아웃 트리를 사용하여 사용자가 지정한 좌표와 스크린샷을 기반으로 GUI 요소의 콘텐츠, 레이아웃 및 공간 관계를 파악하는 ToL(트리 오브 렌즈) 에이전트 기술 입니다.
  • ToL 에이전트는 상세한 레이아웃 정보를 제공하여 기존 도구에 비해 더욱 정확한 화면 해석을 가능하게 합니다.

데모 영상👇

Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

다가올 뉴스레터가 궁금하신가요?

지금 구독해서 새로운 레터를 받아보세요

✉️

이번 뉴스레터 어떠셨나요?

신기한 생성AI 님에게 ☕️ 커피와 ✉️ 쪽지를 보내보세요!

댓글

의견을 남겨주세요

확인
의견이 있으신가요? 제일 먼저 댓글을 달아보세요 !
© 2024 신기한 생성AI

“AI로 이런게 된다고??” 매주 발표되는 놀라운 생성 AI 기술만 모아서 보내드려요.

자주 묻는 질문 서비스 소개서 오류 및 기능 관련 제보

서비스 이용 문의admin@team.maily.so

메일리 사업자 정보

메일리 (대표자: 이한결) | 사업자번호: 717-47-00705 | 서울 서초구 강남대로53길 8, 8층 11-7호

이용약관 | 개인정보처리방침 | 정기결제 이용약관