ℹ️ 빠르게 발전중인 생성 AI 기술 중 주목할만한 모델을 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상과 이미지 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
Movie Gen
- Movie Gen은 동기화된 오디오와 다양한 포맷으로 고화질 1080p 동영상을 제작하는 AI 모델 세트입니다.
- 동영상을 편집하고, 사용자 이미지에서 개인화된 콘텐츠를 생성하며, 텍스트-비디오 및 비디오-오디오 변환 작업을 처리할 수 있습니다.
- 가장 큰 모델은 확장 및 최적화를 위한 고급 기술로 16초 동영상을 처리합니다.
Demo👇
Sapiens
- Meta Reality Labs은 신체 위치, 신체 부위, 깊이, 표면 디테일 식별 등 인간과 관련된 시각 작업에 초점을 맞춘 모델 세트인 Sapiens를 소개합니다.
- 이 모델은 특정 작업에 맞게 쉽게 미세 조정할 수 있으며 3억 개 이상의 사람 이미지로 학습되어 최소한의 레이블이 지정된 데이터로도 우수한 성능을 발휘합니다.
- 사피엔스는 고해상도(1K) 이미지 분석을 지원하며 모델 크기가 커질수록(0.30억에서 20억 개의 파라미터) 성능이 향상되어 효과적으로 확장할 수 있습니다.
Demo👇
Depth Pro
- Depth Pro 모델은 카메라 설정과 같은 추가 데이터 없이도 단일 이미지에서 깊이 맵(3D 정보)을 예측할 수 있습니다.
- 선명하고 매우 상세한 심도 맵을 빠르게 생성합니다(0.3초 만에 2.25메가픽셀).
- 이 모델은 정확하고 상세한 예측을 위해 특수 트랜스포머 아키텍처와 실제 및 합성 데이터를 혼합하여 사용합니다.
Demo👇
FLUX1.1 [pro]
- FLUX1.1 [pro]는 이전 버전보다 6배 빠른 속도로 이미지를 생성하여 이미지 품질 저하 없이 워크플로우를 더욱 효율적으로 만들어 줍니다.
- 이전 버전에 비해 시각적 출력이 크게 개선되어 생성된 이미지의 정확성과 다양성이 향상되었습니다.
- FLUX1.1 [pro]는 벤치마크 테스트에서 다른 모델보다 뛰어난 성능을 발휘하여 인공 분석 텍스트-이미지 리더보드에서 가장 높은 Elo 점수를 획득했습니다.
Demo👇
Loong
- AI로 긴 동영상(몇 분 분량)을 생성하는 것은 어렵지만, 짧은 동영상을 생성하는 데는 진전이 있었습니다.
- Loong은 텍스트와 비디오 데이터를 모두 처리하는 통합 접근 방식을 사용하여 긴 시퀀스의 훈련 불균형과 같은 주요 문제를 해결합니다.
- 점진적 학습 및 오류를 줄이는 추론 방법과 같은 기술을 통해 Loong은 짧은 클립에서 일관성 있는 확장 동영상을 생성할 수 있습니다.
Demo👇
댓글
의견을 남겨주세요