ℹ️ 빠르게 발전중인 생성 AI 기술 중 그 주의 가장 주목할만한 모델만 큐레이션해서 보내드리는 뉴스레터에요. ✉️
ℹ️ 최신 논문과 연구 사례를 살펴보고 생성 AI 기술의 발전 동향을 미리 파악하고 대비할 수 있어요. 🧑💻
ℹ️ 어려운 기술 용어 지양하고 데모 영상 위주로 전달드려요. 데모 영상은 웹페이지에서 재생 가능해요. 📺
Toon3D
- Toon3D는 손으로 그린 2D 만화와 애니메이션 장면을 일관된 3D 모델로 변환합니다.
- 그림의 불일치를 수정하여 그럴듯한 3D 구조를 만들고, 이전에 그려지지 않았던 새로운 시점을 구현할 수 있습니다.
- 이 프로세스에는 사용하기 쉬운 주석 도구, 카메라 포즈 추정, 이미지 변형이 포함되어 있어 새로운 시점 합성 방법과 호환됩니다.
데모 영상👇
Toon3D: Seeing Cartoons from a New Perspective
FIFO-Diffusion
- FIFO-Diffusion은 비디오 프레임을 연속 루프에서 처리하고 프레임을 단계별로 정리하여 추가 학습 없이 모든 길이의 텍스트 기반 비디오를 생성할 수 있습니다.
- 이 방법은 잠재 공간을 분할하고 룩헤드 기법을 사용하여 비디오 품질을 개선함으로써 훈련과 실제 사용 간의 불일치를 줄입니다.
- 데모에서는 FIFO-Diffusion이 텍스트 설명을 기반으로 고품질 비디오를 효과적으로 생성하여 현재의 비디오 생성 모델을 향상시킨다는 것을 보여줍니다.
데모 영상👇
FIFO-Diffusion: Generating Infinite Videos from Text without Training
CAT3D
- CAT3D를 사용하면 수백, 수천 개의 이미지가 아닌 몇 개의 이미지만 있으면 고품질 3D 장면을 빠르게 제작할 수 있습니다.
- 멀티뷰 확산 모델을 사용하여 실제 이미지 캡처를 시뮬레이션하여 다양한 각도에서 일관된 뷰를 생성합니다.
- 약 1분 만에 3D 장면을 생성하여 단일 또는 몇 개의 이미지로 3D 장면을 생성하는 기존 방법보다 성능이 뛰어납니다.
데모 영상👇
CAT3D: Create Anything in 3D with Multi-View Diffusion Models
Coin3D
- Coin3D를 사용하면 초기 디자인 및 실시간 미리보기를 위해 기본 도형을 사용하여 대화형으로 3D 모델을 만들고 편집할 수 있습니다.
- 고급 기술을 통해 정밀한 로컬 편집과 빠른 피드백이 가능하여 원활하고 효율적인 모델링 프로세스를 보장합니다.
- 이 프레임워크는 뛰어난 제어 기능과 유연성을 제공하여 사용자가 단순한 도형에서 복잡한 3D 에셋을 쉽게 생성할 수 있습니다.
데모 영상👇
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning
Compositional Text-to-Image Generation with Dense Blob Representations
- 현재 텍스트-이미지 변환 모델은 복잡한 프롬프트로 인해 어려움을 겪고 있으며, 더 나은 제어를 위해 더 나은 입력 방법이 필요합니다.
- 'Blob 표현'을 도입하여 장면을 세부적인 모듈식 부분으로 세분화하고, 이러한 블롭을 사용하여 이미지 생성을 개선하는 새로운 모델인 BlobGEN을 개발합니다.
- 고급 언어 모델과 결합된 BlobGEN은 텍스트에서 이미지를 생성할 때 특히 수치 및 공간 정확도를 유지하면서 더 나은 품질과 제어 기능을 보여줍니다.
Compositional Text-to-Image Generation with Dense Blob Representations
댓글
의견을 남겨주세요