12월 4주차 : 새로 공개된 신기한 생성 AI 모델 🧙‍♂️

지난주 공개된 놀라운 9가지 생성 AI 모델과 데모 영상을 확인해 보세요

2023.12.20 | 조회 474 |

*데모 영상은 웹페이지에서 재생 가능해요 📺

Resemble AI가 음성 초고해상도 AI 모델을 출시했습니다. Enhance는 시끄러운 오디오를 주목할 만한 음성 비디오로 변환하는 오픈소스 음성 향상 모델로, 고전적인 로버트 파인만 강연을 개선한 Enhance를 선보입니다. 데모 영상👇

Resemble AI

오픈 소스 및 독점 데이터 세트 모두에서 학습된 StemGen은 최첨단 텍스트 조건부 모델에 필적하는 오디오 품질을 달성하며, 표준 메트릭과 음악 정보 검색 설명자에 기반한 새로운 접근 방식으로 평가된 바와 같이 맥락과 강력한 음악적 일관성을 보여줍니다. 데모 영상👇

논문: StemGen: A music generation model that listens

Sherpa3D는 쉽게 접근할 수 있는 대략적인 3D 지식을 활용하여 텍스트 프롬프트를 개선함으로써 다양하고 고품질의 3D 에셋을 생성할 때 높은 충실도, 일반화 가능성 및 기하학적 일관성을 달성하여 실험에서 기존 방법보다 뛰어난 성능을 보였습니다. 데모 영상👇

논문: Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

W.A.L.T는 잠재 공간에서 이미지와 비디오를 통합 압축하기 위해 인과 인코더를 활용하고 효율적인 공동 공간 및 시공간 생성 모델링을 위해 창 주의 아키텍처를 사용하여 분류기 없는 안내 없이 비디오 및 이미지 생성 벤치마크에서 최첨단 성능을 달성합니다. 데모 영상👇

논문: Photorealistic Video Generation with Diffusion Models

확산 모델을 사용하여 부드러운 이미지 보간을 가능하게 하는 첫 번째 방법으로 DiffMorpher를 도입하여 두 이미지 샘플 간의 원활한 전환에 대한 한계를 해결했습니다. 이 접근 방식은 이미지의 의미를 포착하기 위해 두 개의 LoRA를 맞추고, 원활한 의미 전환을 위해 매개변수와 잠재 노이즈 사이를 보간하여 궁극적으로 이전 방법에 비해 우수한 이미지 모핑 효과를 달성하고 확산 모델과 GAN 간의 기능적 격차를 좁히는 것입니다. 데모 영상👇

논문: DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

드림톡 프레임워크는 노이즈 제거 네트워크, 스타일 인식 립 전문가, 스타일 예측기가 포함되어 있어 고품질 오디오 기반 얼굴 동작을 일관되게 합성하고 립싱크 정확도를 높이며 오디오에서 직접 목표 표정을 예측하여 기존의 최첨단 기술을 뛰어넘는 다양한 말하기 스타일을 가진 실제와 같은 말하는 얼굴을 만들어냅니다. 데모 영상👇

논문: DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

3D와 2D 확산 프로세스를 결합하여 풍부한 2D 텍스처를 유지하면서 3D 오브젝트의 사실감을 향상시키는 통합 프레임워크인 양방향 확산(BiDiff)은 고품질의 다양하고 확장 가능한 3D 생성을 달성하고 최적화 기반 모델의 초기화 역할도 수행하여 생성 프로세스 시간을 3.4시간에서 20분으로 단축할 수 있습니다. 데모 영상👇

논문: Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

SEEAvatar은 글로벌 형상 및 주기적 업데이트를 위한 휴먼 프리퍼런스가 있는 템플릿 아바타를 확산 모델 및 외관 생성을 위한 신속한 엔지니어링과 함께 활용함으로써 글로벌 및 로컬 지오메트리와 외관 품질 측면에서 이전 접근 방식보다 뛰어난 성능을 발휘합니다. 데모 영상👇