Реалистични човешки изображения с висока разделителна способност, създадени от системи с изкуствен интелект през последните години, смаяха интернет. Докато базираните на реч техники за анимация на изображения, предназначени да съживят тези лица, се очертаха като нов фокус в изследователската общност, настоящите методи са склонни да се борят с проблеми като постурални разлики, емоционален контрол и ориентири на лицето.
в новия вестник SPACEx: Анимация на изображения, базирана на реч, с контрол на изражението, изследователски екип от NVIDIA представя SPACEx – базирана на реч рамка за анимация на изображения с контролируемо емоционално изразяване. Новият подход води до експресивни видеоклипове с висока разделителна способност с контрол върху разположението на обекта, емоцията и интензивността на изразяване; И постига най-съвременното представяне на анимационни изображения, базирани на реч.
Екипът обобщава основния си принос, както следва:
- Постигаме висококачествена фотоанимация, базирана на реч. SPACEx предоставя FIDs с по-добро качество и разстояния на характеристиките от предишните методи със създаване на видео с по-висока разделителна способност.
- Нашият метод може да създаде реалистични пози на главата, като същевременно може да прехвърли позите от друго видео. Той също така осигурява повишена управляемост, като използва контурите на лицето като междинен етап, позволявайки манипулации като мигане, контрол на погледа на очите и т.н.
- За същия набор от входове, нашият метод позволява етикетите на емоциите и съответните им интензитети да бъдат обработени в изходното видео.


SPACEx приема говорен клип и изображение на едно лице като вход и потребителите могат допълнително да персонализират получения видеоклип, като добавят емоционален стикер (щастлив, тъжен, изненада, страх). Рамката разделя задачите на три фази, за да подобри възможността за интерпретиране и детайлното управление. В първата фаза, Speech2Landmarks, моделът прогнозира движенията на чертите на лицето в естествено пространство въз основа на въведено изображение, реч и етикет на емоции. Във втория етап, етап Landmarks2Latents, чертите на лицето, извадени за всеки кадър, се превеждат в латентни ключови точки. Като се има предвид входното изображение и ориентирите на лицето, извадени за всеки кадър, проученият преди това модел за анимация на лицето, базиран на изображение, face-vid2vid, произвежда анимиран видеоклип с разделителна способност 512 x 512 в етапа на окончателния синтез.

Екипът представя нова техника за кондициониране на емоциите, която използва различни линейни коригиращи слоеве (ФилмPerez et al. 2017), за да позволи контрол на емоционалното изразяване и интензивност в генерираното видео. В мрежата Speech2Landmarks, FiLM променя аудио характеристиките и първоначалния вход на учителя. В мрежата Landmarks2Latents FiLM се прилага към гласа, ориентирите и първоначалното скрито въвеждане на ключова точка.

В своето пилотно проучване екипът сравнява базовите линии на SPACEx, Wav2Lip, MakeItTalk и Talking Face-PC-AVS (PC-AVS) в няколко задачи за създаване на видео. В оценките SPACEx се представи най-добре по отношение на FID и разстояния на характеристиките, докато създаваше видеоклипове с висока разделителна способност с превъзходен контрол на изражението на лицето.
Екипът вярва, че възможностите на SPACEx могат да отворят обещаващи нови възможности за видеоконференции, игри и медиен синтез.
Примерни видеоклипове и допълнителна информация са достъпни на уебсайта на проекта: https://deepimagination.cc/SPACEx/. хартията SPACEx: Анимация на изображения, базирана на реч, с контрол на изражението бягане arXiv.
автор: Хеката е | редактор: Майкъл Саразен, Чен Джан

Знаем, че не искате да пропуснете никакви новини или научни открития. Абонирайте се за нашия популярен бюлетин Глобално AI синхронизиране седмично За седмични актуализации на AI.