Как сделать говорящее фото нейросетью

Игорь Лебедев, видеомейкер · 7 мин чтения · 8 июня 2026

Говорящее фото нейросетью — лицо на снимке оживает и говорит

Представьте: берёте обычный портрет, и человек на нём начинает говорить. Губы двигаются в такт словам, глаза моргают, лицо живое. Это и есть говорящее фото - одна из самых зрелищных штук, что умеют нейросети в 2026. Поздравить близкого его же голосом, оживить фото дедушки, сделать смешной ролик из своего селфи - всё это собирается за пару минут.

Расскажу, как сделать такое самому, и сразу - где это удобнее всего из России.

Проще всего - в студии mnogoGPT: топовые видео-модели, которые умеют оживлять лица, собраны в одном окне. На русском, без VPN, оплата обычной картой. Не нужно регистрироваться на зарубежных сервисах вроде HeyGen или D-ID, которые из России без обхода блокировок и иностранной карты не работают.

Что значит «говорящее фото»

Тут две разные задачи, и важно их не путать.

Просто оживить - лицо моргает, чуть поворачивается, улыбается. Движение есть, речи нет.
Заставить говорить - к движению добавляется синхронизация губ со словами (липсинк) плюс сама озвучка. Это и есть говорящее фото в полном смысле.

Нейросеть находит на снимке ключевые точки - глаза, рот, брови - и двигает их синхронно с речью по звукам. Добавляет моргание, лёгкое движение взгляда. На выходе - ролик на 5-15 секунд, где портрет говорит.

Пошагово: как сделать говорящее фото

Возьмите чёткий портрет. Лицо крупно, в фокусе, хорошо освещено. Чем лучше виден рот и глаза, тем точнее липсинк.
Откройте студию, раздел видео. В mnogoGPT загрузка моментальная.
Выберите модель для оживления лиц. Для реалистичной мимики без «резиновых» лиц лучше всего идёт Kling - он силён именно на людях.
Задайте, что должно происходить. Either короткое описание движения, either текст, который человек «произносит» (если делаете именно говорящее, а не просто живое фото).
Запустите и заберите результат. Минута-две - и готов ролик.

Совет из практики: не берите групповое фото на десять человек. Один крупный портрет - и результат на порядок чище. На мелком лице в углу кадра нейросеть начинает фантазировать, появляются артефакты.

Где это делать из России

Тут и кроется главная засада. Самые известные сервисы говорящих аватаров - HeyGen, D-ID, Hedra - заточены под западный рынок: нужен VPN, оплата иностранной картой, интерфейс на английском. Для разовой задачи это перебор.

Поэтому удобнее агрегатор, где сильные модели уже подключены к российской оплате и работают без обхода блокировок. Это и есть смысл mnogoGPT: заходите с обычного браузера, выбираете модель, платите картой или через СБП. Никаких танцев с VPN.

Если фото старое или нечёткое

Со старым снимком сначала наведите порядок - уберите царапины, верните резкость, при желании раскрасьте. Чем чётче лицо, тем убедительнее заговорит. Подробнее про это - в гайде как оживить старое фото нейросетью. А если нужно не «говорить», а просто оживить движение - смотрите как сделать видео из фото.

Часто задаваемые вопросы

Можно ли заставить фото говорить моим текстом?

Да. В этом и суть говорящего фото: задаёте текст или аудио, нейросеть синхронизирует губы с речью. Современные модели делают это и на русском. Главное - чёткий портрет, где хорошо виден рот, тогда липсинк выходит естественным.

Нужен ли VPN, чтобы сделать говорящее фото?

Через mnogoGPT - нет. Студия открывается из России без VPN, на русском, оплата обычной картой или через СБП. Зарубежные сервисы вроде HeyGen и D-ID напрямую требуют обхода блокировок, поэтому удобнее агрегатор, где всё уже подключено.

Останется ли лицо похожим на оригинал?

Да, модели оживления специально обучены сохранять черты человека и добавлять только движение и речь. Если результат «уплыл», обычно помогает более чёткий исходник или более простой запрос - меньше резких движений за раз.

Сколько длится говорящее видео из фото?

Обычно 5-15 секунд. Этого хватает на короткую фразу или поздравление. Для длинного текста ролик собирают из нескольких частей - так и липсинк держится точнее, и лицо не устаёт «играть».

Открыть студию mnogoGPT →