Как сделать говорящее фото нейросетью

Представьте: берёте обычный портрет, и человек на нём начинает говорить. Губы двигаются в такт словам, глаза моргают, лицо живое. Это и есть говорящее фото - одна из самых зрелищных штук, что умеют нейросети в 2026. Поздравить близкого его же голосом, оживить фото дедушки, сделать смешной ролик из своего селфи - всё это собирается за пару минут.
Расскажу, как сделать такое самому, и сразу - где это удобнее всего из России.
Проще всего - в студии mnogoGPT: топовые видео-модели, которые умеют оживлять лица, собраны в одном окне. На русском, без VPN, оплата обычной картой. Не нужно регистрироваться на зарубежных сервисах вроде HeyGen или D-ID, которые из России без обхода блокировок и иностранной карты не работают.
Что значит «говорящее фото»
Тут две разные задачи, и важно их не путать.
- Просто оживить - лицо моргает, чуть поворачивается, улыбается. Движение есть, речи нет.
- Заставить говорить - к движению добавляется синхронизация губ со словами (липсинк) плюс сама озвучка. Это и есть говорящее фото в полном смысле.
Нейросеть находит на снимке ключевые точки - глаза, рот, брови - и двигает их синхронно с речью по звукам. Добавляет моргание, лёгкое движение взгляда. На выходе - ролик на 5-15 секунд, где портрет говорит.
Пошагово: как сделать говорящее фото
- Возьмите чёткий портрет. Лицо крупно, в фокусе, хорошо освещено. Чем лучше виден рот и глаза, тем точнее липсинк.
- Откройте студию, раздел видео. В mnogoGPT загрузка моментальная.
- Выберите модель для оживления лиц. Для реалистичной мимики без «резиновых» лиц лучше всего идёт Kling - он силён именно на людях.
- Задайте, что должно происходить. Either короткое описание движения, either текст, который человек «произносит» (если делаете именно говорящее, а не просто живое фото).
- Запустите и заберите результат. Минута-две - и готов ролик.
Совет из практики: не берите групповое фото на десять человек. Один крупный портрет - и результат на порядок чище. На мелком лице в углу кадра нейросеть начинает фантазировать, появляются артефакты.
Где это делать из России
Тут и кроется главная засада. Самые известные сервисы говорящих аватаров - HeyGen, D-ID, Hedra - заточены под западный рынок: нужен VPN, оплата иностранной картой, интерфейс на английском. Для разовой задачи это перебор.
Поэтому удобнее агрегатор, где сильные модели уже подключены к российской оплате и работают без обхода блокировок. Это и есть смысл mnogoGPT: заходите с обычного браузера, выбираете модель, платите картой или через СБП. Никаких танцев с VPN.
Если фото старое или нечёткое
Со старым снимком сначала наведите порядок - уберите царапины, верните резкость, при желании раскрасьте. Чем чётче лицо, тем убедительнее заговорит. Подробнее про это - в гайде как оживить старое фото нейросетью. А если нужно не «говорить», а просто оживить движение - смотрите как сделать видео из фото.
Часто задаваемые вопросы
Можно ли заставить фото говорить моим текстом?
Да. В этом и суть говорящего фото: задаёте текст или аудио, нейросеть синхронизирует губы с речью. Современные модели делают это и на русском. Главное - чёткий портрет, где хорошо виден рот, тогда липсинк выходит естественным.
Нужен ли VPN, чтобы сделать говорящее фото?
Через mnogoGPT - нет. Студия открывается из России без VPN, на русском, оплата обычной картой или через СБП. Зарубежные сервисы вроде HeyGen и D-ID напрямую требуют обхода блокировок, поэтому удобнее агрегатор, где всё уже подключено.
Останется ли лицо похожим на оригинал?
Да, модели оживления специально обучены сохранять черты человека и добавлять только движение и речь. Если результат «уплыл», обычно помогает более чёткий исходник или более простой запрос - меньше резких движений за раз.
Сколько длится говорящее видео из фото?
Обычно 5-15 секунд. Этого хватает на короткую фразу или поздравление. Для длинного текста ролик собирают из нескольких частей - так и липсинк держится точнее, и лицо не устаёт «играть».


