Обзор Google Veo 3

ВVeo 3 - видеомодель Google DeepMind для генерации коротких роликов по тексту и по изображению. Главная идея Veo - делать клипы, которые выглядят как нормальная съемка: с понятной камерой, реалистичным движением, правдоподобными материалами и со звуком, который появляется сразу вместе с видео. Это удобно для рекламы, сторис, тизеров, превиза и прототипирования сцен, когда нужно быстро получить 3-10 вариантов и выбрать лучший.

В линейке есть два режима: стандартный и Fast. Стандарт дает более чистую картинку и лучше держит детали, Fast быстрее и дешевле, подходит для перебора идей. В 2025-2026 рядом с Veo 3 активно продвигают Veo 3.1: это более новая ветка с расширенным контролем (вроде работы с несколькими референсами и расширения видео). Если коротко: Veo 3 - стабильная базовая модель, Veo 3.1 - более новая и гибкая, но чаще идет как preview и может меняться.

Характеристики Veo 3, которые важно знать до начала

1) Формат клипов по умолчанию короткий
Veo 3 заточен под короткие ролики. В продакшне это значит, что сюжет на 30-60 секунд обычно собирают как 5-10 клипов по 4-8 секунд, а потом склеивают.

2) Соотношение сторон и качество
Поддерживаются 16:9 и 9:16. По качеству чаще встречаются 720p и 1080p, а в ветке 3.1 есть опция 4k для 8-секундных роликов.

3) Аудио генерируется нативно
У Veo 3 видео идет вместе со звуком. Это не отдельный модуль, а часть результата. Если вы не контролируете звук промптом, модель добавит его по умолчанию, поэтому лучше явно прописывать: что слышно и что запрещено.

4) Управление через negative prompt
В API можно отдельно описывать, чего быть не должно: без текста в кадре, без логотипов, без музыки, без мультипликационного стиля, без дрожащей камеры.

Что умеет Veo 3

Текст в видео

Вы описываете сцену и получаете ролик. Лучше всего получаются постановки с одной локацией и одним главным действием. Пример: рука кладет продукт на стол. Человек идет по мокрой улице, камера плавно едет рядом. Машина проезжает кадр, камера следует за ней.

Изображение в видео

Можно анимировать стартовый кадр. Это спасает, когда нужна стабильность внешности, одежды, продукта, цветовой палитры. Если вам важно, чтобы серия роликов выглядела единообразно, проще сначала сделать один сильный референс-кадр и от него оживлять видео.

Управление камерой и постановкой

Veo хорошо реагирует на операторские команды, если они конкретные:

крупность: общий, средний, крупный
камера: на штативе, на стабилизаторе, легкая съемка с рук
движение: медленный наезд, медленный отъезд, панорама, проезд слева направо
оптика как ощущение: малая глубина резкости, мягкий фон, перевод фокуса

Звук и диалоги

Звук - не декоративная часть, а управляющий канал. Если вы пишете звук как отдельный блок, модель чаще попадает в атмосферу. Для рекламы и сторис этого часто достаточно: шаги, шум улицы, звон стекла, короткая реплика, без музыки.

Как пользоваться Veo 3

Есть два базовых сценария: через приложения Google и через API.

Сценарий 1 - для обычного пользователя и креатора
Вы используете генерацию видео в Gemini и связанных инструментах (Flow, иногда другие). Пишете промпт, выбираете формат 16:9 или 9:16, запускаете генерацию, потом уточняете промпт и делаете еще дубль. Важно понимать, что качество обычно растет не от длинного промпта, а от того, что вы четко фиксируете камеру, действие и ограничения.

Сценарий 2 - для разработчика и автоматизации
Вы работаете через Gemini API. Логика похожа на другие видео-API: отправили запрос - получили операцию - дождались завершения - скачали mp4. Это удобно, если вы хотите конвейер: шаблоны промптов под 20 товаров, пачка клипов на разные офферы, генерация под разные посадочные.

Сколько стоит подписка

Для доступа через продукты Google обычно используют подписки Google AI Pro и Google AI Ultra. Цена зависит от страны и валюты. На европейских страницах Google AI Pro и Ultra показываются как отдельные планы с доступом к видеогенерации (в том числе к Veo 3.1 Fast в приложении Gemini) и с месячными пулами AI-кредитов. По смыслу это подписка для тех, кто генерирует регулярно и хочет лимиты выше, чем на бесплатном доступе.

Если у вас задача нерегулярная или вы строите сервис, часто проще платить по API, потому что там цена понятная: в долларах за секунду.

Сколько стоит API

В Gemini API тарификация идет по секундам и по варианту модели.

Veo 3:

Veo 3 Standard с аудио: 0.40 USD за секунду
Veo 3 Fast с аудио: 0.15 USD за секунду

Veo 3.1:

Veo 3.1 Standard с аудио: 0.40 USD за секунду (720p и 1080p), 0.60 USD за секунду (4k)
Veo 3.1 Fast с аудио: 0.15 USD за секунду (720p и 1080p), 0.35 USD за секунду (4k)

Быстрые расчеты, чтобы не ошибиться с бюджетом:

8 секунд Veo 3 Fast = 1.20 USD
8 секунд Veo 3 Standard = 3.20 USD
8 секунд Veo 3.1 Standard 4k = 4.80 USD

Плюсы и минусы Veo 3

Плюсы:

хороший баланс реализма и управляемости, если писать промпт постановочно
нативный звук: для коротких роликов часто не нужен отдельный саунд-дизайн
понятная экономика в API: цена по секундам, легко планировать бюджет
удобный Fast-режим для перебора вариантов без боли по стоимости

Минусы:

длинные ролики дорогие и сложнее удерживают стабильность, чаще нужен монтаж из клипов
если не прописать ограничения, модель любит добавлять текст на вывесках и случайные детали
сложные сцены с несколькими героями и множеством событий требуют больше дублей
в коммерции есть риск по правам, если вы просите узнаваемые бренды, логотипы и чужие фирменные стили

Как писать промпты на русском, чтобы Veo понимал

Да, Veo понимает русский. Но есть важный нюанс: модели лучше работают на коротких, однозначных фразах. Меньше художественности, больше режиссуры. Не пишите абстракции. Пишите, что именно видно в кадре и что именно происходит.

Сильная структура промпта для Veo выглядит так: 1) Длительность и формат кадра 2) Локация и время суток 3) Главные объекты и персонажи 4) Одно основное действие 5) Камера: план, движение, стабильность 6) Свет: источник, характер света 7) Звук: что слышно, что запрещено 8) Ограничения: чтобы сцена не расползалась

Фразы, которые реально улучшают управляемость:

План: общий план, средний план, крупный план, сверхкрупный
Камера: на штативе, плавная съемка на стабилизаторе, легкая съемка с рук
Движение: медленный наезд, медленный отъезд, плавный проезд слева направо, панорама
Фокус: малая глубина резкости, мягкий размытый фон, перевод фокуса на объект
Свет: мягкий утренний свет, контровой свет, теплые лампы внутри, неон с отражениями на мокрой поверхности

Ограничения, которые почти всегда стоит добавлять:

одна локация
один главный герой или вообще без людей
одно действие
без текста в кадре
без логотипов и брендов
без резких смен планов и склеек
без смены одежды, аксессуаров и прически
без мультяшности, если вы делаете реализм
без музыки и без диктора, если звук вам не нужен

Типовые ошибки, из-за которых Veo выдает хаос:

слишком много событий в одном клипе
слишком много прилагательных и мало действия
нет описания камеры, поэтому план прыгает
нет запрета на текст, и появляются псевдо-надписи
вы правите сразу все блоки промпта, и не понимаете, что именно сработало

Промпт 1 - рекламная постановка продукта, чистый кадр

8 секунд, 16:9, 1280x720.
Локация: минималистичная кухня, чистый стол, нейтральный фон.
Объект: стеклянная бутылка газированной воды с каплями конденсата, рядом долька лайма.
План: средний. Камера: медленный плавный наезд, стабилизатор, малая глубина резкости, фон мягко размытый.
Свет: мягкий утренний слева, реалистичные отражения на стекле.
Действие: рука аккуратно кладет дольку лайма рядом с бутылкой.
Звук: тихая комнатная атмосфера, легкий звон стекла, без музыки, без голоса.
Ограничения: одна локация, без текста в кадре, без логотипов, без резких смен плана.

Промпт 2 - вертикальная ночная улица, атмосфера и движение

8 секунд, 9:16, 720x1280.
Локация: ночная улица после дождя, мокрый асфальт, отражения неона в лужах.
План: общий. Камера: плавная съемка на стабилизаторе, движение вперед, горизонт ровный.
Действие: человек в капюшоне проходит рядом с камерой, из люка поднимается пар.
Свет: неоновые вывески и отражения, естественные блики на мокрой поверхности.
Звук: шаги, дальний трафик, редкие капли, без музыки, без диктора.
Ограничения: одна локация, без склеек, без текста в кадре, без логотипов.

Промпт 3 - оживление референса, сохранить персонажа и стиль

Используй прикрепленное изображение как первый кадр. 8 секунд, 16:9, 1280x720.
Сохрани лицо, прическу, одежду и цветовую палитру максимально близко к референсу.
План: средне-крупный. Камера: легкая съемка с рук, без резких рывков.
Действие: персонаж медленно поворачивает голову вправо и улыбается, видно спокойное дыхание.
Свет: мягкий свет из окна, натуральная кожа, без пластика.
Звук: тихая домашняя атмосфера, легкий шорох ткани, без музыки.
Ограничения: без смены одежды и аксессуаров, без текста в кадре, без логотипов.

Промпт 4 - реалистичная физика, тест материалов

8 секунд, 16:9, 1280x720.
Локация: крупный план деревянного стола с заметной текстурой.
Камера: на штативе, кадр статичный.
Действие: металлический ключ падает на стол, один раз подпрыгивает, вращается и полностью останавливается.
Свет: мягкий верхний, чистые тени, реалистичные отражения металла.
Звук: четкий металлический удар, короткое скольжение по дереву, тихая комнатная атмосфера.
Ограничения: одна локация, без склеек, без текста в кадре, без логотипов, без замедления.

Промпт 5 - диалог и звук, короткая сценка

8 секунд, 16:9, 1280x720.
Локация: темный коридор, свет фонаря дрожит на стенах, пыль в воздухе.
План: крупный. Камера: легкая съемка с рук, без резких скачков.
Действие: два человека рассматривают странный рисунок на стене, один показывает пальцем на символ.
Реплики: мужчина тихо говорит одну короткую фразу, женщина отвечает шепотом одной короткой фразой.
Звук: шорох одежды, легкое эхо коридора, без музыки.
Ограничения: одна локация, без текста в кадре, без логотипов, без резких смен плана.

Короткий чек-лист перед генерацией

Если Veo не попадает в задумку, почти всегда проблема в одном из этих пунктов:

вы не зафиксировали камеру, и план прыгает
в сцене больше одного действия
вы не запретили текст и логотипы
вы просите слишком много деталей сразу
вы не описали звук, и модель добавила лишнее
вы не ограничили смену одежды и аксессуаров, и персонаж плывет между дублями

Если держать одну локацию, одно действие, одну камеру и четкий звук, Veo 3 дает максимально предсказуемый результат и быстро выходит на уровень, который можно показывать в работе.

ОТЗЫВЫ О СЕРВИСЕ GOOGLE VEO 3

10.01.2026 Video_Maker POSITIV

Наконец-то со звуком!

Главный шок — она генерирует звук СРАЗУ. Не нужно искать музыку или накладывать эффекты отдельно. Просишь "шум прибоя и разговор чаек" — и она делает это синхронно с видео. Качество картинки в 4K просто отвал башки, Sora 2 нервно курит в сторонке по детализации.

12.01.2026 Ad_Agency POSITIV

Инструмент профи

Порадовали новые фишки Masked Editing. Можно выделить объект на видео и заменить его, не перегенерируя весь ролик. Это экономит кучу времени. Жаль, что генерация дорогая (через Vertex AI), но для рекламы окупается.

16.01.2026 Indie_Director POSITIV

Сюжет держит

Тестировал функцию длинных видео. Veo 3.1 реально помнит, что было в начале сцены, и персонаж не меняет одежду через 10 секунд. Липсинк (движение губ) пока не идеален, но для общих планов уже годится.

Google Veo 3