Обзор Google Veo 3
ВVeo 3 - видеомодель Google DeepMind для генерации коротких роликов по тексту и по изображению. Главная идея Veo - делать клипы, которые выглядят как нормальная съемка: с понятной камерой, реалистичным движением, правдоподобными материалами и со звуком, который появляется сразу вместе с видео. Это удобно для рекламы, сторис, тизеров, превиза и прототипирования сцен, когда нужно быстро получить 3-10 вариантов и выбрать лучший.
В линейке есть два режима: стандартный и Fast. Стандарт дает более чистую картинку и лучше держит детали, Fast быстрее и дешевле, подходит для перебора идей. В 2025-2026 рядом с Veo 3 активно продвигают Veo 3.1: это более новая ветка с расширенным контролем (вроде работы с несколькими референсами и расширения видео). Если коротко: Veo 3 - стабильная базовая модель, Veo 3.1 - более новая и гибкая, но чаще идет как preview и может меняться.
Характеристики Veo 3, которые важно знать до начала
1) Формат клипов по умолчанию короткий
Veo 3 заточен под короткие ролики. В продакшне это значит, что сюжет на 30-60 секунд обычно собирают как 5-10 клипов по 4-8 секунд, а потом склеивают.
2) Соотношение сторон и качество
Поддерживаются 16:9 и 9:16. По качеству чаще встречаются 720p и 1080p, а в ветке 3.1 есть опция 4k для 8-секундных роликов.
3) Аудио генерируется нативно
У Veo 3 видео идет вместе со звуком. Это не отдельный модуль, а часть результата. Если вы не контролируете звук промптом, модель добавит его по умолчанию, поэтому лучше явно прописывать: что слышно и что запрещено.
4) Управление через negative prompt
В API можно отдельно описывать, чего быть не должно: без текста в кадре, без логотипов, без музыки, без мультипликационного стиля, без дрожащей камеры.
Что умеет Veo 3
Текст в видео
Вы описываете сцену и получаете ролик. Лучше всего получаются постановки с одной локацией и одним главным действием. Пример: рука кладет продукт на стол. Человек идет по мокрой улице, камера плавно едет рядом. Машина проезжает кадр, камера следует за ней.
Изображение в видео
Можно анимировать стартовый кадр. Это спасает, когда нужна стабильность внешности, одежды, продукта, цветовой палитры. Если вам важно, чтобы серия роликов выглядела единообразно, проще сначала сделать один сильный референс-кадр и от него оживлять видео.
Управление камерой и постановкой
Veo хорошо реагирует на операторские команды, если они конкретные:
- крупность: общий, средний, крупный
- камера: на штативе, на стабилизаторе, легкая съемка с рук
- движение: медленный наезд, медленный отъезд, панорама, проезд слева направо
- оптика как ощущение: малая глубина резкости, мягкий фон, перевод фокуса
Звук и диалоги
Звук - не декоративная часть, а управляющий канал. Если вы пишете звук как отдельный блок, модель чаще попадает в атмосферу. Для рекламы и сторис этого часто достаточно: шаги, шум улицы, звон стекла, короткая реплика, без музыки.
Как пользоваться Veo 3
Есть два базовых сценария: через приложения Google и через API.
Сценарий 1 - для обычного пользователя и креатора
Вы используете генерацию видео в Gemini и связанных инструментах (Flow, иногда другие). Пишете промпт, выбираете формат 16:9 или 9:16, запускаете генерацию, потом уточняете промпт и делаете еще дубль. Важно понимать, что качество обычно растет не от длинного промпта, а от того, что вы четко фиксируете камеру, действие и ограничения.
Сценарий 2 - для разработчика и автоматизации
Вы работаете через Gemini API. Логика похожа на другие видео-API: отправили запрос - получили операцию - дождались завершения - скачали mp4. Это удобно, если вы хотите конвейер: шаблоны промптов под 20 товаров, пачка клипов на разные офферы, генерация под разные посадочные.
Сколько стоит подписка
Для доступа через продукты Google обычно используют подписки Google AI Pro и Google AI Ultra. Цена зависит от страны и валюты. На европейских страницах Google AI Pro и Ultra показываются как отдельные планы с доступом к видеогенерации (в том числе к Veo 3.1 Fast в приложении Gemini) и с месячными пулами AI-кредитов. По смыслу это подписка для тех, кто генерирует регулярно и хочет лимиты выше, чем на бесплатном доступе.
Если у вас задача нерегулярная или вы строите сервис, часто проще платить по API, потому что там цена понятная: в долларах за секунду.
Сколько стоит API
В Gemini API тарификация идет по секундам и по варианту модели.
Veo 3:
- Veo 3 Standard с аудио: 0.40 USD за секунду
- Veo 3 Fast с аудио: 0.15 USD за секунду
Veo 3.1:
- Veo 3.1 Standard с аудио: 0.40 USD за секунду (720p и 1080p), 0.60 USD за секунду (4k)
- Veo 3.1 Fast с аудио: 0.15 USD за секунду (720p и 1080p), 0.35 USD за секунду (4k)
Быстрые расчеты, чтобы не ошибиться с бюджетом:
- 8 секунд Veo 3 Fast = 1.20 USD
- 8 секунд Veo 3 Standard = 3.20 USD
- 8 секунд Veo 3.1 Standard 4k = 4.80 USD
Плюсы и минусы Veo 3
Плюсы:
- хороший баланс реализма и управляемости, если писать промпт постановочно
- нативный звук: для коротких роликов часто не нужен отдельный саунд-дизайн
- понятная экономика в API: цена по секундам, легко планировать бюджет
- удобный Fast-режим для перебора вариантов без боли по стоимости
Минусы:
- длинные ролики дорогие и сложнее удерживают стабильность, чаще нужен монтаж из клипов
- если не прописать ограничения, модель любит добавлять текст на вывесках и случайные детали
- сложные сцены с несколькими героями и множеством событий требуют больше дублей
- в коммерции есть риск по правам, если вы просите узнаваемые бренды, логотипы и чужие фирменные стили
Как писать промпты на русском, чтобы Veo понимал
Да, Veo понимает русский. Но есть важный нюанс: модели лучше работают на коротких, однозначных фразах. Меньше художественности, больше режиссуры. Не пишите абстракции. Пишите, что именно видно в кадре и что именно происходит.
Сильная структура промпта для Veo выглядит так: 1) Длительность и формат кадра 2) Локация и время суток 3) Главные объекты и персонажи 4) Одно основное действие 5) Камера: план, движение, стабильность 6) Свет: источник, характер света 7) Звук: что слышно, что запрещено 8) Ограничения: чтобы сцена не расползалась
Фразы, которые реально улучшают управляемость:
- План: общий план, средний план, крупный план, сверхкрупный
- Камера: на штативе, плавная съемка на стабилизаторе, легкая съемка с рук
- Движение: медленный наезд, медленный отъезд, плавный проезд слева направо, панорама
- Фокус: малая глубина резкости, мягкий размытый фон, перевод фокуса на объект
- Свет: мягкий утренний свет, контровой свет, теплые лампы внутри, неон с отражениями на мокрой поверхности
Ограничения, которые почти всегда стоит добавлять:
- одна локация
- один главный герой или вообще без людей
- одно действие
- без текста в кадре
- без логотипов и брендов
- без резких смен планов и склеек
- без смены одежды, аксессуаров и прически
- без мультяшности, если вы делаете реализм
- без музыки и без диктора, если звук вам не нужен
Типовые ошибки, из-за которых Veo выдает хаос:
- слишком много событий в одном клипе
- слишком много прилагательных и мало действия
- нет описания камеры, поэтому план прыгает
- нет запрета на текст, и появляются псевдо-надписи
- вы правите сразу все блоки промпта, и не понимаете, что именно сработало
Промпт 1 - рекламная постановка продукта, чистый кадр
8 секунд, 16:9, 1280x720.
Локация: минималистичная кухня, чистый стол, нейтральный фон.
Объект: стеклянная бутылка газированной воды с каплями конденсата, рядом долька лайма.
План: средний. Камера: медленный плавный наезд, стабилизатор, малая глубина резкости, фон мягко размытый.
Свет: мягкий утренний слева, реалистичные отражения на стекле.
Действие: рука аккуратно кладет дольку лайма рядом с бутылкой.
Звук: тихая комнатная атмосфера, легкий звон стекла, без музыки, без голоса.
Ограничения: одна локация, без текста в кадре, без логотипов, без резких смен плана.
Промпт 2 - вертикальная ночная улица, атмосфера и движение
8 секунд, 9:16, 720x1280.
Локация: ночная улица после дождя, мокрый асфальт, отражения неона в лужах.
План: общий. Камера: плавная съемка на стабилизаторе, движение вперед, горизонт ровный.
Действие: человек в капюшоне проходит рядом с камерой, из люка поднимается пар.
Свет: неоновые вывески и отражения, естественные блики на мокрой поверхности.
Звук: шаги, дальний трафик, редкие капли, без музыки, без диктора.
Ограничения: одна локация, без склеек, без текста в кадре, без логотипов.
Промпт 3 - оживление референса, сохранить персонажа и стиль
Используй прикрепленное изображение как первый кадр. 8 секунд, 16:9, 1280x720.
Сохрани лицо, прическу, одежду и цветовую палитру максимально близко к референсу.
План: средне-крупный. Камера: легкая съемка с рук, без резких рывков.
Действие: персонаж медленно поворачивает голову вправо и улыбается, видно спокойное дыхание.
Свет: мягкий свет из окна, натуральная кожа, без пластика.
Звук: тихая домашняя атмосфера, легкий шорох ткани, без музыки.
Ограничения: без смены одежды и аксессуаров, без текста в кадре, без логотипов.
Промпт 4 - реалистичная физика, тест материалов
8 секунд, 16:9, 1280x720.
Локация: крупный план деревянного стола с заметной текстурой.
Камера: на штативе, кадр статичный.
Действие: металлический ключ падает на стол, один раз подпрыгивает, вращается и полностью останавливается.
Свет: мягкий верхний, чистые тени, реалистичные отражения металла.
Звук: четкий металлический удар, короткое скольжение по дереву, тихая комнатная атмосфера.
Ограничения: одна локация, без склеек, без текста в кадре, без логотипов, без замедления.
Промпт 5 - диалог и звук, короткая сценка
8 секунд, 16:9, 1280x720.
Локация: темный коридор, свет фонаря дрожит на стенах, пыль в воздухе.
План: крупный. Камера: легкая съемка с рук, без резких скачков.
Действие: два человека рассматривают странный рисунок на стене, один показывает пальцем на символ.
Реплики: мужчина тихо говорит одну короткую фразу, женщина отвечает шепотом одной короткой фразой.
Звук: шорох одежды, легкое эхо коридора, без музыки.
Ограничения: одна локация, без текста в кадре, без логотипов, без резких смен плана.
Короткий чек-лист перед генерацией
Если Veo не попадает в задумку, почти всегда проблема в одном из этих пунктов:
- вы не зафиксировали камеру, и план прыгает
- в сцене больше одного действия
- вы не запретили текст и логотипы
- вы просите слишком много деталей сразу
- вы не описали звук, и модель добавила лишнее
- вы не ограничили смену одежды и аксессуаров, и персонаж плывет между дублями
Если держать одну локацию, одно действие, одну камеру и четкий звук, Veo 3 дает максимально предсказуемый результат и быстро выходит на уровень, который можно показывать в работе.