Обзор Wan Video
Wan Video, чаще просто Wan - линейка видеомоделей Alibaba Cloud для генерации видео. Вокруг нее есть два мира: open-source ветка Wan 2.1-2.2 (модели и код, которые можно запускать у себя) и коммерческие реализации вроде Wan 2.5-2.6 в облачных продуктах и партнерских сервисах. Если тебе нужен смысл простыми словами: Wan - это про короткие ролики с акцентом на стабильность во времени, управляемую постановку и, в новых версиях, нативный звук и многошотные сцены.
Нормальный сценарий использования Wan в продакшне - не пытаться сделать минутный клип одним дублем. Делают 4-12 секундные куски и собирают в монтаж. Это и дешевле, и стабильнее по персонажу, одежде, объектам и свету.
Что это за модель и какие характеристики важны
Линейка и версии
- Wan 2.1 и Wan 2.2 - известны как открытые модели и репозитории с инференсом. Там встречаются разные задачи: текст в видео, картинка в видео, текст-картинка в видео, а также отдельные ветки под анимацию персонажа и даже speech-to-video.
- Wan 2.5 - часто фигурирует как cloud preview в арене и интеграциях.
- Wan 2.6 - коммерческая версия, которую многие описывают как многошотную, до 15 секунд, с синхронным аудио и повышенной стабильностью во времени.
Разрешение и fps
В open-source ветке (например, Wan 2.2) типовая цель - 720p при 24fps, с расчетом на запуск на потребительских видеокартах уровня 4090. В коммерческих реализациях Wan 2.6 часто обещают 1080p и больше длину клипа.
Главное, что реально влияет на результат:
- длительность: чем короче, тем стабильнее
- количество сущностей в кадре: один герой и 1-3 объекта держатся лучше, чем толпа
- тип движения: плавная камера и одно действие работают лучше, чем резкая динамика и несколько событий
Что умеет Wan Video
Текст в видео
Генерирует клип по описанию сцены. Лучше всего выходят постановки, где ты описал:
- локацию и время суток
- кто или что в кадре
- одно ключевое действие
- как снимает камера
- какой свет
- что со звуком
Картинка в видео
Оживляет референс-кадр. Это один из самых практичных режимов, если тебе нужна повторяемость в серии: та же внешность, та же одежда, похожая палитра и композиция.
Многошотные сцены
В новых версиях и интеграциях Wan 2.6 часто делают упор на многошотность: ты описываешь мини-сценарий из 2-4 планов, а модель сама делает переходы и удерживает общий смысл. Работает лучше, если ты явно размечаешь планы и ограничиваешь каждый план одним действием.
Нативный звук и речь
Для Wan 2.6 часто заявляют синхронный звук и возможность делать говорящую голову без отдельной озвучки. Тут важно понимать: качество речи и липсинка сильно зависит от простоты кадра. Чем спокойнее план (лицо крупно, без резких поворотов, без сильной тряски камеры), тем лучше совпадение.
Референс-видео и перенос стиля
В некоторых реализациях Wan 2.6 есть сценарий, похожий на пересъемку: берешь референс-видео, сохраняешь движение и тайминг, но меняешь окружение или стиль. Это полезно, когда у тебя уже есть удачный перформанс, но надо поменять локацию, сезон, свет, оформление.
Чем Wan отличается от Sora, Veo, Kling, Runway
Если по делу, без лозунгов:
- Wan часто силен в картинка в видео и в стабильности деталей во времени при нормальных ограничениях.
- Veo и Sora обычно выбирают, когда нужен общий кинематографичный уровень и предсказуемая постановка по тексту, плюс нативный звук у обеих линеек.
- Kling часто берут за реализм фактур и движение, плюс за удобные режимы анимации референса.
- Runway выигрывает, когда тебе нужен редакторский конвейер: не только сгенерировать, но и быстро править, собирать, дорабатывать и выпускать.
Wan удобно воспринимать как семейство моделей, которое можно использовать и как open-source стек (если нужна автономность), и как облачную модель (если нужен быстрый результат без железа).
Плюсы и минусы
Плюсы:
- хорошая работа в коротком формате, особенно когда есть референс-кадр
- при правильных ограничениях часто держит детали стабильнее: одежда, предметы, свет
- у Wan 2.6 в облачных реализациях часто есть многошотность и синхронный звук
- open-source ветка дает вариант запускать у себя и не зависеть от подписок
Минусы:
- длинные ролики в любом случае сложные: растет цена и падает стабильность
- сцены с толпой и сложными взаимодействиями требуют много дублей
- без запретов легко получить псевдо-текст, случайные логотипы, лишние объекты
- доступность Wan 2.6 и реальные лимиты зависят от конкретного сервиса, который его дает
Сколько стоит подписка и API
Тут важный момент: Wan как модель встречается в разных витринах, и цена зависит от провайдера. Поэтому считать нужно не цену подписки, а цену одного ролика в твоей длине и качестве.
Типовая логика по рынку:
- подписка: платишь ежемесячно, получаешь кредиты, тратишь их на генерации
- pay-as-you-go: платишь по факту, обычно по секундам, иногда по пакетам 5-10-15 секунд
Ориентиры, которые чаще встречаются у API-провайдеров:
- 720p около 0.10-0.12 USD за секунду
- 1080p около 0.15-0.18 USD за секунду
Пример для быстрого планирования бюджета:
- 10 секунд 720p: около 1.0-1.2 USD
- 10 секунд 1080p: около 1.5-1.8 USD
- 15 секунд 1080p: около 2.3-2.7 USD
Если сервис продает пакетами, то ориентир часто такой:
- 5 секунд дешевле всего и подходит для теста движения
- 10 секунд - компромисс для рекламы и сторис
- 15 секунд - дороже и сложнее, но удобно для мини-сценария
Как пользоваться Wan Video
Через интерфейс (самый частый сценарий)
1) Выбираешь формат 16:9 или 9:16 под площадку. 2) Выбираешь длительность. Для тестов лучше 5-8 секунд. 3) Вставляешь промпт. Если нужен стабильный стиль или персонаж, добавляешь референс-изображение. 4) Генерируешь несколько дублей одним и тем же промптом. 5) Правишь промпт точечно. Меняешь либо камеру, либо действие, либо свет. Не все сразу.
Через API
1) Отправляешь задачу: модель, размер, длительность, текст, референс при необходимости. 2) Получаешь id задачи. 3) Ждешь завершения. 4) Скачиваешь mp4.
Для автоматизации сразу ставь ограничители: максимум дублей на сцену, фиксированная длительность на этапе перебора, запреты на текст и логотипы по умолчанию.
Как писать промпты на русском, чтобы Wan попадал в задумку
Wan понимает русский. Качество растет не от длины промпта, а от конкретики и ограничений. Промпт должен быть похож на мини-техзадание оператору.
Рабочая структура:
- длительность и формат
- локация и время суток
- герой или объект
- одно основное действие
- камера: план, движение, стабильность
- свет и материалы
- звук: что слышно и что запрещено
- запреты: текст, логотипы, смены, лишние объекты
Фразы, которые реально помогают управлять съемкой:
- общий план, средний план, крупный план, съемка сверху
- камера на штативе, плавная съемка на стабилизаторе, легкая съемка с рук
- медленный наезд, медленный отъезд, плавный проезд, панорама
- малая глубина резкости, перевод фокуса на объект
- мягкий свет, контровой свет, неон, золотой час, отражения на мокрой поверхности
Запреты, которые почти всегда стоит писать:
- без текста в кадре
- без логотипов и брендов
- одна локация
- один персонаж
- одно действие
- без резких смен плана и склеек
- без смены одежды и аксессуаров
- без добавления новых объектов в середине клипа
- без музыки и без диктора, если звук не нужен
Примеры промптов для Wan Video
1)
8 секунд, 16:9, 1280x720. Минималистичная кухня, чистый стол, нейтральный фон.
Объект: стеклянная бутылка воды с каплями конденсата, рядом долька лайма.
План: средний. Камера: медленный плавный наезд на стабилизаторе, малая глубина резкости, фон мягко размытый.
Свет: мягкий утренний слева, чистые блики на стекле.
Действие: рука аккуратно кладет дольку лайма рядом с бутылкой.
Звук: тихая комнатная атмосфера, легкий звон стекла, без музыки, без голоса.
Запреты: без текста в кадре, без логотипов, без смены плана, одна локация.
2)
8 секунд, 9:16, 720x1280. Ночная улица после дождя, мокрый асфальт, отражения неона в лужах.
План: общий. Камера: плавная съемка на стабилизаторе, движение вперед, горизонт ровный.
Действие: человек в капюшоне проходит рядом с камерой, из люка поднимается пар.
Свет: неон и отражения, реалистичные блики на мокрой поверхности.
Звук: шаги, дальний трафик, редкие капли, без музыки, без диктора.
Запреты: без текста, без логотипов, без склеек, одна локация.
3)
Используй прикрепленное изображение как первый кадр. 8 секунд, 16:9, 1280x720.
Сохрани лицо, прическу, одежду и цветовую палитру максимально близко к референсу.
План: средне-крупный. Камера: легкая съемка с рук, без резких рывков.
Действие: персонаж медленно поворачивает голову вправо и улыбается, видно спокойное дыхание.
Свет: мягкий свет из окна, натуральная кожа, без пластика.
Звук: тихая домашняя атмосфера, легкий шорох ткани, без музыки.
Запреты: без смены одежды и аксессуаров, без текста в кадре, без логотипов.
4)
15 секунд, 16:9, 1920x1080. Многошотная сцена из трех планов, без резких склеек, плавные переходы.
План 1: общий, городская площадь вечером, теплые фонари, легкий дождь, камера медленно едет вперед.
План 2: средний, персонаж открывает зонт и делает шаг к камере, камера плавно отъезжает назад.
План 3: крупный, лицо персонажа, короткая улыбка, легкий перевод фокуса на глаза.
Звук: дождь, шаги по мокрому камню, тихий городской фон, без музыки, без диктора.
Запреты: без текста в кадре, без логотипов, одна локация, один персонаж, без смены одежды.
5)
8 секунд, 16:9, 1280x720. Крупный план деревянного стола с заметной текстурой, камера на штативе, кадр статичный.
Действие: металлический ключ падает на стол, один раз подпрыгивает, вращается и полностью останавливается.
Свет: мягкий верхний, чистые тени, реалистичные отражения металла.
Звук: четкий металлический удар, короткое скольжение по дереву, тихая комнатная атмосфера.
Запреты: без замедления, без текста, без логотипов, без склеек.