Обзор Wan Video

Wan Video, чаще просто Wan - линейка видеомоделей Alibaba Cloud для генерации видео. Вокруг нее есть два мира: open-source ветка Wan 2.1-2.2 (модели и код, которые можно запускать у себя) и коммерческие реализации вроде Wan 2.5-2.6 в облачных продуктах и партнерских сервисах. Если тебе нужен смысл простыми словами: Wan - это про короткие ролики с акцентом на стабильность во времени, управляемую постановку и, в новых версиях, нативный звук и многошотные сцены.

Нормальный сценарий использования Wan в продакшне - не пытаться сделать минутный клип одним дублем. Делают 4-12 секундные куски и собирают в монтаж. Это и дешевле, и стабильнее по персонажу, одежде, объектам и свету.

Что это за модель и какие характеристики важны

Линейка и версии

Wan 2.1 и Wan 2.2 - известны как открытые модели и репозитории с инференсом. Там встречаются разные задачи: текст в видео, картинка в видео, текст-картинка в видео, а также отдельные ветки под анимацию персонажа и даже speech-to-video.
Wan 2.5 - часто фигурирует как cloud preview в арене и интеграциях.
Wan 2.6 - коммерческая версия, которую многие описывают как многошотную, до 15 секунд, с синхронным аудио и повышенной стабильностью во времени.

Разрешение и fps

В open-source ветке (например, Wan 2.2) типовая цель - 720p при 24fps, с расчетом на запуск на потребительских видеокартах уровня 4090. В коммерческих реализациях Wan 2.6 часто обещают 1080p и больше длину клипа.

Главное, что реально влияет на результат:

длительность: чем короче, тем стабильнее
количество сущностей в кадре: один герой и 1-3 объекта держатся лучше, чем толпа
тип движения: плавная камера и одно действие работают лучше, чем резкая динамика и несколько событий

Что умеет Wan Video

Текст в видео

Генерирует клип по описанию сцены. Лучше всего выходят постановки, где ты описал:

локацию и время суток
кто или что в кадре
одно ключевое действие
как снимает камера
какой свет
что со звуком

Картинка в видео

Оживляет референс-кадр. Это один из самых практичных режимов, если тебе нужна повторяемость в серии: та же внешность, та же одежда, похожая палитра и композиция.

Многошотные сцены

В новых версиях и интеграциях Wan 2.6 часто делают упор на многошотность: ты описываешь мини-сценарий из 2-4 планов, а модель сама делает переходы и удерживает общий смысл. Работает лучше, если ты явно размечаешь планы и ограничиваешь каждый план одним действием.

Нативный звук и речь

Для Wan 2.6 часто заявляют синхронный звук и возможность делать говорящую голову без отдельной озвучки. Тут важно понимать: качество речи и липсинка сильно зависит от простоты кадра. Чем спокойнее план (лицо крупно, без резких поворотов, без сильной тряски камеры), тем лучше совпадение.

Референс-видео и перенос стиля

В некоторых реализациях Wan 2.6 есть сценарий, похожий на пересъемку: берешь референс-видео, сохраняешь движение и тайминг, но меняешь окружение или стиль. Это полезно, когда у тебя уже есть удачный перформанс, но надо поменять локацию, сезон, свет, оформление.

Чем Wan отличается от Sora, Veo, Kling, Runway

Если по делу, без лозунгов:

Wan часто силен в картинка в видео и в стабильности деталей во времени при нормальных ограничениях.
Veo и Sora обычно выбирают, когда нужен общий кинематографичный уровень и предсказуемая постановка по тексту, плюс нативный звук у обеих линеек.
Kling часто берут за реализм фактур и движение, плюс за удобные режимы анимации референса.
Runway выигрывает, когда тебе нужен редакторский конвейер: не только сгенерировать, но и быстро править, собирать, дорабатывать и выпускать.

Wan удобно воспринимать как семейство моделей, которое можно использовать и как open-source стек (если нужна автономность), и как облачную модель (если нужен быстрый результат без железа).

Плюсы и минусы

Плюсы:

хорошая работа в коротком формате, особенно когда есть референс-кадр
при правильных ограничениях часто держит детали стабильнее: одежда, предметы, свет
у Wan 2.6 в облачных реализациях часто есть многошотность и синхронный звук
open-source ветка дает вариант запускать у себя и не зависеть от подписок

Минусы:

длинные ролики в любом случае сложные: растет цена и падает стабильность
сцены с толпой и сложными взаимодействиями требуют много дублей
без запретов легко получить псевдо-текст, случайные логотипы, лишние объекты
доступность Wan 2.6 и реальные лимиты зависят от конкретного сервиса, который его дает

Сколько стоит подписка и API

Тут важный момент: Wan как модель встречается в разных витринах, и цена зависит от провайдера. Поэтому считать нужно не цену подписки, а цену одного ролика в твоей длине и качестве.

Типовая логика по рынку:

подписка: платишь ежемесячно, получаешь кредиты, тратишь их на генерации
pay-as-you-go: платишь по факту, обычно по секундам, иногда по пакетам 5-10-15 секунд

Ориентиры, которые чаще встречаются у API-провайдеров:

720p около 0.10-0.12 USD за секунду
1080p около 0.15-0.18 USD за секунду

Пример для быстрого планирования бюджета:

10 секунд 720p: около 1.0-1.2 USD
10 секунд 1080p: около 1.5-1.8 USD
15 секунд 1080p: около 2.3-2.7 USD

Если сервис продает пакетами, то ориентир часто такой:

5 секунд дешевле всего и подходит для теста движения
10 секунд - компромисс для рекламы и сторис
15 секунд - дороже и сложнее, но удобно для мини-сценария

Как пользоваться Wan Video

Через интерфейс (самый частый сценарий)

1) Выбираешь формат 16:9 или 9:16 под площадку. 2) Выбираешь длительность. Для тестов лучше 5-8 секунд. 3) Вставляешь промпт. Если нужен стабильный стиль или персонаж, добавляешь референс-изображение. 4) Генерируешь несколько дублей одним и тем же промптом. 5) Правишь промпт точечно. Меняешь либо камеру, либо действие, либо свет. Не все сразу.

Через API

1) Отправляешь задачу: модель, размер, длительность, текст, референс при необходимости. 2) Получаешь id задачи. 3) Ждешь завершения. 4) Скачиваешь mp4.

Для автоматизации сразу ставь ограничители: максимум дублей на сцену, фиксированная длительность на этапе перебора, запреты на текст и логотипы по умолчанию.

Как писать промпты на русском, чтобы Wan попадал в задумку

Wan понимает русский. Качество растет не от длины промпта, а от конкретики и ограничений. Промпт должен быть похож на мини-техзадание оператору.

Рабочая структура:

длительность и формат
локация и время суток
герой или объект
одно основное действие
камера: план, движение, стабильность
свет и материалы
звук: что слышно и что запрещено
запреты: текст, логотипы, смены, лишние объекты

Фразы, которые реально помогают управлять съемкой:

общий план, средний план, крупный план, съемка сверху
камера на штативе, плавная съемка на стабилизаторе, легкая съемка с рук
медленный наезд, медленный отъезд, плавный проезд, панорама
малая глубина резкости, перевод фокуса на объект
мягкий свет, контровой свет, неон, золотой час, отражения на мокрой поверхности

Запреты, которые почти всегда стоит писать:

без текста в кадре
без логотипов и брендов
одна локация
один персонаж
одно действие
без резких смен плана и склеек
без смены одежды и аксессуаров
без добавления новых объектов в середине клипа
без музыки и без диктора, если звук не нужен

Примеры промптов для Wan Video

1)

8 секунд, 16:9, 1280x720. Минималистичная кухня, чистый стол, нейтральный фон.
Объект: стеклянная бутылка воды с каплями конденсата, рядом долька лайма.
План: средний. Камера: медленный плавный наезд на стабилизаторе, малая глубина резкости, фон мягко размытый.
Свет: мягкий утренний слева, чистые блики на стекле.
Действие: рука аккуратно кладет дольку лайма рядом с бутылкой.
Звук: тихая комнатная атмосфера, легкий звон стекла, без музыки, без голоса.
Запреты: без текста в кадре, без логотипов, без смены плана, одна локация.

2)

8 секунд, 9:16, 720x1280. Ночная улица после дождя, мокрый асфальт, отражения неона в лужах.
План: общий. Камера: плавная съемка на стабилизаторе, движение вперед, горизонт ровный.
Действие: человек в капюшоне проходит рядом с камерой, из люка поднимается пар.
Свет: неон и отражения, реалистичные блики на мокрой поверхности.
Звук: шаги, дальний трафик, редкие капли, без музыки, без диктора.
Запреты: без текста, без логотипов, без склеек, одна локация.

3)

Используй прикрепленное изображение как первый кадр. 8 секунд, 16:9, 1280x720.
Сохрани лицо, прическу, одежду и цветовую палитру максимально близко к референсу.
План: средне-крупный. Камера: легкая съемка с рук, без резких рывков.
Действие: персонаж медленно поворачивает голову вправо и улыбается, видно спокойное дыхание.
Свет: мягкий свет из окна, натуральная кожа, без пластика.
Звук: тихая домашняя атмосфера, легкий шорох ткани, без музыки.
Запреты: без смены одежды и аксессуаров, без текста в кадре, без логотипов.

4)

15 секунд, 16:9, 1920x1080. Многошотная сцена из трех планов, без резких склеек, плавные переходы.
План 1: общий, городская площадь вечером, теплые фонари, легкий дождь, камера медленно едет вперед.
План 2: средний, персонаж открывает зонт и делает шаг к камере, камера плавно отъезжает назад.
План 3: крупный, лицо персонажа, короткая улыбка, легкий перевод фокуса на глаза.
Звук: дождь, шаги по мокрому камню, тихий городской фон, без музыки, без диктора.
Запреты: без текста в кадре, без логотипов, одна локация, один персонаж, без смены одежды.

5)

8 секунд, 16:9, 1280x720. Крупный план деревянного стола с заметной текстурой, камера на штативе, кадр статичный.
Действие: металлический ключ падает на стол, один раз подпрыгивает, вращается и полностью останавливается.
Свет: мягкий верхний, чистые тени, реалистичные отражения металла.
Звук: четкий металлический удар, короткое скольжение по дереву, тихая комнатная атмосфера.
Запреты: без замедления, без текста, без логотипов, без склеек.

Wan Video