Wan Video

> Open Source видео-модель от Alibaba

★ ★ ★ ★ ☆ 8/10
Назначение: video
Тип: Video Generation (Diffusion)
Создатель: Alibaba Cloud
Цена: Бесплатно
API: Есть
Доступ в РФ: Да
Русский язык: Английский, Китайский

Обзор Wan Video

Wan Video, чаще просто Wan - линейка видеомоделей Alibaba Cloud для генерации видео. Вокруг нее есть два мира: open-source ветка Wan 2.1-2.2 (модели и код, которые можно запускать у себя) и коммерческие реализации вроде Wan 2.5-2.6 в облачных продуктах и партнерских сервисах. Если тебе нужен смысл простыми словами: Wan - это про короткие ролики с акцентом на стабильность во времени, управляемую постановку и, в новых версиях, нативный звук и многошотные сцены.

Нормальный сценарий использования Wan в продакшне - не пытаться сделать минутный клип одним дублем. Делают 4-12 секундные куски и собирают в монтаж. Это и дешевле, и стабильнее по персонажу, одежде, объектам и свету.

Что это за модель и какие характеристики важны

Линейка и версии

  • Wan 2.1 и Wan 2.2 - известны как открытые модели и репозитории с инференсом. Там встречаются разные задачи: текст в видео, картинка в видео, текст-картинка в видео, а также отдельные ветки под анимацию персонажа и даже speech-to-video.
  • Wan 2.5 - часто фигурирует как cloud preview в арене и интеграциях.
  • Wan 2.6 - коммерческая версия, которую многие описывают как многошотную, до 15 секунд, с синхронным аудио и повышенной стабильностью во времени.

Разрешение и fps

В open-source ветке (например, Wan 2.2) типовая цель - 720p при 24fps, с расчетом на запуск на потребительских видеокартах уровня 4090. В коммерческих реализациях Wan 2.6 часто обещают 1080p и больше длину клипа.

Главное, что реально влияет на результат:

  • длительность: чем короче, тем стабильнее
  • количество сущностей в кадре: один герой и 1-3 объекта держатся лучше, чем толпа
  • тип движения: плавная камера и одно действие работают лучше, чем резкая динамика и несколько событий

Что умеет Wan Video

Текст в видео

Генерирует клип по описанию сцены. Лучше всего выходят постановки, где ты описал:

  • локацию и время суток
  • кто или что в кадре
  • одно ключевое действие
  • как снимает камера
  • какой свет
  • что со звуком

Картинка в видео

Оживляет референс-кадр. Это один из самых практичных режимов, если тебе нужна повторяемость в серии: та же внешность, та же одежда, похожая палитра и композиция.

Многошотные сцены

В новых версиях и интеграциях Wan 2.6 часто делают упор на многошотность: ты описываешь мини-сценарий из 2-4 планов, а модель сама делает переходы и удерживает общий смысл. Работает лучше, если ты явно размечаешь планы и ограничиваешь каждый план одним действием.

Нативный звук и речь

Для Wan 2.6 часто заявляют синхронный звук и возможность делать говорящую голову без отдельной озвучки. Тут важно понимать: качество речи и липсинка сильно зависит от простоты кадра. Чем спокойнее план (лицо крупно, без резких поворотов, без сильной тряски камеры), тем лучше совпадение.

Референс-видео и перенос стиля

В некоторых реализациях Wan 2.6 есть сценарий, похожий на пересъемку: берешь референс-видео, сохраняешь движение и тайминг, но меняешь окружение или стиль. Это полезно, когда у тебя уже есть удачный перформанс, но надо поменять локацию, сезон, свет, оформление.

Чем Wan отличается от Sora, Veo, Kling, Runway

Если по делу, без лозунгов:

  • Wan часто силен в картинка в видео и в стабильности деталей во времени при нормальных ограничениях.
  • Veo и Sora обычно выбирают, когда нужен общий кинематографичный уровень и предсказуемая постановка по тексту, плюс нативный звук у обеих линеек.
  • Kling часто берут за реализм фактур и движение, плюс за удобные режимы анимации референса.
  • Runway выигрывает, когда тебе нужен редакторский конвейер: не только сгенерировать, но и быстро править, собирать, дорабатывать и выпускать.

Wan удобно воспринимать как семейство моделей, которое можно использовать и как open-source стек (если нужна автономность), и как облачную модель (если нужен быстрый результат без железа).

Плюсы и минусы

Плюсы:

  • хорошая работа в коротком формате, особенно когда есть референс-кадр
  • при правильных ограничениях часто держит детали стабильнее: одежда, предметы, свет
  • у Wan 2.6 в облачных реализациях часто есть многошотность и синхронный звук
  • open-source ветка дает вариант запускать у себя и не зависеть от подписок

Минусы:

  • длинные ролики в любом случае сложные: растет цена и падает стабильность
  • сцены с толпой и сложными взаимодействиями требуют много дублей
  • без запретов легко получить псевдо-текст, случайные логотипы, лишние объекты
  • доступность Wan 2.6 и реальные лимиты зависят от конкретного сервиса, который его дает

Сколько стоит подписка и API

Тут важный момент: Wan как модель встречается в разных витринах, и цена зависит от провайдера. Поэтому считать нужно не цену подписки, а цену одного ролика в твоей длине и качестве.

Типовая логика по рынку:

  • подписка: платишь ежемесячно, получаешь кредиты, тратишь их на генерации
  • pay-as-you-go: платишь по факту, обычно по секундам, иногда по пакетам 5-10-15 секунд

Ориентиры, которые чаще встречаются у API-провайдеров:

  • 720p около 0.10-0.12 USD за секунду
  • 1080p около 0.15-0.18 USD за секунду

Пример для быстрого планирования бюджета:

  • 10 секунд 720p: около 1.0-1.2 USD
  • 10 секунд 1080p: около 1.5-1.8 USD
  • 15 секунд 1080p: около 2.3-2.7 USD

Если сервис продает пакетами, то ориентир часто такой:

  • 5 секунд дешевле всего и подходит для теста движения
  • 10 секунд - компромисс для рекламы и сторис
  • 15 секунд - дороже и сложнее, но удобно для мини-сценария

Как пользоваться Wan Video

Через интерфейс (самый частый сценарий)

1) Выбираешь формат 16:9 или 9:16 под площадку. 2) Выбираешь длительность. Для тестов лучше 5-8 секунд. 3) Вставляешь промпт. Если нужен стабильный стиль или персонаж, добавляешь референс-изображение. 4) Генерируешь несколько дублей одним и тем же промптом. 5) Правишь промпт точечно. Меняешь либо камеру, либо действие, либо свет. Не все сразу.

Через API

1) Отправляешь задачу: модель, размер, длительность, текст, референс при необходимости. 2) Получаешь id задачи. 3) Ждешь завершения. 4) Скачиваешь mp4.

Для автоматизации сразу ставь ограничители: максимум дублей на сцену, фиксированная длительность на этапе перебора, запреты на текст и логотипы по умолчанию.

Как писать промпты на русском, чтобы Wan попадал в задумку

Wan понимает русский. Качество растет не от длины промпта, а от конкретики и ограничений. Промпт должен быть похож на мини-техзадание оператору.

Рабочая структура:

  • длительность и формат
  • локация и время суток
  • герой или объект
  • одно основное действие
  • камера: план, движение, стабильность
  • свет и материалы
  • звук: что слышно и что запрещено
  • запреты: текст, логотипы, смены, лишние объекты

Фразы, которые реально помогают управлять съемкой:

  • общий план, средний план, крупный план, съемка сверху
  • камера на штативе, плавная съемка на стабилизаторе, легкая съемка с рук
  • медленный наезд, медленный отъезд, плавный проезд, панорама
  • малая глубина резкости, перевод фокуса на объект
  • мягкий свет, контровой свет, неон, золотой час, отражения на мокрой поверхности

Запреты, которые почти всегда стоит писать:

  • без текста в кадре
  • без логотипов и брендов
  • одна локация
  • один персонаж
  • одно действие
  • без резких смен плана и склеек
  • без смены одежды и аксессуаров
  • без добавления новых объектов в середине клипа
  • без музыки и без диктора, если звук не нужен

Примеры промптов для Wan Video

1)

8 секунд, 16:9, 1280x720. Минималистичная кухня, чистый стол, нейтральный фон.
Объект: стеклянная бутылка воды с каплями конденсата, рядом долька лайма.
План: средний. Камера: медленный плавный наезд на стабилизаторе, малая глубина резкости, фон мягко размытый.
Свет: мягкий утренний слева, чистые блики на стекле.
Действие: рука аккуратно кладет дольку лайма рядом с бутылкой.
Звук: тихая комнатная атмосфера, легкий звон стекла, без музыки, без голоса.
Запреты: без текста в кадре, без логотипов, без смены плана, одна локация.

2)

8 секунд, 9:16, 720x1280. Ночная улица после дождя, мокрый асфальт, отражения неона в лужах.
План: общий. Камера: плавная съемка на стабилизаторе, движение вперед, горизонт ровный.
Действие: человек в капюшоне проходит рядом с камерой, из люка поднимается пар.
Свет: неон и отражения, реалистичные блики на мокрой поверхности.
Звук: шаги, дальний трафик, редкие капли, без музыки, без диктора.
Запреты: без текста, без логотипов, без склеек, одна локация.

3)

Используй прикрепленное изображение как первый кадр. 8 секунд, 16:9, 1280x720.
Сохрани лицо, прическу, одежду и цветовую палитру максимально близко к референсу.
План: средне-крупный. Камера: легкая съемка с рук, без резких рывков.
Действие: персонаж медленно поворачивает голову вправо и улыбается, видно спокойное дыхание.
Свет: мягкий свет из окна, натуральная кожа, без пластика.
Звук: тихая домашняя атмосфера, легкий шорох ткани, без музыки.
Запреты: без смены одежды и аксессуаров, без текста в кадре, без логотипов.

4)

15 секунд, 16:9, 1920x1080. Многошотная сцена из трех планов, без резких склеек, плавные переходы.
План 1: общий, городская площадь вечером, теплые фонари, легкий дождь, камера медленно едет вперед.
План 2: средний, персонаж открывает зонт и делает шаг к камере, камера плавно отъезжает назад.
План 3: крупный, лицо персонажа, короткая улыбка, легкий перевод фокуса на глаза.
Звук: дождь, шаги по мокрому камню, тихий городской фон, без музыки, без диктора.
Запреты: без текста в кадре, без логотипов, одна локация, один персонаж, без смены одежды.

5)

8 секунд, 16:9, 1280x720. Крупный план деревянного стола с заметной текстурой, камера на штативе, кадр статичный.
Действие: металлический ключ падает на стол, один раз подпрыгивает, вращается и полностью останавливается.
Свет: мягкий верхний, чистые тени, реалистичные отражения металла.
Звук: четкий металлический удар, короткое скольжение по дереву, тихая комнатная атмосфера.
Запреты: без замедления, без текста, без логотипов, без склеек.

ОТЗЫВЫ О СЕРВИСЕ WAN VIDEO

[ NO DATA FOUND ]

> ОСТАВИТЬ ОТЗЫВ _