Seedance 2.0 Official Release: Unified Multimodal Audio-Visual Joint Generation Architecture

Seedance 2.0 adopts a unified multimodal audio-visual joint generation architecture, supporting inputs across four modalities: text, image, audio, and video. It integrates the industry's most comprehensive multimodal content reference and editing capabilities. Compared to version 1.5, Seedance 2.0 offers significantly improved generation quality, higher usability in complex interaction and motion scenarios, and substantially enhanced physical accuracy, realism, and controllability, better suiting industrial-grade creative needs.

Core Highlights:

Higher Usability in Complex Scenarios: With outstanding motion stability and physical restoration capabilities, the model performs excellently in multi-subject interactions and complex motion scenarios, reaching SOTA usability levels.
Significantly Enhanced Multimodal Capabilities: Based on unified multimodal training, it supports hybrid inputs—allowing users to input up to 9 images, 3 videos, 3 audio clips, and natural language instructions. The model references composition, motion, camera movement, effects, and sound from the input materials.
Greatly Improved Video Controllability: Instruction following and consistency are fully enhanced. It supports stable, controllable video extension and editing, allowing users to control the entire video creation process like a director.
Deep Support for Industrial Content Creation: Supports 15-second high-quality multi-shot audio-visual output with dual-channel audio, achieving hyper-realistic audio-visual effects and significantly reducing production costs for film, ads, e-commerce, and gaming.

Detailed Capabilities

1. Stable Presentation of Complex Motion and Interaction

In pair figure skating scenes, the model expertly renders difficult sequences like synchronized jumps, mid-air rotations, and precise landings while adhering to the laws of physics. Close-up shots show realistic light refraction, gravitational weight in wind-blown clothing, and seamless character-environment interactions.

2. Support for Multimodal "Omnipotent Reference"

The model accurately understands multimodal inputs to reference composition, cinematic language, motion rhythm, and sound effects.

3. Enhanced Controllability for Generation and Editing

The controllability of video generation in Seedance 2.0 has been significantly enhanced. It demonstrates exceptional instruction-following capabilities, achieving precise reconstruction and generation even when faced with complex scripts involving extensive character interactions and detailed action descriptions, all while maintaining stable subject consistency. Furthermore, the model possesses a certain degree of cinematic thinking, enabling it to autonomously plan camera language and design visual presentation templates.

Video Extension & Editing: Supports targeted modifications of specific clips, characters, actions, or plots. The video extension feature generates continuous shots based on user prompts.

4. Dual-Channel Audio with Synchronized Immersive Sound

Integrates dual-channel stereo technology for high-fidelity sound generation. Supports multi-track parallel output for background music, ambient sound, and narration. Realistically restores delicate sounds like scraping frosted glass or squeezing bubble wrap.

Evaluation Results

Video Dimension: Industry-leading level. Significant improvements in motion stability and instruction following. Effectively reduces structural collapse, delivering smooth complex actions and professional cinematic camera language.
Audio Dimension: Strong performance with rich, dual-channel layers. Improved response accuracy for Chinese dialects, traditional opera, and singing scenes.
Multimodal Reference: Comprehensive task coverage. Strong performance in subject identity and voice restoration, with significant advantages in motion logic and narrative consistency.