SkyReels V4 是全球首个统一视频-音频基础模型。单管线生成 1080p 电影级视频,原生同步对白、音效与配乐——无需后期对轨。由 Skywork AI 研发,SkyReels V4api 现已通过 APIMart 向开发者开放。
SkyReels V4 采用全新双流多模态扩散 Transformer(MMDiT)架构,重新定义 AI 视频生成的边界。
行业首创。SkyReels V4 在单一管线内同时生成同步的视频与音频——对白、音效、环境音全部微秒级对齐,无需后期对轨。
文本、图像、视频片段、二值 Mask、音频参考——五种输入模态统一接口,SkyReels V4 同时理解全部输入,远超 Sora 2 的纯文本+图像。
Mask 视频中任意区域并重新生成,其他区域完全保留。SkyReels V4 支持替换物体、抠掉字幕、换背景,运动与光照保持连贯。
同一角色在多个镜头中外貌不漂移。SkyReels V4 解决了困扰 Sora、Veo、Runway 的角色一致性老大难。
支持中、英、日、韩、俄等多语言对白,逐帧唇形对齐+情绪表达。SkyReels V4 真正实现全球化输出。
输入一段鼓点节拍,SkyReels V4 自动按节奏切换镜头与运动重音。短视频、卡点舞蹈、广告 Hook 神器。
下方每个片段均由 SkyReels V4 在 15 秒内生成,含原生同步音频,未使用任何外部音频模型或后期对轨。
2026-02-25,Skywork AI 在 arXiv 发布 SkyReels V4 论文(2602.21818)。核心:双流 MMDiT 架构,视频与音频扩散流通过共享 MLLM 文本编码器跨注意力。
2026-03-19,SkyReels V4 登顶 <strong>Artificial Analysis 文本到视频含音频排行榜第 1</strong>,超越 Veo 3.1 与可灵 3.0。独立评测者反馈"逐帧唇形精准对齐"、"鼓点完美卡到画面节奏"。SkyReels V4api 随后通过 APIMart 等渠道向开发者开放。
SkyReels V4 不是 V3 的小幅升级,而是底层架构的重写——首次加入原生音频生成。
| 能力维度 | SkyReels V4 ⚡ | Sora 2 | Veo 3.1 | Kling 3.0 | Runway Gen-4.5 |
|---|---|---|---|---|---|
| Native Audio Generation | ✓ Single pipeline | ✗ Not supported | ~ Experimental | ✗ Not supported | ✗ Not supported |
| Max Resolution | 1080p (→1440p) | 1080p | 1080p (→4K) | Native 4K | 1080p |
| Max Length (single render) | 15s with audio | 45s | 60s | 10s | 10s |
| Lip-Sync Accuracy | Frame-perfect | N/A (no audio) | Decent | N/A | N/A |
| Input Modalities | 5 (T+I+V+M+A) | 2 (T+I) | 3 (T+I+V) | 2 (T+I) | 3 (T+I+V) |
| Multilingual Speech | 5+ languages | English only | 3 languages | N/A | N/A |
| API Price / Minute | $8.40 | Not available | ~$30.00 | ~$15.00 | ~$12.00 |
从短视频内容到企业级营销,SkyReels V4 凭借原生音频能力重新定义 AI 视频生产。
15 秒原生带音频输出完美匹配竖屏短视频。SkyReels V4 一次生成 BGM + 唇形对白 + 卡点切换——一条 TikTok 可发素材。
上传一张产品图 + 简短提示词,SkyReels V4 即生成带环境音的视频。Mask 编辑可批量替换背景,做多 SKU 变体。
SkyReels V4 一个素材唇形对齐输出 5+ 种语言。同一品牌代言人、同一脚本、五个语言版本,通过 SkyReels V4api 几分钟搞定。
生成带旁白与环境音效的电影级过场,或带唇形同步讲解的教学视频。SkyReels V4 比传统 DAW + 剪辑流程节省 15-20 分钟/条。
从开源 V1 到带原生音频的闭源 V4——Skywork AI 视频模型的进化史。
Skywork AI 首个图生视频模型,基于 Hunyuan,GitHub 公开权重与推理代码。
14B 参数模型,通过 Diffusion Forcing 实现无限时长生成。GitHub 6.8k+ Star,开源视频领域基准。
720p / 24 FPS,引入多模态 In-Context 学习,首次跨镜头角色一致性。
arXiv 论文(2602.21818)发布。全球首个统一视频-音频基础模型,双流 MMDiT 架构 + 共享 MLLM 文本编码器。
SkyReels V4 登顶 Artificial Analysis。SkyReels V4api 通过 APIMart 向开发者开放,限量内测中。
SkyReels V4api 已集成进 APIMart,统一计费、无最低消费。下方为对应 SkyReels.ai 消费者套餐。
最全面的 SkyReels V4 与 SkyReels V4api 问答合集,持续更新。
SkyReels V4api 已集成 APIMart,统一计费。60 秒获取 API Key,立即生成带原生音频的电影级视频。
2,400+ 开发者已在 SkyReels V4api 等待名单 · 无需信用卡 · 提供免费积分
研究人员怎么评价 SkyReels V4
来自 Artificial Analysis、Hugging Face Papers、WaveSpeedAI、HackerNoon 等 AI 研究社区的真实反馈。