SkyReels V4 は世界初の統合型映像-音声基盤モデル。1080p シネマ品質の映像とネイティブ同期音声(リップシンク・SFX・BGM)を 1 度のレンダリングで生成。Skywork AI 開発、SkyReels V4api は APIMart で開発者向けに公開中。
SkyReels V4 は新しいデュアルストリーム MMDiT アーキテクチャで AI 映像生成を再定義。
業界初。SkyReels V4 は単一パイプラインでリップシンク・SFX・環境音をマイクロ秒精度で同期生成。後処理対応不要。
テキスト、画像、動画、マスク、音声参照——5 つの入力を SkyReels V4 が同時に理解。Sora 2 のテキスト+画像を大きく超える。
動画の任意領域をマスクして再生成。SkyReels V4 はオブジェクト置換、字幕削除、背景入れ替えを動作と照明を保ったまま実行。
複数ショットで同一キャラクターの顔ぶれを保持。SkyReels V4 は Sora、Veo、Runway を悩ます一貫性問題を解決。
中国語、英語、日本語、韓国語、ロシア語などのセリフをフレーム精度のリップシンクで生成。SkyReels V4 は真のグローバル対応。
ビートトラックを入力すると SkyReels V4 がリズムに合わせてカット切替。TikTok、Reels、音楽駆動コンテンツに最適。
以下の各クリップは SkyReels V4 が 15 秒以内にネイティブ同期音声付きで生成。外部音声モデル不要、後処理不要。
2026-02-25、Skywork AI が SkyReels V4 論文を arXiv に公開(2602.21818)。中核はデュアルストリーム MMDiT——映像と音声の拡散ストリームが共有 MLLM テキストエンコーダで相互注意。
2026-03-19、SkyReels V4 が <strong>Artificial Analysis text-to-video-with-audio で 1 位</strong>に。独立テスター曰く「フレーム単位のリップシンクが完璧」「ドラムが画面のビートにぴったり」。SkyReels V4api が APIMart 経由で開発者公開。
SkyReels V4 は V3 のマイナーアップデートではなく、ネイティブ音声を加えた根本的な再設計。
| 機能 | SkyReels V4 ⚡ | Sora 2 | Veo 3.1 | Kling 3.0 | Runway Gen-4.5 |
|---|---|---|---|---|---|
| Native Audio Generation | ✓ Single pipeline | ✗ Not supported | ~ Experimental | ✗ Not supported | ✗ Not supported |
| Max Resolution | 1080p (→1440p) | 1080p | 1080p (→4K) | Native 4K | 1080p |
| Max Length (single render) | 15s with audio | 45s | 60s | 10s | 10s |
| Lip-Sync Accuracy | Frame-perfect | N/A (no audio) | Decent | N/A | N/A |
| Input Modalities | 5 (T+I+V+M+A) | 2 (T+I) | 3 (T+I+V) | 2 (T+I) | 3 (T+I+V) |
| Multilingual Speech | 5+ languages | English only | 3 languages | N/A | N/A |
| API Price / Minute | $8.40 | Not available | ~$30.00 | ~$15.00 | ~$12.00 |
ショート動画から企業マーケティングまで、SkyReels V4 のネイティブ音声機能が AI 動画制作を再定義。
15 秒のネイティブ音声出力は縦型ショート動画に最適。SkyReels V4 が BGM + リップシンクセリフ + ビートカットを 1 度に生成。
商品写真と短いプロンプトをアップロード → SkyReels V4 が環境音付き動画を生成。マスク編集で SKU バリエーション量産。
SkyReels V4 は 1 つのアセットから 5+ 言語のリップシンクを実現。同じスポークスパーソン、同じスクリプト、5 言語を SkyReels V4api 経由で数分で生成。
ナレーション + SFX 付きシネマカットシーン、リップシンク付き教育動画を生成。SkyReels V4 で従来の DAW + 動画編集ワークフローを 15-20 分/本短縮。
オープンソース V1 からネイティブ音声付きクローズドソース V4 まで——Skywork AI の動画モデル進化。
Skywork AI 初の image-to-video モデル、Hunyuan ベース。重みと推論コードを GitHub で公開。
14B パラメータ、Diffusion Forcing による無限長生成。GitHub 6.8k+ スター。
720p / 24 FPS、マルチモーダル in-context 学習。初の CRef 対応。
arXiv 論文(2602.21818)公開。世界初の統合映像-音声基盤モデル。デュアルストリーム MMDiT + 共有 MLLM。
SkyReels V4 が Artificial Analysis で 1 位。SkyReels V4api が APIMart 経由で開発者公開。限定プレビュー中。
SkyReels V4api は APIMart に統合され、統一課金で最低消費なし。
SkyReels V4 と SkyReels V4api に関する最も包括的な Q&A、継続更新。
SkyReels V4api は APIMart に統合済み、統一課金。60 秒で API キー取得。
2,400+ 開発者が SkyReels V4api 待機リストに参加 · クレカ不要 · 無料クレジット
研究者は SkyReels V4 をどう評価したか
Artificial Analysis、Hugging Face Papers、WaveSpeedAI、HackerNoon からの実評価。