Google Flowで音声・セリフ付き動画を作る方法|Veo3.1のプロンプト【2026】
Google Flow(Veo 3.1)のいちばんすごいところって、実は映像と一緒に音声(セリフ・効果音・BGM)まで一発で生成してくれるところなんですよね。別撮りの音を後付けしなくていい。で、コツはひとつだけで、プロンプトに「何の音か」をちゃんと書くこと。この記事では、セリフ付き動画の作り方をざっくり整理します。(2026年6月時点)
この記事の結論(TL;DR)
- Veo 3.1は映像+音声(セリフ・効果音・BGM)を同時生成できる(最長8秒)
- 音を出すコツはプロンプトに「誰が・何と言うか・どんな音か」を具体的に書くこと
- セリフは「『いらっしゃいませ』と明るい声で言う」のように、セリフを直接指定する
- 日本語のセリフは精度がブレやすい。カメラワークなどは英語指定が安定
- 無料は月100クレジット。Pro ¥2,900/月・Ultra ¥36,400/月(2026年6月時点)
そもそもVeo 3.1の音声生成って何ができるの?
ざっくりいうと、Veo 3.1は「文章を書くと、映像と音がセットで出てくる」モデルです。これまでのAI動画って映像だけ作って、音は別のツールで足す感じだったんですよね。でもVeo 3.1は、セリフ・環境音・効果音・BGMをまとめて生成してくれます。
たとえば「カフェで店員さんが『いらっしゃいませ』と言う」みたいなプロンプトを書くと、映像のなかで実際に声がのる。これ、最初に見たとき普通にびっくりしました。
音声・セリフ付き動画を作る3ステップ
手順自体はシンプルです。普通に動画を作る流れに「音の指定」を足すだけ、という感じです。
- Flowにアクセスしてモデルを選ぶ…labs.google/fx でログインし、Veo 3.1(できればQuality)を選択します
- プロンプトに音を書き込む…映像の指定に加えて、セリフ・BGM・効果音を文章で指定します
- 生成して音を確認する…イメージと違えば、音の指定を直して作り直します
ポイントは2つ目。「音を書かないと、音は出ない(or 弱い)」と思っておくくらいでちょうどいいです。
音が思いどおりに出るプロンプトの書き方
Veo 3.1のプロンプトは、5つの要素に分けて書くと安定します。
| 要素 | 書く内容 | 例 |
|---|---|---|
| 被写体 | 誰・何が映るか | 30代の日本人女性、白いブラウス |
| 動き | どう動くか | 右から左に歩く、うなずく |
| 環境 | 場所・光 | 自然光の明るいオフィス |
| カメラ | 構図・動き(英語が安定) | slow dolly-in, close-up |
| 音声 | セリフ・BGM・効果音 | 「おはよう」と明るい声で/軽快なBGM/タイピング音 |
セリフは「『〇〇』と言う」と直接指定するのがコツです。「話す」だけだと何を言うか決まらないので、口は動くけど内容がぼやけがち。あと、BGMと効果音が同時に鳴るときは「BGMは小さめ」みたいに音量バランスも書くと整います。
「自社のPR動画やSNS動画に、AIをどう使えばいいか分からない」という方へ
Google Flowを使った動画制作の進め方を、目的に合わせて一緒に設計できます。まずは気軽にどうぞ。
セリフ付き動画でハマりやすい落とし穴
私もやってみて「あれ?」となった点をまとめておきます。
- 日本語のセリフがうまく出ない…日本語は発音や口の動きがブレやすいです。短いセリフにする、英語で指定する、などで安定します
- 子どもが映ると音声が消える…未成年が登場する動画は、Googleの安全ポリシーで音声が自動的にミュートされます。子どものセリフが必要なら別途音を足す必要があります
- 音を書き忘れて無音になる…音声はプロンプト次第。指定がないと弱くなるので、毎回ひとこと入れる癖をつけるといいです
このあたりは「映像→音の順で直す」と切り分けが楽です。まず映像を固めて、そのあと音を調整する感じですね。
料金|音声生成はどのプランでも使える
音声生成(ネイティブオーディオ)は、無料を含めて全プランで使えます。違うのはクレジット量です。
| プラン | 料金(2026年6月時点) | 目安 |
|---|---|---|
| 無料 | 0円 | 月100クレジット・まず試す |
| Pro | ¥2,900/月 | 個人で継続的に作る |
| Ultra | ¥36,400/月 | 本数を量産する・業務利用 |
まずは無料で、セリフ付きが思いどおりに出るか試すのがいいと思います。料金の詳細はGoogle Flowの料金|無料枠と有料プランの違いにまとめています。
まとめ|音は「書けば出る」
- Veo 3.1は映像とセリフ・効果音・BGMを同時生成できる
- 音を出すにはプロンプトに「誰が・何と言うか・どんな音か」を書く
- セリフは直接指定。日本語が不安定なら短く or 英語で
- 子どもが映ると音声は自動ミュートになる
- まず無料枠で試して、必要ならPro以上へ
あわせて読むと理解が深まります。
- Google Flowのプロンプト書き方|AI動画10例
- Veo3.1 Flowの使い方|料金とプロンプト
- Flowとveo3とGeminiの違い|使い分け
- Google Flowで画像から動画を作る方法【Ingredientsの使い方】
よくある質問(FAQ)
Google Flowでセリフ付きの動画は作れますか?
はい。Veo 3.1は映像と音声を同時に生成でき、プロンプトでセリフを指定すれば話す動画を作れます。「『おはよう』と明るい声で言う」のように、セリフを直接書くのがコツです。
日本語のセリフはきれいに出ますか?
日本語は発音や口の動きがブレやすく、英語に比べると精度が安定しにくいです。短いセリフにする、カメラワークなどは英語で指定する、といった工夫で改善します。
BGMや効果音も付けられますか?
はい。プロンプトにBGMや効果音を書けば生成されます。複数の音が重なる場合は「BGMは小さめ」など音量バランスも指定すると整いやすいです。
子どもが登場する動画でも音声は出ますか?
未成年が映る動画は、Googleの安全ポリシーにより音声が自動でミュートされます。子どものセリフが必要な場合は、別途音声を足す必要があります。
音声生成は無料プランでも使えますか?
使えます。ネイティブの音声生成は無料を含む全プランで利用できます。違いはクレジット量で、無料は月100クレジット、Proは月¥2,900です(2026年6月時点)。
まずは気軽に、ご相談ください。