大阪探検隊
📖 開発秘話マンガ ・ 第3巻

台本を貼るだけ、
ナレ完成

〜 VOICEVOX×AIで作った「ナレメーカー」開発記 〜

YouTube動画のナレーションを、1行ずつ手作業で録っていた男がいた。 「台本を貼るだけで、音声も字幕も全部できたらいいのに」——その一言から、 相棒のAIとの半日開発が始まった。ポート迷子事件あり、まさかのWeb公開断念あり。全5話、どうぞ。

🎙 ナレ収録が終わらない 🔌 エンジンが行方不明 🚧 まさかのWeb公開断念 🎉 貼るだけで一括生成
ぼく動画も作る人間
クロード相棒のAI(Claude Code)
VOICEVOX無料の音声合成ソフト

💡 下線付きの用語(末尾に ⓘ)はクリック/タップで意味の解説がポップアップで開きます。専門用語は、その場で確かめながら読めます。

EP.01

💥 事件発生 — ナレ収録が、終わらない

動画の絵コンテはできた。台本もできた。あとはナレーションを入れるだけ——のはずだった。

1

ぼくの動画のナレーションは、無料のソフトの声。いい声なんだけど……画面で1行入力しては、再生して、保存しての繰り返し。

2

30行の台本なら、保存ボタンを30回。さらに動画編集ソフトに並べる用の字幕も、また別に手作業。気づけば、ナレ準備だけで日が暮れていた。

ぼく動画って、編集よりナレの下ごしらえのほうが時間かかってない……? 台本はもう書けてるのに!

クロード台本が「もうある」なら話は早いよ。台本を貼るだけで、音声も字幕も一括で出てくる道具を作ろう。VOICEVOXにはプログラムから声を頼める窓口があるんだ。

EP.02

🛠 作戦会議 — 「1行=1発話=字幕1枚」の設計

道具の名前は「ナレメーカー」。ルールはたった1つに決めた。

3

ルールは「台本の1行 = 1回の発話 = 字幕1枚」。空行を入れたら章の区切り。これだけ覚えれば、あとは貼って押すだけ。

生成されるのは3点セット。①1行ずつの ②全部つなげた結合WAV ③動画編集ソフトにそのまま読み込める字幕ファイル()。しかも結合WAVと字幕は秒単位でピッタリ同じタイミングになるよう計算済み。

📜 台本 こんにちは。 今日はAIの話。 まずは結論から。 1行=字幕1枚 貼る 🎛 ナレメーカー (ブラウザで動く) 話者えらび(試聴OK) 話速・ポーズ調整 ▶ 生成する 🎙 VOICEVOXエンジン(同じPCの中) 一括生成 🔊 連番WAV 001.wav 002.wav 003.wav… 🎵 結合WAV 全行つなぎ・間(ま)も再現 💬 字幕SRT 音声とピッタリ同じ秒数 → zipで動画編集ソフトへ直行
🗺 ナレメーカーの設計図。台本を貼る→声を選ぶ→生成する。3点セットがzipで出てきて、動画編集ソフトに直行できる。
ナレメーカーの操作画面全体。右上に「✓ VOICEVOX 接続中」の緑のランプ、中央に台本を貼り付ける大きな入力欄、その下に話者を選ぶプルダウン、話速と行間ポーズのスライダー、緑の「生成する」ボタンが縦に並んでいる
🖥 そして、これが完成した「ナレメーカー」。設計図のとおり、上から〈台本を貼る欄〉〈声を選ぶ・話速や行間の調整〉〈生成ボタン〉が一列に。右上の緑のランプ「✓ VOICEVOX 接続中」は、同じPCの中のエンジンとつながっているサインです。

クロードこだわりポイントはもう1つ。外部のライブラリ(部品)に一切頼らないで作った。zip作りも、WAVの結合も、字幕の生成も、ぜんぶ自前の計算。部品が古くなって壊れる心配がないんだ。

ぼくプラモデルじゃなくて、フルスクラッチってことか。よし、動かしてみよう!

EP.03

🔌 ポート迷子 — エンジンが、見つからない

初回テスト。VOICEVOXも起動した。ナレメーカーも開いた。なのに——。

ぼく「エンジンに接続できません」って出てる! VOICEVOX、ちゃんと起動してるのに!?

クロード調べてみよう。……あ、原因わかった。VOICEVOXの窓口の番号は「50021」のはずなんだけど、環境によって番号がズレることがあるんだ。今まさにズレてる。

4

対策は「決め打ちをやめる」。50021〜50025を順番にノックして、返事があった窓口に接続する方式に変更。さらに未接続のときは5秒ごとに自動で再ノック。エンジンの起動を待ってから手動でつなぎ直す手間も消えた。

🛡 ついでに「見逃さないUI」へ

接続できているかどうかは、画面の上に常時ランプで表示することにした。つながっていないのに生成ボタンを押して「あれ?」となる事故を、見た目で防ぐ。エラーは隠さず、デカく出す。ドタバタの中で生まれた鉄則である。

ナレメーカー上部の接続ランプの2つの状態。上は赤いランプで「✗ 未接続(自動で再試行中…)」、下は緑のランプで「✓ VOICEVOX 接続中」と表示されている
🚦 つながっているかは、常時ランプで。エンジンが見つからない間は赤で「未接続(自動で再試行中…)」、つながれば緑で「接続中」。押しても動かない…という事故を、見た目で未然に防ぎます。
EP.04

🚧 方針転換 — まさかの「Web公開、断念」

動いた。便利だ。こうなると欲が出る。「これ、サイトで公開したら喜ばれるんじゃない?」

ぼくSnapfitみたいに、このサイトから誰でも使えるようにしようよ!

クロード……それが、今回は事情が違うんだ。ナレメーカーの声は、利用者のPCの中にいるVOICEVOXエンジンが作る。そしてブラウザにはという安全ルールがあって、Web上のサイトから利用者のPCの中への接続は、原則ブロックされる。

ぼくVOICEVOX側で「このサイトはOK」って設定してもらえば……?

クロードそれが、ふつうの人が使うデスクトップ版のVOICEVOXには、その許可を出す設定画面が無いんだ。使う人全員に上級者向けの回避策をお願いすることになる。それは「誰でも使える道具」じゃなくなるよね。

5

悩んだ末の結論は、「Web公開をやめて、ローカル配布に振り切る」。zipを渡して、各自のPCの中で動かしてもらう。VOICEVOXは元々「同じPCの中()からの接続」なら大歓迎。相性の良いほうに、道具を寄せた

ただしローカル配布には課題がひとつ。HTMLファイルを直接ダブルクリック(file://)では動かない。そこで小さな簡易サーバーを同梱し、起動バッチをダブルクリックすれば全部動く形に整えた。

案A:Webで公開

  • 誰でもURLで使える(理想)
  • でもCORSの壁で、エンジンに届かない
  • 回避には全員が上級者設定を要する

案B:ローカル配布 ✅

  • zip展開→起動バッチをダブルクリック
  • VOICEVOXと相性バツグン(同じPC内)
  • 台本も音声も外に出ない=おまけに安心

クロードさらに欲張って、起動バッチがVOICEVOXエンジンまで自動で起こしに行くようにした。ダブルクリック1回で、エンジン起動→接続確認→ブラウザが開く、まで全自動だよ。

ぼく公開はできなかったけど、使い勝手はむしろ上がってる……!

EP.05

🎛 磨き込み — 113人の声と、「約何分何秒」

土台が固まったら、あとは動画を作る人間として「あったら嬉しい」を全部盛る番。

話者を選ぶプルダウンを開いたところ。四国めたん(ノーマル/あまあま/ツンツン/セクシー/ささやき/ヒソヒソ)、ずんだもん(ノーマル/あまあま…)など、キャラクターごとにスタイル違いがずらりと並び、ずんだもん(ノーマル)が選択されている
🎙 声は113種類から。ずんだもん・四国めたん…と、キャラクターごとに「ノーマル」「あまあま」などのスタイル違いまで一覧に。名前だけでは選べないので、▶を押せばその場で試し聴きできます。
1
話者の試聴ボタン

VOICEVOXの話者はスタイル違いも含めて113種類。名前だけでは選べないので、▶を押すとその場で声のサンプルが流れるようにした。

2
声の細部もスライダーで

音の高さ・抑揚・音量・間の長さ・前後の無音を、VOICEVOX本体と同じ感覚で調整できる詳細パネルを追加。設定は自動で記憶される。

3
台本から「推定尺」を表示

貼った台本が「何行・何文字・約何分何秒」になるかを生成前に表示。テストでは実測9.0秒の台本を「約9秒」と当てた。動画の尺の見積もりに効く。

4
1行ずつ、その場で試し聴き

生成結果の各行に▶ボタン。書き出す前に誤読(漢字の読み間違い)チェックができる。

5
台本の自動保存

うっかりブラウザを閉じても台本が消えないよう、書きかけを自動保存・自動復元。

「詳細設定」パネルを開いたところ。音高・抑揚・音量・間の長さ・開始無音・終了無音の6つのスライダーが2列に並び、それぞれ現在値(0.00や1.00など)が表示されている。左下に「初期値に戻す」ボタン
🎛 声の細部もスライダーで。音の高さ・抑揚・音量・間の長さ・前後の無音を、VOICEVOX本体と同じ感覚で微調整。いじった設定は自動で記憶されます。
生成結果の画面。「音声3本+3ファイル/結合時の長さ 約0分14秒/話者: ずんだもん(ノーマル)」と表示され、「まとめてダウンロード(zip)」ボタンの下に、連番WAV(01-01, 01-02, 02-01)・字幕.srt・全ナレ結合.wav・クレジット.txt が各行の再生ボタン付きで並んでいる
📦 これが実際の生成結果。1行ずつの連番WAV(01-01, 01-02…)に、全部つないだ〈全ナレ結合.wav〉、タイミングの合った〈字幕.srt〉、そして表記漏れを防ぐ〈クレジット.txt〉まで一式。あとはzipで動画編集ソフトへ運ぶだけです。

1行ずつの手作業が、
「貼って、押すだけ」になった。

EXTRA

🔬 おまけ — 台本と声は、PCの外に出ない

魔法ではありません。そして、どこにも「送信」しません。

💻 あなたのPCの中 🌐 ブラウザ ナレメーカー画面 台本・zip書き出し WAV結合・SRT生成 🎙 VOICEVOX エンジン(音声合成) 文字 → 声に変換 窓口: 50021〜50025 台本と音声は、この間だけを往復 ☁ インターネット (外部サーバー) 送信ゼロ
🔒 通信の地図。台本も音声も「ブラウザ ⇄ 同じPC内のVOICEVOXエンジン」の往復だけ。外部サーバーには何も送らない設計(接続先はCSPという仕組みで機械的に制限)。

🧾 クレジット表記も「仕組み」で守る

VOICEVOXの音声を動画などで使うときは「VOICEVOX:キャラクター名」のクレジット表記が必要(無料・商用利用可のかわりのお約束)。人間は絶対にいつか忘れるので、ナレメーカーは生成物のzipにクレジット表記のテキストファイルを自動で同梱する。表記漏れ事故を、意志の力ではなく仕組みで防ぐ。

使い方のおやくそく。 VOICEVOXの各キャラクターには、それぞれ利用規約があります(キャラクターによって細かな条件が異なります)。動画等で使うときはクレジット表記とあわせて、公式サイトで各キャラクターの規約を確認してから使いましょう。

FAQ

❓ よくある質問

Q1. ナレメーカーはどこで使える?配布してる?

Webでは公開していません(第4話のとおり、VOICEVOXとWebサイトの相性問題のため)。zipを渡して各自のPCで動かすローカル配布の形をとっています。同じ仕組みの道具は、無料のVOICEVOXと生成AIがあれば誰でも作れます。

Q2. 台本や音声が外部に送られない?

送られません。やり取りは「ブラウザ ⇄ 同じPC内のVOICEVOXエンジン」だけで完結し、接続先はCSPという仕組みで機械的に制限しています。ネットに何かを送信する機能そのものがありません。

Q3. 生成したナレーションは動画に使っていい?

使えます。VOICEVOXは商用利用も可能ですが、「VOICEVOX:キャラクター名」のクレジット表記が必要です。ナレメーカーは表記用テキストをzipに自動同梱して、うっかり漏れを防いでいます(キャラクター個別の規約確認もお忘れなく)。

END

🌙 教訓 — 公開だけが、ゴールじゃない

朝7時に作りはじめて、昼前には動画1本分のナレが「貼るだけ」になっていた。

📌 この一件で学んだこと

  • 台本が「もうある」なら、残りは道具にできる。繰り返しの手作業は、自動化の合図。
  • 決め打ちはいつか裏切られる。ポート番号は探す。接続は自動で再試行。前提は疑ってかかる。
  • 公開だけがゴールじゃない。Webで配れなくても、道具の価値は変わらない。制約に合う配り方へ寄せる。
  • お約束(クレジット表記)は仕組みで守る。人間の記憶力を信用しない。

このサイト「AI探検隊」は、AIで「Webサイト・音楽・画像」を実際につくって見せる場所です。 今回のナレメーカーは朝の半日でゼロから完成しました。AIとの道具づくりは、もう週末すら要らないのかもしれません。 「ナレ収録が終わらない……」というあなた、台本を貼るだけの世界はすぐそこです。

「面倒」を、AIで道具に変える。
その入口は、すぐそこに。

ニュースを眺める側から、AIを使いこなす側へ。当サイトの実演記事から、はじめの一歩をどうぞ。

💻 Claude Codeのすすめ 🎵 AIで音楽をつくる 🧑‍💻 AIでWebサイトを作る 🤖 AIエージェントとは 🏠 トップページ