AI技術関連2025.01.10当サイトはプロモーションが表示されます

AI音声合成の使い方を覚えて動画作成をしてみた話

最近は本当にAIを活用したサービスが多く出てくるようになり、また、OpenAIが大規模言語モデル（LLM）で学習した一般にテキストによるチャットツールのChatGPTをリリースしたことで、一気にAIによるコンテンツ生成などについても大きな変化が起きました。

本記事では、その中でもAI音声合成技術を利用した動画の作成をした経験を書いていきます。

目次を見る

1 AI音声合成も含めたコンテンツの種類
2 AI音声合成を利用したコンテンツの制作事例
- 2.1 AI音声合成を組み合わせた動画コンテンツの制作プロセス
- 2.2 今回のAI合成音声で試したかったこと
3 AI音声合成技術はコンテンツ制作でスゴく役に立つ

AI音声合成も含めたコンテンツの種類

AI音声合成も含めたコンテンツの種類

基本的にコンテンツの種類は4種類に分類されます。

テキスト
画像
動画
音

上記の４種類の組み合わせで、様々なコンテンツが制作されます。

今回の記事のメインテーマで行くと、４番の「音」に関する話題です。

けれど、今回のブログ記事のために実際に作成したコンテンツは、先ほど紹介したコンテンツの種類を4つ全て組み合わせています。

今後もたくさんのAIの様々な学習方法を利用して、一般ユーザーが試すことの出来るモノがたくさん出てくると考えていますが、取り急ぎ、OpenAIを軸に情報を集めていけばたくさんの比較対象になるアプリやサービス情報が入ってくるので良いと考えています。

OpenAIの始め方や使い方について実例を用いて分かりやすく解説【文章を書く人向けです】

関連記事OpenAIの始め方や使い方について実例を用いて分かりやすく解説【文章を書く人向けです】

AI音声合成を利用したコンテンツの制作事例

AI音声合成を利用して実際にコンテンツを制作してみました

今回、AI音声合成だけでなく、画像認識技術なども組み合わせてコンテンツ制作をしてみました。

AI音声合成を組み合わせた動画コンテンツの制作プロセス

まず、制作プロセスですが

STEP

表情を動かす画像の準備をする

予め、表情を動かすための画像素材を用意します。

筆者の場合は、オリジナルのキャラクターを3DCGにしたデータがあるので、今回は、それをあえて静止画で１フレームだけ書き出しました。

STEP

画像内の表情を動かすためのトポロジを作成する

この時に、様々な言葉にたいしてなるべくリアルに対応できるようにスキン変形時のイメージなどをプレビューと実際のメッシュを確認しながら　調整していきます。

STEP

台本となるテキストの生成

ここのプロセスでChatGPTや、その他の大規模言語モデル（LLM）以外にも、いくつかある言語モデルを利用したサービスなどを利用してみましたが、商用不可であったり、出力される文章が、筆者には合わせなかったので、動画で利用する台本は自分で作成しました。

ChatGPTの始め方や使い方について実例を用いて分かりやすく解説

関連記事ChatGPTの始め方や使い方について実例を用いて分かりやすく解説

STEP

作成した台本をAI音声合成にインポートする

作成した台本は、各動画用にプロジェクトを分けてインポートします。

ここでのアプリケーションには、株式会社AHSが販売しているAI音声合成の中で、商用利用が可能なモノを利用して台本のイントネーションを調整しながら音声データでかきだしました。

フォーマットは、.WAV（96kHz/16bit）で書き出しました。

個人的には96kHzの24bitのほうが良かったのですが、この辺は編集からさらにYouTubeに上げるまでに変換が2回発生するのと、アップロードされる時にコーデックも変わってしまうので、あまり気にしていません。

STEP

読み上げられている音声データに合わせて静止画が動くようにする

STEP2で作成したフェイス部分のメッシュデータを用いて、作成した音声データと画像データをリップシンクさせます。

このあたりのソフトはスゴくたくさんあって、ライセンスについても、それぞれ条件が違うので、個人か法人か、どのように利用して良いのか必ず確認をしてから利用しましょう。

音声データと画像データのリップシンクが出来あがったら、せっかくなので実際にYouTubeに動画をアップして始めるのもありです。

STEP

自分のYouTubeチャンネルに動画をアップする

今回作成したのは、100本の動画でショート動画と、まとめで作成した動画です。

筆者の場合、Webメディアの検証で、複数のチャンネルで色々な実験や検証を再生リスト単位で行っているので、今回もそうしました。

出来上がったタイトルが、本記事の冒頭でも紹介したYouTubeの再生リストです。

猫のきもち｜YouTubeショート動画 – 完

今回のAI合成音声で試したかったこと

商用で利用できる範囲の広いAI合成音声アプリケーションを使うことが出来たことで、今回は色々な検証が出来ました。

テキスト読み上げとリップシンクが出来るソフトの品質比較
ナナメを向いている時のスキンメッシュの調整方法
AIで動画生成をするときの中割構図の調整

頭の中で考えてみるのと、実際にやってみるのは、制作過程では思いもしなかったことが起こったりします。

そこで起きたことをノウハウで積み上げながらコンテンツ制作を楽しむのはスゴく良いことだと思っているので、今回はスゴく良い体験になりました。

成果としては、朗読する猫などの動画コンテンツが作れました。

AI音声合成技術はコンテンツ制作でスゴく役に立つ

AI音声合成技術はコンテンツ制作でスゴく役に立つ

今回、AI音声合成技術使ってコンテンツを始めてかなりの学びになりました。

おそらく、課題としては、その内に出てくる、動画生成をするときに読み上げる表情と動画全体の動きをどういう風に調整していくのか、これが、かなりの課題になるかと感じました。

なので最初のうちは、AIで生成するコンテンツは背景動画などにして、テキストを読み上げるキャラクターは別のレイヤーにして合成するところから初めてみるのが良いかも知れません。

また、このあたりのAI技術に関する分野は日々ものすごい速度で進化していくので、ブログを通じてアップデートしていこうと考えています。

最後まで読んでいただきありがとうございました。

YouTubeの始め方を基本から応用まで初心者向けにわかりやすく解説

関連記事YouTubeの始め方を基本から応用まで初心者向けにわかりやすく解説

AIで生成したコンテンツ制作の始め方や作り方を分かりやすく解説

ブログ記事の内容が薄いと感じたときの改善方法を分かりやすく解説

ABOUT US

小林玲王奈ユニコーンコンサルティング株式会社代表取締役

放送業界や映画業界で映像制作や新規事業の立ち上げを中心に16年間働いて2019年に独立。2020年1月にユニコーンコンサルティング株式会社を設立しました。現在は、国内・海外向けの小規模Webメディアやライブ配信メインのYouTubeチャンネルを複数運営。映像技術関連の技術顧問やWebサイト及びYouTubeのチャンネル運営サポート、このほか複数の教育機関で特別講義を行なっています。｜BBT経営塾（旧：大前経営塾）第10期生卒塾

当ブログの運営者情報は下記のページから確認できます。

運営者のプロフィール詳細

カテゴリー

月別アーカイブ