AI音声合成の使い方を覚えて動画作成をしてみた話

最近は本当にAIを活用したサービスが多く出てくるようになり、また、OpenAIが大規模言語モデル(LLM)で学習した一般にテキストによるチャットツールのChatGPTをリリースしたことで、一気にAIによるコンテンツ生成などについても大きな変化が起きました。

本記事では、その中でもAI音声合成技術を利用した動画の作成をした経験を書いていきます。

AI音声合成も含めたコンテンツの種類

AI音声合成も含めたコンテンツの種類

基本的にコンテンツの種類は4種類に分類されます。

  1. テキスト
  2. 画像
  3. 動画

上記の4種類の組み合わせで、様々なコンテンツが制作されます。

今回の記事のメインテーマで行くと、4番の「音」に関する話題です。

けれど、今回のブログ記事のために実際に作成したコンテンツは、先ほど紹介したコンテンツの種類を4つ全て組み合わせています。

今後もたくさんのAIの様々な学習方法を利用して、一般ユーザーが試すことの出来るモノがたくさん出てくると考えていますが、取り急ぎ、OpenAIを軸に情報を集めていけばたくさんの比較対象になるアプリやサービス情報が入ってくるので良いと考えています。

関連記事:OpenAIの始め方や使い方について実例を用いて分かりやすく解説【文章を書く人向けです】

AI音声合成を利用して実際にコンテンツを制作してみました

AI音声合成を利用して実際にコンテンツを制作してみました

今回、AI音声合成だけでなく、画像認識技術や、その他の色々なコンテンツ生成技術を試して実際にコンテンツを100本ほど、作成してみました。

実際に作成してみた、動画コンテンツの再生リストは下記になります。

猫のきもち|YouTubeショート動画 – 完

AI音声合成を組み合わせた動画コンテンツの制作プロセス

上記で紹介した、100本作成した動画の制作プロセスを説明していきます。

まず、制作プロセスですが

STEP

表情を動かす画像の準備をする

予め、表情を動かすための画像素材を用意します。

筆者の場合は、オリジナルのキャラクターを3DCGにしたデータがあるので、今回は、それをあえて静止画で1フレームだけ書き出しました。

STEP

画像内の表情を動かすためのトポロジを作成する

この時に、様々な言葉にたいしてなるべくリアルに対応できるようにスキン変形時のイメージなどをプレビューと実際のメッシュを確認しながら 調整していきます。

STEP

台本となるテキストの生成

ここのプロセスでChatGPTや、その他の大規模言語モデル(LLM)以外にも、いくつかある言語モデルを利用したサービスなどを利用してみましたが、商用不可であったり、出力される文章が、筆者には合わせなかったので、100本の動画で利用する台本は自分で作成しました。

STEP

作成した台本をAI音声合成にインポートする

作成した台本は、各動画用にプロジェクトを分けてインポートします。

ここでのアプリケーションには、株式会社AHSが販売しているAI音声合成の中で、商用利用が可能なモノを利用して台本のイントネーションを調整しながら音声データでかきだしました。

フォーマットは、.WAV(96kHz/16bit)で書き出しました。

個人的には96kHzの24bitのほうが良かったのですが、この辺は編集からさらにYouTubeに上げるまでに変換が2回発生するのと、アップロードされる時にコーデックも変わってしまうので、あまり気にしていません。

STEP

読み上げられている音声データに合わせて静止画が動くようにする

STEP2で作成したフェイス部分のメッシュデータを用いて、作成した音声データと画像データをリップシンクさせます。

このあたりのソフトはスゴくたくさんあって、ライセンスについても、それぞれ条件が違うので、個人か法人か、どのように利用して良いのか必ず確認をしてから利用しましょう。

音声データと画像データのリップシンクが出来あがったら、せっかくなので実際にYouTubeに動画をアップして始めるのもありです。

STEP

自分のYouTubeチャンネルに動画をアップする

今回作成したのは、100本の動画でショート動画と、まとめで作成した動画です。

筆者の場合、Webメディアの検証で、複数のチャンネルで色々な実験や検証を再生リスト単位で行っているので、今回もそうしました。

出来上がったタイトルが、本記事の冒頭でも紹介したYouTubeの再生リストです。

猫のきもち|YouTubeショート動画 – 完

今回のAI合成音声で試したかったこと

商用で利用できる範囲の広いAI合成音声アプリケーションを使うことが出来たことで、今回は色々な検証が出来ました。

  1. テキスト読み上げとリップシンクが出来るソフトの品質比較
  2. ナナメを向いている時のスキンメッシュの調整方法
  3. AIで動画生成をするときの中割構図の調整

頭の中で考えてみるのと、実際にやってみるのは、制作過程では思いもしなかったことが起こったりします。

そこで起きたことをノウハウで積み上げながらコンテンツ制作を楽しむのはスゴく良いことだと思っているので、今回はスゴく良い体験になりました。

AI音声合成技術はコンテンツ制作でスゴく役に立つ

AI音声合成技術はコンテンツ制作でスゴく役に立つ

今回、AI音声合成技術使ってコンテンツを始めてかなりの学びになりました。

おそらく、課題としては、その内に出てくる、動画生成をするときに読み上げる表情と動画全体の動きをどういう風に調整していくのか、これが、かなりの課題になるかと感じました。

なので最初のうちは、AIで生成するコンテンツは背景動画などにして、テキストを読み上げるキャラクターは別のレイヤーにして合成するところから初めてみるのが良いかも知れません。

また、このあたりのAI技術に関する分野は日々ものすごい速度で進化していくので、ブログを通じてアップデートしていこうと考えています。

最後まで読んでいただきありがとうございました。

ユニコブログ®ConoHa WINGレンタルサーバーで運用しています。

WebサイトデザインのテーマにはSTORK19を利用しています。

ABOUT US
小林 玲王奈ユニコーンコンサルティング株式会社 代表取締役

起業して法人化した初期の頃は、自分と同じく起業する人や、スタートアップ企業と事業の共同立ち上げ立ち上げを中心に活動していました。

現在は、Webメディア運営を中心に、Webアプリの開発、キャラクターデザインからのLINEスタンプ制作やLINE絵文字等の販売及び、3DCGによるコンテンツ制作事業としてAR(拡張現実)やVR(仮想現実)、MR(複合現実)向けのプラットフォームへコンテンツ提供を行っています。

公式ブログサイトのユニコブログ®では、「会社の収入だけに依存しない生活を実現する」ことをテーマにブログ記事を書いたり、無償でブログ運営を始める人のサポートを行っています。

主な経歴としては、2003年から放送及び映像業界向けの様々な新規事業立ち上げを15年以上担当していました。

2014年からは、会社員として働きながら経営/メディアコンサルティング業を開始して、2020年01月に法人化し、ユニコーンコンサルティング株式会社を設立しました。

現在、公式として公開しているユニコブログ®以外にも、数十サイトの特化ブログ型Webメディアや、サイト型Webメディアを運用しています。

全て同じサイト構成、ブログ記事構成、文章構成など、検証可能な範囲で仕様を合わせてみて、収益を出すのに再現性があるか?などを試行錯誤している日々です。

また、当ブログ内でピックアップしているレンタルサーバーとWordPressテーマ、プラグインの組み合わせや相性を検証する日々。合わせて、WordPressテーマのカスタマイズやブログパーツ、プラグインなどの開発を手伝っています。

所有資格や認定ライセンスとしては、SMPTE Professional Engineer Member、一般社団法人 日本ポストプロダクション協会認定 映像音響処理技術者などを所有しています。デジタル認定証についてはプロフィール詳細から確認できるようになっています。

著書 : 『保存版 売上を向上させるためのYouTube活用術』

教育関連でも複数の教育機関で定期的に講演を行っています。主な活動実績としては、2020年度と2021年度の 学校法人調布学園 田園調布学園 中等部・高等部「豊かな教養を培う 未来へつなぐ土曜コアプログラム『探究』」にて空中ディスプレイコンテンツ制作及びWebサイト制作の特別講師を担当。

2022年度は土曜プログラム(マイプログラム)『仕事最前線』での講演などになります。

2023年以降は、オンライン講演での活動が多くなっています。

著述家 / ブロガー兼コンテンツクリエイター

ユニコブログ®運営者のプロフィール詳細

ユニコーンコンサルティング株式会社の公式サイト