AI音声合成の使い方を覚えて動画作成をしてみた話

最近は本当にAIを活用したサービスが多く出てくるようになり、また、OpenAIが大規模言語モデル(LLM)で学習した一般にテキストによるチャットツールのChatGPTをリリースしたことで、一気にAIによるコンテンツ生成などについても大きな変化が起きました。

本記事では、その中でもAI音声合成技術を利用した動画の作成をした経験を書いていきます。

AI音声合成も含めたコンテンツの種類

AI音声合成も含めたコンテンツの種類

基本的にコンテンツの種類は4種類に分類されます。

  1. テキスト
  2. 画像
  3. 動画

上記の4種類の組み合わせで、様々なコンテンツが制作されます。

今回の記事のメインテーマで行くと、4番の「音」に関する話題です。

けれど、今回のブログ記事のために実際に作成したコンテンツは、先ほど紹介したコンテンツの種類を4つ全て組み合わせています。

今後もたくさんのAIの様々な学習方法を利用して、一般ユーザーが試すことの出来るモノがたくさん出てくると考えていますが、取り急ぎ、OpenAIを軸に情報を集めていけばたくさんの比較対象になるアプリやサービス情報が入ってくるので良いと考えています。

OpenAIの始め方や使い方について実例を用いて分かりやすく解説【文章を書く人向けです】

AI音声合成を利用して実際にコンテンツを制作してみました

AI音声合成を利用して実際にコンテンツを制作してみました

今回、AI音声合成だけでなく、画像認識技術や、その他の色々なコンテンツ生成技術を試して実際にコンテンツを100本ほど、作成してみました。

実際に作成してみた、動画コンテンツの再生リストは下記になります。

猫のきもち|YouTubeショート動画 – 完

AI音声合成を組み合わせた動画コンテンツの制作プロセス

上記で紹介した、100本作成した動画の制作プロセスを説明していきます。

まず、制作プロセスですが

STEP

表情を動かす画像の準備をする

予め、表情を動かすための画像素材を用意します。

筆者の場合は、オリジナルのキャラクターを3DCGにしたデータがあるので、今回は、それをあえて静止画で1フレームだけ書き出しました。

STEP

画像内の表情を動かすためのトポロジを作成する

この時に、様々な言葉にたいしてなるべくリアルに対応できるようにスキン変形時のイメージなどをプレビューと実際のメッシュを確認しながら 調整していきます。

STEP

台本となるテキストの生成

ここのプロセスでChatGPTや、その他の大規模言語モデル(LLM)以外にも、いくつかある言語モデルを利用したサービスなどを利用してみましたが、商用不可であったり、出力される文章が、筆者には合わせなかったので、100本の動画で利用する台本は自分で作成しました。

STEP

作成した台本をAI音声合成にインポートする

作成した台本は、各動画用にプロジェクトを分けてインポートします。

ここでのアプリケーションには、株式会社AHSが販売しているAI音声合成の中で、商用利用が可能なモノを利用して台本のイントネーションを調整しながら音声データでかきだしました。

フォーマットは、.WAV(96kHz/16bit)で書き出しました。

個人的には96kHzの24bitのほうが良かったのですが、この辺は編集からさらにYouTubeに上げるまでに変換が2回発生するのと、アップロードされる時にコーデックも変わってしまうので、あまり気にしていません。

STEP

読み上げられている音声データに合わせて静止画が動くようにする

STEP2で作成したフェイス部分のメッシュデータを用いて、作成した音声データと画像データをリップシンクさせます。

このあたりのソフトはスゴくたくさんあって、ライセンスについても、それぞれ条件が違うので、個人か法人か、どのように利用して良いのか必ず確認をしてから利用しましょう。

音声データと画像データのリップシンクが出来あがったら、せっかくなので実際にYouTubeに動画をアップして始めるのもありです。

STEP

自分のYouTubeチャンネルに動画をアップする

今回作成したのは、100本の動画でショート動画と、まとめで作成した動画です。

筆者の場合、Webメディアの検証で、複数のチャンネルで色々な実験や検証を再生リスト単位で行っているので、今回もそうしました。

出来上がったタイトルが、本記事の冒頭でも紹介したYouTubeの再生リストです。

猫のきもち|YouTubeショート動画 – 完

今回のAI合成音声で試したかったこと

商用で利用できる範囲の広いAI合成音声アプリケーションを使うことが出来たことで、今回は色々な検証が出来ました。

  1. テキスト読み上げとリップシンクが出来るソフトの品質比較
  2. ナナメを向いている時のスキンメッシュの調整方法
  3. AIで動画生成をするときの中割構図の調整

頭の中で考えてみるのと、実際にやってみるのは、制作過程では思いもしなかったことが起こったりします。

そこで起きたことをノウハウで積み上げながらコンテンツ制作を楽しむのはスゴく良いことだと思っているので、今回はスゴく良い体験になりました。

成果としては、朗読する猫などの動画コンテンツが作れました。

AI音声合成技術はコンテンツ制作でスゴく役に立つ

AI音声合成技術はコンテンツ制作でスゴく役に立つ

今回、AI音声合成技術使ってコンテンツを始めてかなりの学びになりました。

おそらく、課題としては、その内に出てくる、動画生成をするときに読み上げる表情と動画全体の動きをどういう風に調整していくのか、これが、かなりの課題になるかと感じました。

なので最初のうちは、AIで生成するコンテンツは背景動画などにして、テキストを読み上げるキャラクターは別のレイヤーにして合成するところから初めてみるのが良いかも知れません。

また、このあたりのAI技術に関する分野は日々ものすごい速度で進化していくので、ブログを通じてアップデートしていこうと考えています。

最後まで読んでいただきありがとうございました。

YouTubeの始め方を基本から応用まで初心者用にわかりやすく解説
ABOUT US
ユニコブログの執筆者である小林玲王奈のアイコン
小林 玲王奈ユニコーンコンサルティング株式会社 代表取締役

放送業界や映画業界で映像制作や新規事業の立ち上げを中心に16年間働いて2019年に独立。2020年1月にユニコーンコンサルティング株式会社を設立しました。現在は、国内・海外向けのWebメディアを複数サイト運営しながら、経営コンサルタントとして数社の技術顧問、及び複数の教育機関で特別講義をおこなったり、Web講演をしています。|BBT経営塾(旧:大前経営塾)第10期生 卒塾

当ブログの運営者情報は下記のページから確認できます。

運営者のプロフィール詳細