最近は本当にAIを活用したサービスが多く出てくるようになり、また、OpenAIが大規模言語モデル(LLM)で学習した一般にテキストによるチャットツールのChatGPTをリリースしたことで、一気にAIによるコンテンツ生成などについても大きな変化が起きました。
本記事では、その中でもAI音声合成技術を利用した動画の作成をした経験を書いていきます。
AI音声合成も含めたコンテンツの種類
基本的にコンテンツの種類は4種類に分類されます。
- テキスト
- 画像
- 動画
- 音
上記の4種類の組み合わせで、様々なコンテンツが制作されます。
今回の記事のメインテーマで行くと、4番の「音」に関する話題です。
けれど、今回のブログ記事のために実際に作成したコンテンツは、先ほど紹介したコンテンツの種類を4つ全て組み合わせています。
今後もたくさんのAIの様々な学習方法を利用して、一般ユーザーが試すことの出来るモノがたくさん出てくると考えていますが、取り急ぎ、OpenAIを軸に情報を集めていけばたくさんの比較対象になるアプリやサービス情報が入ってくるので良いと考えています。
AI音声合成を利用して実際にコンテンツを制作してみました
今回、AI音声合成だけでなく、画像認識技術や、その他の色々なコンテンツ生成技術を試して実際にコンテンツを100本ほど、作成してみました。
実際に作成してみた、動画コンテンツの再生リストは下記になります。
AI音声合成を組み合わせた動画コンテンツの制作プロセス
上記で紹介した、100本作成した動画の制作プロセスを説明していきます。
まず、制作プロセスですが
表情を動かす画像の準備をする
予め、表情を動かすための画像素材を用意します。
筆者の場合は、オリジナルのキャラクターを3DCGにしたデータがあるので、今回は、それをあえて静止画で1フレームだけ書き出しました。
画像内の表情を動かすためのトポロジを作成する
この時に、様々な言葉にたいしてなるべくリアルに対応できるようにスキン変形時のイメージなどをプレビューと実際のメッシュを確認しながら 調整していきます。
台本となるテキストの生成
ここのプロセスでChatGPTや、その他の大規模言語モデル(LLM)以外にも、いくつかある言語モデルを利用したサービスなどを利用してみましたが、商用不可であったり、出力される文章が、筆者には合わせなかったので、100本の動画で利用する台本は自分で作成しました。
作成した台本をAI音声合成にインポートする
作成した台本は、各動画用にプロジェクトを分けてインポートします。
ここでのアプリケーションには、株式会社AHSが販売しているAI音声合成の中で、商用利用が可能なモノを利用して台本のイントネーションを調整しながら音声データでかきだしました。
フォーマットは、.WAV(96kHz/16bit)で書き出しました。
個人的には96kHzの24bitのほうが良かったのですが、この辺は編集からさらにYouTubeに上げるまでに変換が2回発生するのと、アップロードされる時にコーデックも変わってしまうので、あまり気にしていません。
読み上げられている音声データに合わせて静止画が動くようにする
STEP2で作成したフェイス部分のメッシュデータを用いて、作成した音声データと画像データをリップシンクさせます。
このあたりのソフトはスゴくたくさんあって、ライセンスについても、それぞれ条件が違うので、個人か法人か、どのように利用して良いのか必ず確認をしてから利用しましょう。
音声データと画像データのリップシンクが出来あがったら、せっかくなので実際にYouTubeに動画をアップして始めるのもありです。
自分のYouTubeチャンネルに動画をアップする
今回作成したのは、100本の動画でショート動画と、まとめで作成した動画です。
筆者の場合、Webメディアの検証で、複数のチャンネルで色々な実験や検証を再生リスト単位で行っているので、今回もそうしました。
出来上がったタイトルが、本記事の冒頭でも紹介したYouTubeの再生リストです。
猫のきもち|YouTubeショート動画 – 完
今回のAI合成音声で試したかったこと
商用で利用できる範囲の広いAI合成音声アプリケーションを使うことが出来たことで、今回は色々な検証が出来ました。
- テキスト読み上げとリップシンクが出来るソフトの品質比較
- ナナメを向いている時のスキンメッシュの調整方法
- AIで動画生成をするときの中割構図の調整
頭の中で考えてみるのと、実際にやってみるのは、制作過程では思いもしなかったことが起こったりします。
そこで起きたことをノウハウで積み上げながらコンテンツ制作を楽しむのはスゴく良いことだと思っているので、今回はスゴく良い体験になりました。
成果としては、朗読する猫などの動画コンテンツが作れました。
AI音声合成技術はコンテンツ制作でスゴく役に立つ
今回、AI音声合成技術使ってコンテンツを始めてかなりの学びになりました。
おそらく、課題としては、その内に出てくる、動画生成をするときに読み上げる表情と動画全体の動きをどういう風に調整していくのか、これが、かなりの課題になるかと感じました。
なので最初のうちは、AIで生成するコンテンツは背景動画などにして、テキストを読み上げるキャラクターは別のレイヤーにして合成するところから初めてみるのが良いかも知れません。
また、このあたりのAI技術に関する分野は日々ものすごい速度で進化していくので、ブログを通じてアップデートしていこうと考えています。
最後まで読んでいただきありがとうございました。