3つの生成AIを使って、喋るオリジナルキャラクターを作ってみた(Adobe Firefly、TTSMaker、Runway)

はじめに
こんにちは!KINTOテクノロジーズでデザイナーをしている桃井(@momoitter)です。
クリエイティブ室に所属しており、コーポレートサイトやくもびぃ(KINTO公式マスコットキャラクター)関連サイトなどの制作に、最先端のWEB表現を取り入れながら携わっています。
2024年11月に「超本部会」という会社のイベントが開催され、私はそのイベントのオープニングムービーの作成を担当しました。その冒頭のワンシーンで、3つの生成AIを使用し、イベントのスタートを宣言する女性のキャラクターを作成しました。
実際の映像
「もちろんです」と言っているのは、その直前に「準備はいい?」と問いかけるシーンがあったため。
今回はこちらの喋るオリジナルキャラクター作成の工程や、作成時にどのようなことを考えたかをご紹介します。
- 独自のキャラクターを作成して、言葉を喋らせたい
- AIを取り入れて印象に残る映像を手軽に作成したい
という方はぜひご覧ください!
背景
イベント全体のクリエイティブを監修するアートディレクターからのオーダーとしては、「コーポレートサイトのKVで使われている動画を再編集して1分のオープニングムービーを作る」というものでした。
ですが、ただ再編集するだけでは社員からすると既視感があるので、華やかにイベントのスタートを切れるように、会場の空気を惹きつける何かが必要と感じていました。
そこで目をつけたのが、弊社のSlack内にある「しぇるぱ」というAIチャットボット。
AIを駆使し、サプライズとしてそのしぇるぱを擬人化した映像を作れば、注目があつまるのではないかと考えました。
使用したAI
喋るオリジナルキャラクター作成にあたり、下記3つのAIを使用しました。
- Adobe Firefly(キャラ画像生成)
- TTSMaker(テキスト読み上げ)
- Runway(キャラを喋らせる)
ここから先は、これらのAIを使用しどのように動画を生成したかをご紹介します。
1.キャラ画像生成
Adobe Firefly
Adobeが提供している画像生成AIツール。
Adobe Stockなど著作権フリーの画像を学習しているので、著作権の侵害の心配なく使用できます。
一般的に有名な画像生成AIでは、著作権フリーを謳っているものも多いですが、アニメのキャラに似たものが生成できてしまったり実際はグレーなものが多いものの、社内イベントであるとはいえ著作権はしっかりクリアしておきたかったため、そのような問題を気にせず使用できるこちらのAIをセレクトしました。
生成のイメージ
今回のキャラクターの元ネタになった「しぇるぱ」は、弊社のSlackでこのようなアイコンで表示されています。
このアイコンから
- 「しぇるぱ」の「ぱ」→女性らしさを感じる音の響き
- アイコンがピンク→ピンクの髪の毛
- AIのチャットボット→スマートでデジタル感のある雰囲気
などキャラクターのイメージを膨らませていきました。
画面上の操作
Fireflyを開くとこのような画面になっています。
大まかにいうと、下の入力エリアに画像を生成するためのプロンプトを打ち込み、左側のメニューで縦横比・構成・スタイル・トーンなどの調整を行います。
今回は試行錯誤の末、「3dのキャラクター、女性、ピンクの髪、背景は白、上半身、白くてシンプルでデジタルな服装、正面を向く」というプロンプトで生成していきました。
量産
プロンプトがある程度固まってくると、良い生成結果に出会うためには運次第でもあるので、100~200枚をひたすら生成しました。
選定
イベントの始まりをフレッシュにスタートさせたかったので、「AIオペレーター」的なオフィシャル感、安心感があるキャラクターが理想でした。
そのため
- 幼すぎる
- 服が奇抜
- 顔が怖い
など、イメージから遠いものは除外していきました。
決定した画像
細かい選定作業を経て、最終的にクールでありながら親しみも感じられるこちらの画像に決定しました。
2.テキスト読み上げ
TTSMaker
打ち込んだテキストを音声に変換するAI音声ジェネレーター。
このようなAI準拠のテキスト読み上げサービスは多数存在するのですが、有料だったり無料でもクレジット表記をしないといけないものが多かったので、無料かつクレジット表記無しで利用できるこちらのツールを使用しました。
画面上の操作
TTSMakerを開くとこのような画面になっています。
手順としては
- 言語を選択
- 読み上げさせたいテキストを入力
- サンプル音声を視聴しながら声色を選択
- しゃべる速さ、声の高さなど、詳細の設定
- 変換
になります。
今回はAIオペレーター的な、オフィシャル感、安心感がある声が理想だったので、サンプル音声を聴き比べながら、「406 - yuki つみゆき-🇯🇵 japanese female」の声色を選択し、「もちろんです。超本部会を始めます。」というテキストを読み上げてもらいました。
実際の音声
3.キャラを喋らせる
Runway
AIを活用して簡単に高品質な動画を生成・編集できるツール。
「Lip Sync Video」という、人物やキャラクターの静止画を、音声に合わせて喋らせる機能があったため、このツールを使用しました。
画面上の操作
1.「Generative Audio」内、「Lip Sync Video」を開き、先ほど生成したキャラクターの画像をドラッグ&ドロップ
2.キャラクターの画像の顔の範囲の認識が合っているか確認し、問題なければ「upload audio」をクリック
3.先程生成した音声をドラッグ&ドロップし、「Generate」をクリック
生成された映像
音声に合わせて喋るキャラクターの映像が生成されました。
応用編 その1
アップロードする音声を曲にすると、キャラクターに歌わせることもできます。
応用編 その2
このように人物の静止画を喋らせることも可能です。
先日の社内勉強会(東京開催)で、急遽登壇者が大阪からの出張ができなくなってしまったため、静止画とボイスメモを用意してもらい、このようなAI生成映像で発表を行いました。
4.仕上げ
喋るキャラクター映像の作成方法としては以上で、ここからはプラスαです。
実は「AIでキャラクターを喋らせる」というところまでは、上記で紹介したAIを使えば誰でも作ることができてしまうぐらい簡単です。
ただ、私はデザイナーとして「クリエイティブ室」に所属しているので、クリエイターとしての意地といいますか、他の部署でも作れるようなものにはしたくなかったため、最後にIllustratorで作成した「しぇるぱ」のバルーン型3DCGを、After Effectsを使用しふわふわ浮遊するモーションをつけ、先ほど生成した映像と合成することで画としての完成度を上げ、「クリエイターならでは」という価値を加えました。
完成した映像
最後に一手間加えることで、ただのキャラクターが喋る映像が、一気にグラフィカルな表現が加わった映像へと進化しました。
まとめ
会場で投影された際の様子
クリエイティブ系の生成AIにはそれぞれ特性があり、できることには限りがあります。
それらの特性を理解し組み合わせることで、今回は単一のツールでは作成できないクオリティの映像を生み出すことができました。
イベント当日はこのキャラクターが大きいスクリーンで投影され、ありがたいことに
- あれすごかったですね、どうやって作ったんですか!?
- クオリティ高くて、外注してるのかと思いました。
など社員から声をかけていただくことも多く、狙ったインパクトを残すことができたかなと思います。
それぞれのAIツールの操作としてはとても簡単で、非クリエイターでも使用できるようなものです。
アイデアさえあればこのような印象に残る映像を作成できるので、この記事を見て気になった方はぜひ実践してみてください!
最後までご覧いただき、ありがとうございました。
関連記事 | Related Posts
We are hiring!
生成AIエンジニア/生成AI活用PJT/東京・名古屋・大阪
生成AI活用PJTについて生成AIの活用を通じて、KINTO及びKINTOテクノロジーズへ事業貢献することをミッションに2024年1月に新設されたプロジェクトチームです。生成AI技術は生まれて日が浅く、その技術を業務活用する仕事には定説がありません。
【Web・グラフィックデザイナー】クリエイティブ室/東京
クリエイティブ室についてKINTOやトヨタが抱えている課題やサービスの状況に応じて、色々なプロジェクトが発生しそれにクリエイティブ力で応えるグループです。所属しているメンバーはそれぞれ異なる技術や経験を持っているので、クリエイティブの側面からサービスの改善案を出し、周りを巻き込みながらプロジェクトを進めています。