生成AIでCMをつくってみよう

サーバーワークスの村上です。

サーバーワークスではAWSを活用した生成AIの導入・運用支援をやっています。

www.serverworks.co.jp

「生成AI使って何ができるの？」という段階から伴走支援させていただきます。

このブログでは生成AIの使い道の一例、ということでCMを作ってみます。

やること概要
出来上がったCMがこちら
コスト比較
- ちゃんと制作した場合
- 生成AIを利用した場合
ストーリーボード作成（Amazon BedrockのClaude）
動画生成（CogVideoとStable Video Diffusion）
音楽生成（AudioCraft）
ナレーション生成（Bark）
おわりに

やること概要

以下のとおりです。極力、AIの力を借りるようにしています。

ストーリーボード作成（Amazon Bedrockを利用）
動画生成（動画生成モデルCogVideoとStable Video Diffusionを利用）
音楽生成（音楽生成モデルAudioCraftを利用。今回は未検証）
ナレーション生成（Text to SpeechモデルのBarkを利用）
編集作業（今回は人間が実施）

出来上がったCMがこちら

本当はもっとこだわりたかったのですが、この辺でやめておきます...

youtu.be

コスト比較

ちゃんと制作した場合

生成AIを使わない場合のコストは以下のとおりです。

スタンダードなCM制作でかかる費用の相場は100万～500万円

アニメーションを活用したCMの相場は50万円～
テレビCMの「制作費」その内訳は？費用相場はどのくらい？｜お役立ちコラム｜tv asahi Ads｜テレビ朝日セールスサイト（CMや広告などの営業メニューをご紹介）より抜粋

生成AIを利用した場合

凄くざっくり概算した結果、300USD程度の試算になりました。

Amazon SageMakerの推論エンドポイントを何時間起動するかに大きく依存するので一概には言えませんが、低コストで制作できます（クオリティは考慮していません）。

作業内容	概算コスト (USD)	備考
ストーリーボード作成	0.01	1つのストーリーボード作成あたり300入力トークン・3,000出力トークンと仮定し0.048USD。2つ作成するとして約0.01USD
動画生成_推論環境	146.2	非同期推論エンドポイントml.g5.4xlarge 2.03 USD / h *72h として試算（72時間で使用する動画を生成する想定）
音楽生成_推論環境	109.1	非同期推論エンドポイントml.g5.2xlarge 1.515 USD / h *72h として試算（72時間で使用する音源を生成する想定）
ナレーション生成_推論環境	36.4	非同期推論エンドポイントml.g5.2xlarge 1.515 USD / h *24h として試算（24時間で使用する音源を生成する想定）
SageMaker Studio 環境	16.8	ml.t3.medium 0.05 USD / h * 336h （2週間）として試算
合計	308.5

ストーリーボード作成（Amazon BedrockのClaude）

まずは Amazon Bedrock を使ってCMのストーリーボードを作成します。

入力プロンプトがこちら

あなたは有名な広告プランナーです。AWS専業インテグレーターである株式会社サーバーワークスの30秒広告CMを作成します。ターゲットはAWS運用の伴走支援を必要としている会社です。サーバーワークスの伴走支援の特徴は、AWSのプロだからこそできるAWS導入から運用、内製化までの一気通貫の支援が可能な点です。15カットのストーリーボードを作成し、各カットに対応するビジュアルの詳細を提供してください。

出力がこちら

サーバーワークス 30秒CM ストーリーボード
タイトル: 「AWSの道、共に歩もう」

カット1 (2秒)
画面: オフィスビルの夜景。多くの窓が明るく輝いている。 ナレーション: 「デジタル時代」詳細: カメラがゆっくりとチルトアップし、夜空に浮かぶ雲の形がAWSのロゴを想起させる。

カット2 (2秒)
画面: 企業のIT部門。困惑した表情でモニターを見つめる担当者たち。 ナレーション: 「AWS運用の課題に直面する企業が増えています」詳細: 複数のモニターには複雑なAWSコンソール画面が映し出され、チーム全体が悩ましげな表情。

カット3 (2秒)
画面: サーバーワークスのロゴが光とともに現れる。 ナレーション: 「そんな時、サーバーワークスが」詳細: ロゴが青から白に変化し、温かみのある光を放つ。

カット4 (2秒)
画面: 分割画面。左側にAWS認定資格を持つエンジニア、右側にクライアント企業。 ナレーション: 「AWS専門家として」詳細: エンジニアの背後にAWS認定バッジが次々と表示される。

カット5 (2秒)
画面: 3D空間での可視化されたAWSアーキテクチャ。 ナレーション: 「設計から」詳細: クラウドアーキテクチャが美しく構築されていく様子をアニメーション表現。

カット6 (2秒)
画面: モニタリングダッシュボード画面。 ナレーション: 「運用まで」詳細: リアルタイムのメトリクスやグラフが安定した状態を示している。

カット7 (2秒)
画面: チームでの作業風景。 ナレーション: 「そして内製化への道のりを」詳細: サーバーワークスのエンジニアがクライアントチームにレクチャーしている様子。

カット8 (2秒)
画面: 二人三脚のメタファー的なビジュアル。 ナレーション: 「共に歩みます」詳細: サーバーワークスとクライアント企業を表す二つのシルエットが協力して前進する姿。

カット9 (2秒)
画面: 成功を示すグラフと笑顔のチーム。 ナレーション: 「コスト最適化」詳細: AWS利用料金の削減を示すグラフと、満足げな表情のクライアントチーム。

カット10 (2秒)
画面: セキュリティシールドのビジュアル。 ナレーション: 「セキュリティ強化」詳細: AWSのセキュリティサービスを視覚的に表現したシールドアイコン。

カット11 (2秒)
画面: 高速道路のような未来的なデータストリーム。 ナレーション: 「パフォーマンス向上」詳細: データが流れる様子を未来的な青い光の帯で表現。

カット12 (2秒)
画面: 様々な業界のアイコンが浮かび上がる。 ナレーション: 「多くの実績と」詳細: 金融、製造、小売など、様々な業界のアイコンが次々と表示される。

カット13 (2秒)
画面: AWS認定資格のバッジコレクション。 ナレーション: 「確かな技術力」詳細: 多数のAWS認定資格バッジが螺旋状に並ぶ。

カット14 (2秒)
画面: サーバーワークスのオフィスと専門家チーム。 ナレーション: 「サーバーワークスが」詳細: プロフェッショナルな雰囲気のオフィスで働くエンジニアチーム。

カット15 (2秒)
画面: 企業ロゴとコンタクト情報。 ナレーション: 「あなたのAWS運用を、次のステージへ」詳細: 画面中央にロゴ、下部に問い合わせ先情報を配置。背景には柔らかな光の演出。

全体的なトーン＆マナー
- カラースキーム: AWSのオレンジと、サーバーワークスのブルーを基調とし、信頼性と専門性を表現 - BGM: 企業向けの落ち着いた曲調で、後半に向けて希望的な展開 - 映像効果: スムーズなトランジションと、適度なモーショングラフィックスで視覚的な興味を維持

このストーリーボードは以下の要素を強調しています：

サーバーワークスの専門性とAWS認定資格

一気通貫の支援体制（設計→運用→内製化）

具体的な価値提供（コスト最適化、セキュリティ、パフォーマンス）

伴走支援の視覚的表現（二人三脚のメタファー）

実績と信頼性の表現

調整が必要な部分や、特に強調したい要素がございましたら、お申し付けください。

本格的なものができました。今回は検証なのでオフィスビルのシーンなどを採用しようと思います。

動画生成（CogVideoとStable Video Diffusion）

CogVideo は Text to Video や Image to Video が可能なオープンソースのモデルです。

Stable Video Diffusionも Image to Video が可能なオープンソースのモデルです。

両方ともHugging Faceで公開されています。

huggingface.co

このモデルを使って、SageMakerの非同期推論を行い動画を生成しました。

1つの動画を生成するのに必要な時間は約10~15分でした。ただし、生成に要する時間はnum_inference_stepsなどのパラメータによって変動します。

CogVideoは詳細なプロンプトを与える必要があるのですが、人間が考えた短いプロンプトを詳細なプロンプトに変換してくれるPythonファイルも公開されており、プロンプトづくりも楽でした。以下のデモコードではChatGPTが利用されていますが、Amazon Bedrock を使うように修正して利用しました。

github.com

たとえば、カット2の「困った表情でモニターを見つめる人たち」についてはA company's IT department. Japanese personnel stare at monitors with puzzled expressions on their heads.というプロンプトを以下のような詳細なプロンプトに変換してくれました。

In a modern, sleek office space illuminated by blue-tinted LED lighting, three Japanese IT professionals in business casual attire sit at their workstations, their faces bathed in monitor glow. Their expressions show growing concern as they lean forward, studying complex code on their screens. One adjusts his glasses while pointing at something troubling, another furrows her brow while typing rapidly, and the third runs his hands through his hair in mild frustration. The scene shifts to show them collaborating, gathered around one monitor, their body language suggesting intense problem-solving. Multiple screens display scrolling code, system diagnostics, and error messages, while the office's minimalist décor and neat workspace emphasize the professional environment.

このようにして、頭脳労働はAIに任せて粛々と動画を生成していきます。