マルチモーダルAIとは？事例から見る活用方法や今後の展望を解説

23.8.7 25.4.16

テクノロジー

AI / コラム / 用語解説 / ChatGPT

マルチモーダルAIとは、テキスト、音声、画像など、種類の異なる複数の情報を総合的に処理できる人工知能です。製造現場からマーケティング、自動運転、ChatGPTといった最新テクノロジーに至るまで、様々なビジネス領域に劇的な進化をもたらしています。本記事では、今後一層幅広い分野での活用が期待されるマルチモーダルAIについて、基礎知識から活用事例、メリット、今後の展望までを紹介します。

➡︎【5分でわかる】ChatGPTの導入ポイントと活用事例＜資料ダウンロード＞

マルチモーダルAIとは

マルチモーダルAIとは、テキスト、音声、画像など、種類の異なる情報データを総合的に処理できる人工知能のことです。一方で、「テキスト情報のみ」「画像情報のみ」というように、1種類の情報しか処理できない人工知能は、シングルモーダルAIと呼ばれます。

ここで使われている「モーダル」という言葉は、入力情報の種類を意味します。2種類以上の情報を入力するなら「マルチモーダル」、1種類の情報を入力するなら「シングルモーダル」になります。

マルチモーダルAIは、多種類のデータを同時に処理できるため、それだけデータの量も種類も充実します。このため、マルチモーダルAIは、シングルモーダルAIに比べて精度が高く、深い洞察を導いたり、現実的な問題に対する精緻な予測を立てたりすることも可能です。

★まとめ

・マルチモーダルAIは、種類の異なる情報データを総合的に処理できる人工知能。
・「モーダル」とは入力情報の種類のこと。
・マルチモーダルAIは、シングルモーダルAIよりも高精度で、深い洞察や精緻な予測ができる。

➡︎【5分でわかる】ChatGPTの導入ポイントと活用事例＜資料ダウンロード＞

ディープラーニングとは

ディープラーニングとは、脳の神経細胞（ニューロン）の働きをモデルとするニューラルネットワークを活用した機械学習の手法です。ディープラーニングは、画像、音声、自然言語など、従来デジタル化が難しいとされていた画像のような記号化できないデータのパターン認識を得意としています。

現在も進化を続けているディープラーニングは、多様な情報データをもとに高精度の分析・判断を行うマルチモーダルAIの基礎となる、必要不可欠な技術です。

★ディープラーニングについて詳しくはこちら

ディープラーニング（深層学習）とは？機械学習との違いや仕組み、実用例をわかり...

https://monstar-lab.com/dx/technology/ai-deeplearning/

マルチモーダルAIの歴史

マルチモーダルAIの初期の研究は、1986年頃に始まりました。当初の研究では、ディープラーニングは活用されておらず、音声と唇の画像から音声認識を行い、テキストに変換するという比較的単純なタスクの研究でした。

2011年頃からは、ディープラーニングを使ったマルチモーダルの研究が始動。2013年には、テキストと人間の表情（画像）をもとに、アバターが内容に合った表情でテキストを読み上げる「Expressive Visual Text-to-Speech」という研究が登場しました。音声と画像のデータから感情の認識を試みる「Audio-Visual Emotion Recognition」という研究も進められています。

その後、画像の説明文を自動生成する研究や、逆にテキストをもとに画像を自動生成する研究が行われるようになりました。さらには、画像に関連する質問に対して回答するAIや、画像情報から音声を生成するAIが登場し、マルチモーダルAIの研究が加速していきました。

➡︎【5分でわかる】ChatGPTの導入ポイントと活用事例＜資料ダウンロード＞

マルチモーダルAIにできること・活用事例

マルチモーダルAIが実際にどのように活用されているか、具体的な事例をいくつか紹介します。

画像とテキストの組み合わせ

OpenAIが提供するChatGPTに搭載されている最新版の生成AI「GPT-4」は、画像データとテキストデータの組み合わせに対応できるマルチモーダルAIです。

例えば、画像と質問文（テキスト）を入力すると、GPT-4が質問に対する回答文を自動で生成します。また、GPT-4のリリースを発表した際のデモ動画で同社は、手書きのメモ（画像）とテキストを基に、GPT-4がWebサイト構築のためのコードを生成する様子も公開しています。

同じくOpenAIが2022年4月に発表した生成AI「DALL·E 2 （ダリツー）」では、言語による指示をもとに、内容に沿った画像やイラストを生み出します。

★AI画像認識について詳しくはこちら

AI画像認識とは？仕組みと活用事例を業界別に紹介

https://monstar-lab.com/dx/technology/ai-imagerecognition/

★自然言語処理について詳しくはこちら

自然言語処理（NLP）とは？できることや仕組み、活用例をわかりやすく解説

https://monstar-lab.com/dx/technology/about-nlp/

行動認識

画像情報、音声情報、動作情報などを同時に処理できるマルチモーダルAIは、行動認識にも活用されています。具体的には、防犯用の監視カメラなどに搭載されることで、犯罪やトラブルの早期発見や未然防止に役立っています。

例えば、ロビーの一角に3人の人物が集まっていたとします。従来の監視カメラのように画像情報ないし動作情報だけでこの状況を捉えても、特に問題は見当たりません。しかし音声情報が合わさることで、「大声で怒鳴り合っている」という状況が発覚するかもしれません。

このような場合、監視システムにマルチモーダルAIが搭載されていれば、3人の行動を総合的に認識・分析して危険を察知し、警備室のアラームを鳴らすなどトラブル防止に向けた対策をとることができます。

異常検知

工場などの製造現場では、生産設備や製品の異常検知にマルチモーダルAIが活用されています。生産設備に設置された複数のセンサーで、振動、温度、湿度などを計測し、それらのセンサーデータと画像データ、音声データなどを組み合わせることで、機械の異音や磨耗、異物混入などをいち早く発見します。

マルチモーダルAIによる高精度な異常検知は、生産設備のメンテナンス、ひいては作業員の安全確保、製品の品質向上にもつながります。

自動運転

自動運転も、マルチモーダルAIの典型例の1つです。

人間が自動車を運転する際、周囲の車や人、障害物、標識、信号を認識し、急な飛び出しなどの危険を予測し、交通状況や規制に応じたスピード調整、車間距離の調整などを行っています。これらは、人間が五感を駆使して瞬時に行っている認知・分析・判断です。

自動運転では、複数のカメラや音を拾うマイク、ミリ波センサー、加速度センサー、GPSなどで集めた様々な情報を基に、マルチモーダルAIが人間の五感のような機能を発揮して、総合的な処理を行います。

自動運転技術は日々進化しており、すでに国内でも、マルチモーダルAIを搭載した自動運転車が、一定の条件のもと公道を走行しています。

産業用ロボットへの活用

マルチモーダルAIを搭載した産業用ロボットも登場しています。

株式会社デンソーウェーブは「2017国際ロボット展」にて、ベッコフオートメーション株式会社、株式会社エクサウィザーズと共同開発したマルチモーダルAIロボットを発表しました。

このロボットには、360度撮影できる全天球カメラと複数のセンサーが搭載されており、これらを通じて画像、角度、速度、触覚といった複数種類の情報がインプットされます。

マルチモーダルAIは、これらの情報を総合的に処理してロボットアームを作動させます。2本のロボットアームには人間の手のような多指ハンドが装着されており、タオルを折りたたんだりサラダを盛り付けたりといった繊細な作業を学習して行うことができます。

マルチモーダルAIのメリット

マルチモーダルAIの利点やメリットとしては、主に「AIの精度向上」、「人間に近い判断ができるようになること」、そして「高技能をスムーズに習得できること」の3つが挙げられます。

AIの精度向上

マルチモーダルAIは、テキスト、画像、動画、音声など、複数種類のデータを同時に処理します。その結果、量・質ともに豊富な情報がインプットされ、並行してディープラーニングによる絶え間ない学習が重ねられるため、その精度はシングルモーダルAIに比べて格段に高まります。

人間に近い判断ができる

画像データ、音声データ、センサーで感知したデータなど、様々な種類のデータを同時進行で処理できるマルチモーダルAIの機能は、人間が視覚、聴覚、触覚など五感を使って認知・判断する能力に似ています。このように、シングルモーダルAIと比べてより人間に近い判断ができるようになったことも、マルチモーダルAIのメリットと言えるでしょう。

高技能をスムーズに習得できる

マルチモーダルAIは、人間の五感と同様に様々な情報を同時に取り込み、瞬時に処理できるため、直感的な作業を習得しやすいAIと言えます。さらに、学習した動作をディープラーニングによって応用したり、次の動きを予測したりすることで、熟練した技能の獲得も可能です。このように、高技能をスムーズに習得できる点も、マルチモーダルAIの強みです。

➡︎【5分でわかる】ChatGPTの導入ポイントと活用事例＜資料ダウンロード＞

マルチモーダルAIの今後の展望

マルチモーダルAIの精度は日々向上しており、活用場面も広がっています。今後はどのような分野で活用されるのか、期待の高まっている分野を紹介します。

医療分野

医療分野では、診断の精度向上や病気予測への活用が見込まれています。

1人の患者にまつわるデータは、X線画像や超音波画像、患部を撮影した画像から、心音データ、検査結果、問診票やカルテに記載されたテキストデータまで、様々な種類のデータがあります。

マルチモーダルAIを使ってこれらのデータと過去の膨大なデータとを照合すれば、熟練した医師あるいはそれ以上の正確さで病気を発見したり、予測したりできると期待されています。

製造分野

マルチモーダルAIの活用事例で触れたとおり、工場などの製造現場ではすでに、マルチモーダルAIが異常検知システムとして役立っています。また、マルチモーダルAIを搭載した産業用ロボットの研究・開発も急ピッチで進められています。

今後は、異常検知や検品作業にとどまらず、部品の研磨作業や弁当の盛り付けといった繊細な作業から、従業員の勤怠管理やシフト管理といった管理業務まで、製造分野における幅広い業務にマルチモーダルAIが活用されることが見込まれます。

コミュニケーション

コミュニケーション分野での活用も期待されています。

マルチモーダルAIの研究においては、長らく、画像データと音声データから感情を認識する研究が進められてきました。

今後ディープラーニングによって一層精度が向上すれば、会話相手の表情や声から総合的に判断して感情を認識し、複雑な会話や状況に応じた自然なコミュニケーションができるようになると予想されています。

国内では自動運転の車内の見守りシステムに採用されている例もあり、今後は介護施設の利用者の話し相手や企業の受付・案内への応用が見込まれています。

マーケティング

マーケティング分野での活用可能性も広がっています。

マーケティングでは、3C分析、5フォース分析、PEST分析、SWOT分析など、様々な分析手法が用いられています。また、分析対象も、自社、競合他社、自社製品、競合製品、顧客、社会、流通など、多岐にわたります。

マルチモーダルAIは、多種多様かつ膨大なデータを瞬時に処理できるため、人間では不可能なスピードでマーケティングに役立つ分析をリアルタイムに実行できます。そのうえ、売り上げなどの定量的なデータのみならず、店舗に設置されたカメラの映像や音声から、顧客の表情や会話などの定性的なデータも総合的に分析・評価できる可能性も秘めています。

エンターテイメント

マルチモーダルAIは、画像データとテキストデータの指示に基づき新たな画像を生成したり、複数の画像データを組み合わせて新たな画像を生み出したりできます。こうした技術を使って作られた画像や動画のなかには、アート作品として評価されているものも登場しています。

今後は、画像や動画、音楽、テキストなどのデータを基にゲームや映画を制作するなど、エンターテインメント作品におけるマルチモーダルAIの活用にも期待がかかっています。

デジタルアシスタント

Meta社（旧・Facebook社）が進めている「CAIRaoke」プロジェクトでは、マルチモーダルAIをメタバース空間におけるデジタルアシスタントとして活用しようとしています。

マルチモーダルAIは、VRとARが融合した空間で、ARグラスなどを介してユーザーの視覚情報、音声情報、位置情報、過去の行動履歴などの情報を基に、ユーザーをアシストします。

具体的には、ARグラスを装着したユーザーがレシピを見ながら料理をしていると、マルチモーダルAIが、レシピやユーザーの手元の食材から、これから作られようとしている料理を予測します。そのうえで、食材の切り方を案内したり、そのユーザーに特化した注意点をアドバイスしたりします。

未だ開発段階ではあるものの、このようなユーザー1人ひとりの状況に応じて自然に会話ができるデジタルアシスタントが、近い将来実現するかもしれません。

➡︎【5分でわかる】ChatGPTの導入ポイントと活用事例＜資料ダウンロード＞

まとめ：日々進化するマルチモーダルAIに注目

マルチモーダルAIの精度は、ディープラーニングによって日々向上しています。これにともない、日常生活からビジネスに至るまで、様々な場面でより広く活用されることでしょう。さらには、現在は人間が担っているコミュニケーションやエンターテインメントにおけるクリエイティブ制作、アシスタントといった役割までも代行できるようになると見込まれています。マルチモーダルAIの今後の展開に注目しましょう。

➡︎【5分でわかる】ChatGPTの導入ポイントと活用事例＜資料ダウンロード＞

サービス・プロダクト開発を検討している企業ご担当者様へ

モンスターラボは、約20年にわたるサービス・プロダクト開発実績から得られたデジタル領域の知見や技術力を活かし、デジタルプロダクト開発事業を展開しています。

先端テクノロジーに対応した高度なIT人材があらゆるプラットフォーム上での開発を支援します。アジャイル開発とDevOpsによる柔軟な開発進行や、国内外のリソースを活用したスケーラブルな開発体制の構築も可能です。また、リリース後の保守運用や品質向上支援まで伴走可能です。

モンスターラボが提供するサポートの詳しい概要は以下リンクをご確認ください。

➡︎モンスターラボのサービス概要はこちら

案件の相談はこちら

直近のイベント

記事の作成者・監修者

平田大祐（株式会社モンスターラボ　常務執行役員）

2004年IBMグループに入社し、IBM ITスペシャリストとしてシステム開発に従事。 2009年からベンチャー企業にて受託開発、コンテナ型無人データセンターの管理システム、ドローン開発などソフトウェアからハードウェア開発まで幅広く関わる。チーフテクノロジストとして2015年にモンスターラボへ入社し、2018年4月より最高技術責任者であるCTOに就任。プロフィールはこちら