ソフトウェア

声に含まれる「感情」を分析して話者の顔をアニメーションで自動生成するAIが開発される

by pxhere

話している人の声には、性別、年齢、民族など、話者のアイデンティティが表れます。人工知能(AI)技術の進歩によって、人の声から話している人の顔を予想して画像を生成するAIも登場していますが、Microsoftは音声をさらに細かく分析することによって、話者の感情だけでなく顔の表情までアニメーション映像で再現可能なAIを開発しました。

Animating Face using Disentangled Audio Representations
https://arxiv.org/pdf/1910.00726.pdf


Microsoft's AI generates high-quality talking heads from audio | VentureBeat
https://venturebeat.com/2019/10/07/microsofts-ai-generates-high-quality-talking-heads-from-audio/


これまで会話音声をAIで分析する研究で使われるデータセットには、「非常に聞き取りやすく冷静にハキハキと話す会話音声」が多く使われています。しかし、人間が実際に会話を行う状況は、周りに雑音が多く、声にも話者の感情やさまざまなクセが乗るもの。

by pixabay

Microsoftの研究チームは「私たちみんなが知っているように、会話音声は多様性に満ちています。異なる人々が異なる文脈で同じ単語を発声すれば、そのスピードや音程、トーンは変わってきます。また、話者の感情的な状態や性別、年齢、民族、個性を表す抱負な情報が会話の音声には含まれています」と述べ、変分型オートエンコーダー(VAE)を使って会話音声の分析を行いました。

研究チームは、34人の話者から提供された1000件以上の録音や、民族的に多様な91人が会話する7442本の映像、さらにスピーチムービーから取得した10万件を超える音声をデータセットに使い、VAEを学習させました。

VAEは入力された会話音声の波形を、音声の内容、話者の感情、その他さまざまな変動要因を分析します。


そして、入力された顔画像と分析結果を映像ジェネレーターに送り、アニメーションを作成するとのこと。


研究チームは、「私たちの研究は音声表現学習の観点からAIの性能を改善するという最初のアプローチです」「ノイズが多く感情的な会話音声でテストしてこのモデルを検証し、私たちのアプローチが最先端技術を大きくしのぐ精度が出ることを示した」と主張しました。

この記事のタイトルとURLをコピーする

・関連記事
「声」から話者の顔画像を生成するAIが開発される - GIGAZINE

Amazonが「声」からあなたの感情を読み取るウェアラブル端末を開発中 - GIGAZINE

テキストを修正するだけでムービー中の言い間違いを簡単に修正可能な技術が開発される - GIGAZINE

GoogleのAIが「ムービーの最初と最後のコマ」から途中のコマを生成することに成功 - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article AI will be developed that analyzes the `….

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy