読唇術の最新動向 - つみかさね

読唇術の最新動向｜画像生成と会話するAIの魅力と可能性
https://note.com/chat_gpt777/n/n8ad5046fc290

カメラを用いた唇の表情を検出して音声を抽出できないか？という提案があったので調べてみました。
口パクとか読唇術とかいう仕組みをAI化の可能性について、調べてみました。口パクで判らないのは「た」と「だ」の違いのように濁音、清音の区別が難しいようです。だから画像認識ソフトで抽出するのはかなりハードルが高いようです。口の周りの筋肉の動き、口の中の筋肉の動き等を検出するセンサーを使って行う研究も発表されている。まだ研究段階で実用化した例は未だ無い。

読唇術は、口の動きから発話内容を読み取る技術である。
従来の読唇術は、人間の専門家が行うもので、限られた環境でしか使用できなかった。
近年、AIによる読唇術の研究が進められており、高精度な読唇術が可能になってきている。
具体的には、以下の技術が開発されている。
口の動きから音声を生成して音声認識を行う技術
口の動きから発話内容を直接推定する技術
これらの技術は、以下のような用途に活用できると考えられている。

難聴者や聴覚障害者の対話支援
騒音環境での音声認識
 メタバースやオンライン会議でのコミュニケーション

具体的な事例
2023年、MetaはAIによる読唇術技術を発表し、メタバースのアバターにも活用できると発表した。
2023年、GoogleのDeepMindは、読唇術で人間の専門家に勝つAIを開発したと発表した。
2023年、日本では、障がい者の対話支援のために、読唇術向けのデータセットが開発された。
2023年、口パクで音声入力できるメガネ型デバイスが複数社から発表された。