読唇術の最新動向|画像生成と会話するAIの魅力と可能性
https://note.com/chat_gpt777/n/n8ad5046fc290
カメラを用いた唇の表情を検出して音声を抽出できないか?という提案があったので調べてみました。
口パクとか読唇術とかいう仕組みをAI化の可能性について、調べてみました。口パクで判らないのは「た」と「だ」の違いのように濁音、清音の区別が難しいようです。だから画像認識ソフトで抽出するのはかなりハードルが高いようです。口の周りの筋肉の動き、口の中の筋肉の動き等を検出するセンサーを使って行う研究も発表されている。まだ研究段階で実用化した例は未だ無い。
読唇術は、口の動きから発話内容を読み取る技術である。
従来の読唇術は、人間の専門家が行うもので、限られた環境でしか使用できなかった。
近年、AIによる読唇術の研究が進められており、高精度な読唇術が可能になってきている。
具体的には、以下の技術が開発されている。
口の動きから音声を生成して音声認識を行う技術
口の動きから発話内容を直接推定する技術
これらの技術は、以下のような用途に活用できると考えられている。
難聴者や聴覚障害者の対話支援
騒音環境での音声認識
メタバースやオンライン会議でのコミュニケーション
具体的な事例
2023年、MetaはAIによる読唇術技術を発表し、メタバースのアバターにも活用できると発表した。
2023年、GoogleのDeepMindは、読唇術で人間の専門家に勝つAIを開発したと発表した。
2023年、日本では、障がい者の対話支援のために、読唇術向けのデータセットが開発された。
2023年、口パクで音声入力できるメガネ型デバイスが複数社から発表された。
今後の展望
AIによる読唇術の技術は、今後さらに進歩していくと考えられる。
難聴者や聴覚障害者のコミュニケーションをより円滑にするだけでなく、日常生活の様々な場面で活用されるようになるだろう。
読唇術で音声入力 スマホで口パクを自撮りし音声に変換「LipType」
https://qr.paps.jp/C9LRR
アップル特許、Siriが口の動きを読めるようになる?
https://www.gizmodo.jp/2023/08/siri-rip-reading-program.html
Metaが進める「AIによる読唇術」その方法とは(1)
https://qr.paps.jp/HhATa
Metaが進める「AIによる読唇術」メタバースのアバターにも活用可能な技術(2)
https://qr.paps.jp/t9NdX
障がい者の対話支援へ。読唇術向けデータセット開発
https://newswitch.jp/p/28134
読唇術って本当に可能なのでしょうか?
https://psych.or.jp/interest/ff-15/
グーグルのDeepMind、読唇術で人間の専門家に勝つ
https://japan.zdnet.com/article/35092634/
口パクで音声入力できるメガネ型デバイス
https://www.j-wave.co.jp/original/tokyounited/archives/feature-focus/2023/03/24-090448.html
口パクでも音声認識――「無発声」でも音声入力可能なスマートメガネを開発
https://engineer.fabcross.jp/archeive/230516_echospeech.html
口パク動作を行うだけで発話内容を認識
https://www.tel.co.jp/museum/magazine/news/291.html
口腔動作を起点とした音声生成による代用発声技術の実現
https://qr.paps.jp/ON6X3