スマホで“ひそひそ声”を通常の声に変える技術　東大教授「WESPER」開発

スマホで“ひそひそ声”を通常の声に変える技術　東大教授「WESPER」開発
https://www.itmedia.co.jp/news/articles/2303/17/news077.html

声障害者ものにとっては朗報かな？実用化はいつ頃出来るのだろう！

「WESPER」とは、ささやき声やかすれ声を通常の声にリアルタイムに変換する技術です。東京大学大学院情報学環の暦本純一教授が発表した論文で提案されたもので、自己教師型学習により、音声単位という潜在表現を生成し、それを目標音声波形に再構成するモデルを用いています。この技術は、公共の場での音声入力や発声障害者の支援などに応用できる可能性があります。

WESPER: Zero-shot and Realtime Whisper to Normal Voice Conversion for Whisper-based Speech Interactions – Rekimoto Lab
https://lab.rekimoto.org/projects/wesper/

WESPER: 話者・言語非依存の実時間ささやき声
通常音声変換によるスピーチインタラクション
https://rekimotolab.files.wordpress.com/2023/03/wesper-interaction23.pdf

この論文の要約は以下のようになります。
この論文は、ささやき声やかすれ声を通常の音声にリアルタイムに変換する機械学習モデル「WESPER」を提案したものである。
WESPERは、音声単位変換器（STU）と単位音声変換器（UTS）から構成される。STUは、ささやき声と通常音声の差分を吸収した共通音声単位を生成する。UTSは、音声単位から目的の話者の音声を再構成する。
WESPERは、ペアでないささやき声と通常音声のデータから事前学習できるため、テキストラベルや特定の言語に依存しない。また、任意の話者の音声に変換できるため、発声障害者や聴覚障害者の発声品質を向上させることができる。
WESPERは、実験参加者50人による評価で、変換品質が高く韻律の自然さも保持されることを確認した。また、英語だけでなく日本語やドイツ語のささやき声変換にも適用可能であることを示した。
この論文は、2023年4月に開催予定のHCIの国際会議「CHI 2023」に採択された。

WESPER: Zero-shot and Realtime Whisper to Normal Voice Conversion
(ACM CHI2023 paper)
https://www.youtube.com/watch?v=R3mHPjLB6Ls&t=1s