YouTubeの講演会の発言を書き起こす|画像生成と会話するAIの魅力と可能性
https://note.com/chat_gpt777/n/na2d757d01988
講演会などの内容を動画にしたものも多く見受けられます。動画の場合再生して見なおす、聞き直す必要があります。そこで何とか文字起こしが出来ないかと検討していたところ、8月1日にリリースされたGemini 1.5 Pro Experimentalで出来そうな感じだったので試してみました。長文の入出力が得意だとあった。100万トークンも可能かな。「そこで中国の石炭は増えます-国際機関IEAは嘘」という1時間6分の動画を録音して(Craving Explorerという動画録音、録画ツール)1時間6分のmp3で保存した。1分程度で出来た。
それをGemini 1.5 Pro Experimentalにアップロードして「このファイルの音声を全部、書き出してください。また分かりやすいように文章の整形してください。」と指示した。
以前のGemini 1.5 Proでは20分の音声をアップロードするのが限界でしたが、今回は1時間6分でも余裕でした。書き出した文章は54,265文字でした。1回では書き出せず途中で、「続けて」と2回指示を出した。3回に分けて文章を出してくれた。1回10分程度で出してきた。
その後、「今、書き起こした文章を分かりやすく整理してください。(全文)」と指示したところ、タイトル、章立てなどをしながらまとめを作成してくれた。Gemini 1.5 Pro Experimentalの凄さが判った。これからも使えそうです。
(1) 中国の石炭は増えます-国際機関IEAは嘘 - YouTube
https://www.youtube.com/watch?v=X4LWspr8nBc&t=518s
Gemini 1.5 Pro Experimental
Craving Explorer 動画も音声も1クリックで今すぐ保存
https://www.crav-ing.com/
Craving Explorerをインストールすると同時にマカフィーセキュリティがインストールされるので、後でアンインストールしておくことを忘れないでください。「E START アプリ」もインストールされます。特に悪さをするわけではないのですが、アンインストールしておきましょう。