視覚障害者に写真、画像の説明をしてくれる生成AI |画像生成と会話するAIの魅力と可能性
https://note.com/chat_gpt777/n/n331b03c7e3d8
視覚障害者は写真、画像等は見ることが出来ません。そんな時Gemini1.5Proを使って画像を読み込んで次のプロンプトで指示をすると
「私は目が見えません、この画像は何が描かれているのか?詳しくわかりやすく教えてください」
例1.きものを着た日本女性です。
回答
この画像は、和服姿の若い日本人の女性が屋外でお茶を飲んでいる様子を描いています。
以下、画像の詳細な説明です。
女性:
年齢: 20代から30代前半の若い女性に見えます。
表情: 笑顔で、楽しそうにリラックスした表情をしています。歯を見せて笑っており、目が少し細くなっています。視線は少し上の方を向いており、何か楽しいことを考えているか、美しい景色を眺めているような印象です。
髪型: 黒髪で、肩につくくらいの長さのボブスタイルです。前髪はぱっつん気味で、眉にかかっています。
服装: 鮮やかな青緑色の地に、ピンク、白、黄色の大きな花柄が描かれた華やかな振袖を着ています。振袖の襟元は白地に赤のラインが入った重ね衿になっており、華やかさを添えています。
アクセサリー: 大きな花の形をしたオレンジと赤色の鮮やかなイヤリングをつけています。
動作: 両手で白い湯呑みのようなカップを持って、お茶を飲んでいます。カップは小ぶりで、女性の手にちょうど収まっているように見えます。
背景:
ぼやけていますが、緑の葉が生い茂る木々や植物が映っています。屋外で、自然豊かな場所にいることが分かります。おそらく庭園か、緑の多いカフェテラスのような場所でしょう。
全体的な印象:
女性は明るく健康的で、楽しそうな雰囲気です。振袖姿と背景の緑のコントラストが美しく、春の穏やかな日差しの中でくつろいでいるような、平和な情景が伝わってきます。着物姿から、何らかの祝いの席やお祭りなど、特別な日である可能性も考えられます。
この説明で、画像の内容がお分かりいただけたでしょうか?
例2.何頭かの馬
回答
この画像は、夕暮れの草原を駆ける馬の群れを描いた絵画です。力強く美しい野生馬たちが、黄金色に輝く草原を背景に、疾走している様子が捉えられています。
以下、詳細な説明です。
馬たち: 中央に2頭の馬が大きく描かれ、その周囲を他の馬たちが囲んでいます。ほとんどの馬は茶色や栗毛ですが、白やベージュの斑模様を持つ馬もいます。どの馬も筋肉質で、たてがみと尾は風になびき、躍動感があります。彼らの目は生き生きとしており、自由奔放な spirit が感じられます。特に中央の2頭は、絵の焦点となっており、見る者を惹きつける力強さがあります。額には白い菱形の模様があります。
背景: 夕焼けの空と、広大な草原が描かれています。空は暖かみのある黄色やオレンジ色に染まり、地平線近くの山々はシルエットになっています。草原は乾燥した感じで、黄金色の草が風に揺れています。馬が走ることで、細かい土埃が舞い上がっている様子も描かれています。
光と影: 夕日が馬たちの体に影を作り、立体感と躍動感を強調しています。光と影のコントラストが、絵全体にドラマチックな雰囲気を与えています。
全体的な印象: この絵は、野生馬の力強さ、美しさ、そして自由を表現しています。夕焼けの温かい光と、馬たちの力強い動きが調和し、見る者に感動と畏敬の念を抱かせます。まるで自分も草原の中に立ち、馬たちの疾走を間近で見ているかのような臨場感があります。
この説明で、絵の様子が少しでも想像できましたでしょうか?
例3.野球の終わったグランドでの選手たち
回答
この画像は、千葉ロッテマリーンズの野球選手たちが試合中または試合後に、グラウンド上でハイタッチやグータッチを交わしている様子を捉えています。彼らは黒いユニフォームを着用しており、喜びや一体感を表現しているようです。
以下、詳細な説明です。
選手たち: 少なくとも6人の選手が写っています。全員が黒いユニフォームと黒い帽子を着用し、「M」のロゴが入っています。背中には白い数字があり、名前(ローマ字表記)が書かれている選手もいます。
動作: 選手たちはハイタッチやグータッチを交わしており、笑顔や真剣な表情が見られます。中央の選手は両手を上げており、他の選手とハイタッチをしています。手前には、"MASUDA 52"と書かれたユニフォームを着た選手が背中を向けて立っています。左端には、黒い帽子に黒のユニフォーム姿で"22"の背番号を付けた黒人選手が、右手を前に突き出して、人差し指を立てています。
ユニフォーム: 黒いユニフォームには、左胸に「M」のロゴ、右袖にスポンサーロゴ(おそらく「GungHo」)が付いています。ズボンは白です。
背景: スタジアムの観客席や照明がぼやけており、試合中または試合後であることが推測されます。
全体的な印象: 選手たちの笑顔やハイタッチの様子から、チームの勝利や好プレーを祝っている、あるいは互いを励まし合っているような、ポジティブな雰囲気が伝わってきます。
この説明で、画像の様子を想像する助けになれば幸いです。
とかなり正確に説明して呉れます。Googleレンズも簡単なものであれば答えてくれますが、ここまで詳細にはテキストで答えてくれません。テキストで出力してくれると音声読み上げが簡単に出来ます。
Untitled prompt | Google AI Studio
https://aistudio.google.com/app/prompts/new_chat