画像認識可能になったminiGPT-4を試してみました

miniGPT-4画像を分析して評価することが出来る言語エンジンが出てきた。公開されたばかりでサイトはかなり混んでいる。一枚の画像をアップするのに12分位掛かった。順番待ちが100人位だった。待つだけで12分の大半、処理は直ぐやっているようです。そして質問、コメント等を入れてエンターしからまた同じ位待つ。初めて試すので、じっくり待つことにしました。実際の運用ではもっと速くなるとは思いますが、ちょっと待たせすぎる。今はデモサイトが9個位作られている。一番を選んだから遅くなったのか？後で試してみることにする。

動画の説明に寄れば、枯れた葉の写真を見せると、葉の病気の可能性を示して、対処方法も指示してくれるらしい。また料理の写真を見せると、料理の名前、そして作り方のレシピも出してくれるようです。いろいろ試したいが今のところ少し重すぎるのが欠点ですね。順番待ちのカウンタ、経過時間を示すカウンタが並んでいます。一応の目安の時間、順番がわかります。これでイライラせずに待てるでしょう。

キング・アブドゥッラー科学技術大学のminiGPT-4のタイトルは「高度な大規模言語モデルによる視覚言語理解の強化」という論文と共にデモサイトなどが紹介されています。

ChatGPT匹敵する精度とされるチャットAI「Vicuna-13B」と、画像にキャプションを付けられる「BLIP-2」を組み合わせることで、アップロードした画像についてAIと会話できるようにした「Minigpt-4」が、公開されました。

　サウジアラビアのキング・アブドゥッラー科学技術大学に所属する研究者らが発表した論文「MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models」は、画像の視覚的特徴を捉えて大規模言語モデル（LLM）で高品質な言語出力を行うシステムを提案した研究報告である。ユーザーは、画像1枚と何をして欲しいかの文章をセットに入力すると、画像に応じたテキスト回答が得られる。

動画生成AIで作成した猫の写真をアップロードして問いかけをしてみました。都合20分で答えが出てきました。

問い
この写真は何を示していますか？
答え
この画像は、キッチンカウンターの前の床に座っている 3 匹の白黒の猫を示しています。猫たちはカウンターの上の何かを見ていて、そのうちの 1 匹が足を伸ばしてそれに触れています。猫は手入れが行き届いており、手入れが行き届いているようです。画像の焦点が合っており、照明が明るく、クリアで明るいシーンが作成されます。猫は均整が取れており、画像はよく構成されています。
ChatGpt本家でもこの画像認識を盛り込む話は当初からあったのでどんなものが出てくるか楽しみですね。少なくとももっともっと応答が速くないと使い物にならないですね。今回のデモで概略が判ってきました。

Minigpt-4
https://minigpt-4.github.io/
画像をテーマにAIとおしゃべりできる「Minigpt-4」が登場
https://gigazine.net/news/20230418-minigpt-4/
“画像の面白さ”を解説できるAI「MiniGPT-4」デモサイトも公開中
https://www.itmedia.co.jp/news/articles/2304/20/news069.html
MiniGPT-4 - a Hugging Face Space by Vision-CAIR
https://huggingface.co/spaces/Vision-CAIR/minigpt4

【ついにAIが画像認識可能に！】最先端のMiniGPT-4が凄すぎる！ - YouTube
https://www.youtube.com/watch?v=PDFgDGFkrhI