つみかさね

一球一球のつみかさね 一打一打のつみかさね 一歩一歩のつみかさね 一坐一坐のつみかさね 一作一作のつみかさね 一念一念のつみかさね

GeminiのOCR機能

GeminiのOCR機能
GeminiでKJ法の大きな紙に手書きで文字を書いた付箋をグループ毎に貼り付けたものを読み込ませて、映っている文字をすべて書き出してというプロンプトでお願いすると、あまり間違わないで書き出してくれる。厳密にいうと間違いもある。(それはチェックで直す)
Google Gemini
https://gemini.google.com/app

それと同じことを自前のPCに構築した生成AI(google/gemma3-12B)行ったところかなり間違えずに同じように書き出してくれた。2つともOCR機能が優れているのはわかっていたが、ここまで出来るのだという驚嘆です。個人的な文章、添削、名簿の整理とかかなり活躍しています。外部の生成AIに投げるのはちょっとというものは、これを使ってやっています。

ただ、この生成AIを構築しているLM Studioをバージョンアップして再起動、Gemma3-12Bを読み込もうとするとWindows11が邪魔をして読み込めない。勿論起動も出来ない。
エラーログをChatgptに投げかけて調べたところ「Smart App Control の設定」がオンになっているとWindowsにとって問題のありそうなアプリを制限する機能が強化されていた。そこでオフにした。これはOSを再インストールしないとオンにすることはできない。変な仕様です。自前PCで生成AIを使う場合はこの設定が邪魔をする場合が多いらしい。以前はぎりぎりのところで動いていたのかもしれない。オフ後は順調です。

① スタートボタンをクリック
 →「設定」を開く
② 左側
 →「プライバシーとセキュリティ」
③ 右側
 →「Windows セキュリティ」

 →「Windows セキュリティを開く」ボタン
⑤ 新しい画面で
 →「アプリとブラウザー コントロール」

 →「Smart App Control の設定」

 →「オフ」を選択
⑧ 確認メッセージが出たら
 →「はい」
⑨ PC を再起動

Gemma3-12B は、Google が公開している Gemmaシリーズ第3世代の大規模言語モデル(LLM) の一つです。名前の「12B」は 約120億(12 billion)パラメータ を持つモデルであることを意味します。

GeminiのOCR機能