KuroNetくずし字認識サービスの使い方
KuroNetくずし字認識サービスは、IIIFに準拠した画像を対象に、多文字くずし字OCR機能使用して古文書の翻刻をする無料サービスです。「KuroNetくずし字認識ビューア」と「ダッシュボード」の2つのツールを利用します。両方ともログインしておく必要があります。「KuroNetくずし字認識ビューア」でくずし字OCRを行う領域を指定し、「ダッシュボード」でくずし字OCRの動作状態を表し、文字の解析を行います。
KuroNetくずし字認識ビューアは古文書をページ毎に表示することが出来ます。次を押してページ移動します。くずしを認識したいところを選択して、選択範囲を決めます。選択範囲が決まったら、その部分をクリックすると文書のURLが表示されている上に「KuroNetくずし字認識サービス」という部分があるので、そこをクリックすると、「ダッシュボード」に選択した画像が移動します。予約:実行、処理:完了、閲覧の場所を「実行」を押すと解析を行う。数分位掛かって、処理が完了と出てくる。そこで閲覧を押すと、解析結果が文書の上に赤字で翻刻を表示する。テキスト化も自動、手動、編集も出来る。このエディタは使いづらい感じです。
「KuroNetくずし字認識サービス」の使い方については、このサービスのページにあることはあるのですが、理解出来ない。何回も読み返しても駄目だった。なるべく教えたくない。という意志をもって意地悪く書いてあるのかなと疑いたくなるような内容でした。(本当は真面目に書きすぎて余計判らなくなったという感じです)そこでChatGptで「KuroNetくずし字認識サービス」の使い方を教えて下さいと入力すると「KuroNetくずし字認識ビューア」と「ダッシュボード」の2つのツールを使うということ。ビューア表示された画像を選択範囲を決めて「ダッシュボード」に送るということが一番に書いてあった。それでやり方の基本は判った。ChatGptの要約する力は凄いですね。「KuroNetくずし字認識サービス」のページから持ってきたのでしょう。でも要領よく使っている。IIIFに準拠した画像の細かい説明が一杯出てきてよくわからなかった。 日本古典籍くずし字データセットの一覧に載っている文書はそのままこのシステムで翻刻することが出来る。
このシステムは2022年10月頃最新版がリリースされていた。みを(miwo):AIくずし字認識アプリ と同じ時期にリリースされていたらしい。でも知らなかった。今回、調査して初めて判った。またKuroNetくずし字認識サービスも先日読んだときは使い方がよくわからなかった。今日、本気で読んでみた。漸く使い方が判った。使い方のマニュアルを作っておいた方が良さそうです。古文書を読む人は大抵ITにはあまり得意でない人が多いから、判りやすいマニュアルがあると良いですね。
今後地方文書などをIIIF (International Image Interoperability Framework)形式の画像にする方法を調べないといけない。今後の課題ですね。
KuroNetくずし字認識サービス
https://mp.ex.nii.ac.jp/kuronet/
KuroNetくずし字認識サービス(AI OCR)
http://codh.rois.ac.jp/kuronet/#viewer
書名一覧 | 日本古典籍くずし字データセット(IIIF形式の古文書画像が置いてある)
http://codh.rois.ac.jp/char-shape/book/