つみかさね

一球一球のつみかさね 一打一打のつみかさね 一歩一歩のつみかさね 一坐一坐のつみかさね 一作一作のつみかさね 一念一念のつみかさね

AIで古文書を読んでみる?

AIで古文書を読んでみる?

英会話の出来る人は世の中に急速に増えてきている。でも100年前の古文書は読めない人ばかりになってしまった。読める人数千人(0.01%以下)と言われている。古文書を読む会等は殆ど高齢者が多く若い人はかなり少ない。そこでAIの進歩で古文書を読めるようになってきている。将来をみれば良い傾向だと思う。そこでAIで古文書を読んでみた。

可読率という指標で古文書をAIがどれくらい読めているかを評価している。良い結果を出しているものについては可読率95%以上のモノもある。

KuroNetくずし字認識サービスとAIくずし字認識アプリみを(miwo)というのが現状で使うことが出来るツールです。

192文字 認識していない4文字、読み間違えているもの8文字で93%という評価をつけている。原稿によってはそれどれ可読率も変わってくる。また何回か同じ文書を読み直しても、読めたり、読めなかったりすることがある。KuroNetくずし字認識サービスにログインは出来るようになったが、使い方がいまいち判らない。そこで「みを(miwo)」を使ってみた。パソコン(Win10)にBlueStacks 5というAndroidアプリが動作させることが出来る環境をインストールしていて、「みを(miwo)」を動かしてみた。

源氏物語桐壺の冒頭4ページ、小林一茶の「おらが春」を冒頭から25ページ、川和村地所論所書上  (王禅寺村志村家文書)を冒頭から20ページをそれぞれjpgファイルに変換して、メールで送り、Androidプリメーラーで受信して、画像として保存する。これらの題材は正解が容易に判る翻刻があるものにした。確かな判定が出来るようにしてみた。
源氏物語、おらが春は原本が綺麗な古文で書かれている。活字本のような感じで綺麗です。だから可読率は高い。でも地方文書の川和村地所論所書上は間違いだらけになってしまった。こんな文書はまだまだAIには無理な文書ですね。かなり苦労している感じです。これだけ間違いが多いと、最初から人間が読んだ方が整理しやすいかも知れない。読み直すのに結構手こずった。

「みを(miwo)」を起動して、それらのファイルを翻刻する。そこでテキストとしてコピーする。そしてWindows側のエディタに貼り付ける。何故かOSが違ってもコピー&ペーストが出来ところがBlueStacks 5の良い所かな?

今回使った原本は比較的保存状態が良いので、可読率は高い。でも汚れ、欠損等傷んでいる文書では高い可読率は期待できない。AIに読ませるというのは楽ですが、実はアウトプットを一々人間がチェックする必要がある。特にどれを正解とするか?不明とするか?欠損するかなど、どうしても人間に依存するところが残ってします。そしてその最後の詰めを出来るのが人間の良い所。AIは80点は取れるが、残りの20点を詰めて、100点にするのは人間の力がまだ未だ必要ですね。今後の進化に期待したいと思います。

AIはくずし字が読めるのか?古今集十本による可読率ランキング
https://note.com/hituyu/n/n14e4a05a6c5d
【検証】AIはくずし字が読めるのか【可読率ランキング】トップ3 - YouTube
https://www.youtube.com/watch?v=RNiPZ178T3Q&t=217s
KuroNetくずし字認識サービス(AI OCR) | ROIS-DS人文学オープンデータ共同利用センター(CODH)
http://codh.rois.ac.jp/kuronet/
みを(miwo):AIくずし字認識アプリ | ROIS-DS人文学オープンデータ共同利用センター(CODH)
http://codh.rois.ac.jp/miwo/

【検証】古典籍の全文検索はできるのか(前篇)
https://www.youtube.com/watch?v=3ZgSnvKWM9k
【検証】古典籍の全文検索はできるのか(後篇)
https://www.youtube.com/watch?v=YJd8M3OSL1w

AIで古文書を読んでみる?

AIで古文書を読んでみる?

AIで古文書を読んでみる?