つみかさね

一球一球のつみかさね 一打一打のつみかさね 一歩一歩のつみかさね 一坐一坐のつみかさね 一作一作のつみかさね 一念一念のつみかさね

pdfファイルをテキスト化する方法

pdfファイルをテキスト化する方法|画像生成と会話するAIの魅力と可能性
https://note.com/chat_gpt777/n/n9a1e84c8a581

pdfファイルを作成するとき、Wordなどでテキスト文、エクセルの表を画像にしたもの等を混在させて作成した場合、健常者は目で見て読むことが出来ますが、音声で読み上げに頼っている視覚障害者には画像にした部分は読み取れません。 昨日pdf→Word変換についていろいろ調べていましたが、途中まででした。今朝、思いついてやってみました。簡単に言うと生成AIに画像化されているテキストも抽出させること。「Google AI Studio」が得意ですね。

そこで「Google AI Studio」のGemini3の力を借りて、PDFを読み込んで全文書き出しを行う。そしてhtmlで出力する(OCR機能を使う)。残念ながらWord形式で出力できないからまずはhtmlにする。すると表形式でも表示が出来る。

そしてhtmlをWordで読み込むそして保存。その後PDFに再変換しても良い。どちらもテキストはすべて抽出出来ている。

Wordであれば
「閲覧」→「音声読み上げ」で読み上げることが出来る。止め方は上に×があるのでそれを

PDFであれば
ブラウザの読み上げ機能(Windows・Chrome/Edge)
手順
PDFをブラウザで開く
右クリック → 「音声で読み上げ」または「読み上げ開始」
(Edgeが特に高機能)

作成したhtml、word、pdfが正しいかどうかを元のpdfと作成したpdfを「Google AI Studio」のGemini3にアップロードして2つのファイルのチェックをして差分がないかどうか聞いてみる。

ご提示いただいた2つのPDF(便宜上「PDF1:従来型レイアウト」と「PDF2:モダンレイアウト」と呼びます)を比較した結果、記載されている内容(活動報告の数値、決算・予算の金額、役員名など)に実質的な差分はありません。
主な違いは、「レイアウト(見た目)」と「構成(ページの割り振り)」、および**「署名・捺印の有無」**の3点です。

pdfファイルをテキスト化する方法