こんにちは、コンスキです。
PDFファイルには大きく分けて次の2種類があります。
- Wordなどの電子データをもとに作られたPDF
- 書類をスキャナーでスキャンして作られたPDF
このうち2つ目のスキャンによって作られたPDFに関して、困ったことがあります。
文字のコピーや文書内検索ができないという問題です。
今回はそのようなPDFファイルをtxtファイルからtxtファイルを作成する方法をご紹介します。
txtファイルにしてしまえは、文字コピーと文書内検索がどちらもできるようになります。
PDFファイルからtxtファイルを作成する
1.こちらのサイトに行きます。
2.「Choose File」と書かれたボタンをクリックして、文字を抽出したいファイルを選択します。
![](https://konsuki.com/wp-content/uploads/2022/01/image-136-1024x544.png)
3.下に少しスクロールして、「Convert with OCR」を選択します。
![](https://konsuki.com/wp-content/uploads/2022/01/image-141-1024x542.png)
4.「▼」をクリックした後、出てきたメニューから抽出したい言語を選択します。
![](https://konsuki.com/wp-content/uploads/2022/01/image-142-1024x541.png)
5.「START」ボタンをクリックします。
![](https://konsuki.com/wp-content/uploads/2022/01/image-143-1024x543.png)
6.しばらくするとtexファイルが自動でダウンロードされます。
![](https://konsuki.com/wp-content/uploads/2022/01/image-144-1024x543.png)
スペースを消す
言語の設定でJapaneseを設定した場合は、不自然なスペースが入ってしまいます。
こちらのサイトへ移動します。
「全てのスペース」にチェックを入れてから、左側のテキストボックスにtxtファイルの中身を入れてみたください。
![](https://konsuki.com/wp-content/uploads/2022/01/image-145-1024x545.png)
不要なスペースが消えた状態で、右側のテキストボックスに表示されます。
精度
もとのPDFファイルと、最終的に抽出した文字を比較してみます。
![](https://konsuki.com/wp-content/uploads/2022/01/image-147.png)
完璧とは言えませんが、コピーや文書内検索をするにおいては十分な精度で抽出できました。
コメント