PythonでPDFからテキスト抽出(pdfminer.six)

 ·  ☕ 1 

Pythonで、「pdfminer.six」を利用してPDFからテキストを抽出してみました。

※この方法だとファイルによっては文字化けする事がありました。汎用性を上げるならOCRの方がよいです。
PDFをOCRでテキスト変換してみた(Cloud Vision)

はじめに

コードでPDFからtextを抽出したかったので、調べたところ「pdfminer.six」が良さそうだったので使ってみました。

PythonでPDFからテキストを読み取る方法について

インストール

1
2
3
$ python3 -m venv .env
$ . .env/bin/activate
$ pip install pdfminer.six

venv を使っていますがお好みで。
 単にpipでインストールして試してみたら、パスの関係か何かで実行できませんでした。

コマンドラインで実行する

https://pdfminersix.readthedocs.io/en/latest/tutorials/commandline.html

1
2
$ python .env/bin/pdf2txt.py sample.pdf
表示確認用サンプル PDF

Pythonコードに組み込む

https://pdfminersix.readthedocs.io/en/latest/tutorials/highlevel.html

1
2
3
4
5
6
from pdfminer.high_level import extract_text

pdf_filename = "sample.pdf"

text = extract_text(pdf_filename)
print(text)

※サイトのGet startedの記載には、import文が書かれてないですが上記でいけました。

備考

Node.jsだと以下が使えそうです。
http://dotnsf.blog.jp/archives/1075957643.html
使ってみました

※最初はNode.jsで考えていたのですが、調べ方が悪かったのか中々見つからずPythonで試しました。