ドキュメント

[Python] PDFからテキストを抽出する方法

2025-04-15更新日: 2025-04-15

PythonでPDFからテキストを抽出するには、主に PyPDF2 や pdfplumber などのライブラリを使用します。

PyPDF2は軽量で基本的なテキスト抽出に適していますが、複雑なレイアウトや画像を含むPDFには pdfplumber がより効果的です。

PyPDF2ではPdfReaderを使ってページごとにテキストを取得し、pdfplumberではopenメソッドでPDFを開き、extract_textメソッドでテキストを抽出します。

目次から探す

PDFからテキストを抽出するためのライブラリ選定
- PyPDF2とは
- pdfplumberとは
PyPDF2を使ったPDFテキスト抽出
pdfplumberを使ったPDFテキスト抽出
PDFのテキスト抽出における注意点
OCRを使ったPDFからのテキスト抽出
応用例：PDFから特定の情報を抽出する
まとめ

PDFからテキストを抽出するためのライブラリ選定

PDFからテキストを抽出するためには、いくつかのライブラリが存在します。

ここでは、特に人気のある PyPDF2 と pdfplumber について解説します。

これらのライブラリは、それぞれ異なる特徴を持っており、用途に応じて使い分けることが重要です。

PyPDF2とは

PyPDF2は、PythonでPDFファイルを操作するためのライブラリです。

主にPDFの読み込み、ページの抽出、結合、分割などの機能を提供しています。

テキスト抽出に関しては、比較的シンプルなPDFに対して効果的ですが、複雑なレイアウトのPDFでは限界があります。

主な特徴

PDFのページを簡単に抽出・結合できる
メタデータの取得が可能
テキスト抽出機能があるが、精度はPDFの構造に依存

pdfplumberとは

pdfplumberは、PDFからテキストや表データを抽出するための強力なライブラリです。

特に、複雑なレイアウトや表形式のデータを扱う際に優れた性能を発揮します。

pdfplumberは、PDFのページを詳細に解析し、テキストの位置情報を考慮して抽出を行います。

主な特徴

複雑なレイアウトのPDFからも高精度でテキストを抽出
表データの抽出が得意
画像や図形の情報も取得可能

これらのライブラリを使うことで、PDFからのテキスト抽出が効率的に行えるようになります。

次のセクションでは、具体的な使い方について詳しく見ていきます。

PyPDF2を使ったPDFテキスト抽出

PyPDF2を使用することで、PDFファイルからテキストを簡単に抽出することができます。

以下では、PyPDF2のインストール方法や基本的な使い方について詳しく解説します。

PyPDF2のインストール方法

PyPDF2は、Pythonのパッケージ管理ツールであるpipを使用して簡単にインストールできます。

以下のコマンドを実行してください。

pip install PyPDF2

基本的な使い方

PyPDF2を使ったPDFテキスト抽出の基本的な流れを見ていきましょう。

PDFファイルの読み込み

まずは、PDFファイルを読み込む方法です。

以下のサンプルコードを参考にしてください。

import PyPDF2
# PDFファイルを開く
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    print(f'ページ数: {len(reader.pages)}')

このコードでは、sample.pdfというPDFファイルを読み込み、ページ数を表示しています。

ページごとのテキスト抽出

次に、特定のページからテキストを抽出する方法を見てみましょう。

import PyPDF2
# PDFファイルを開く
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    # 1ページ目のテキストを抽出
    page = reader.pages[0]
    text = page.extract_text()
    print(text)

このコードでは、1ページ目のテキストを抽出し、表示しています。

複数ページのテキストを一括抽出する方法

複数ページからテキストを一括で抽出する場合は、以下のようにループを使用します。

import PyPDF2
# PDFファイルを開く
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    all_text = ''
    # 各ページのテキストを抽出
    for page in reader.pages:
        all_text += page.extract_text() + '\n'
    print(all_text)

このコードでは、全ページのテキストを結合して表示しています。

PyPDF2の制限と注意点

PyPDF2にはいくつかの制限があります。

以下に主な注意点を示します。

制限事項	説明
複雑なレイアウト	複雑なレイアウトのPDFではテキスト抽出が不正確になることがある。
画像ベースのPDF	画像として保存されたテキストは抽出できない。
フォントのエンコーディング	特殊なフォントやエンコーディングが使用されている場合、テキストが正しく抽出できないことがある。

これらの制限を理解した上で、PyPDF2を効果的に活用しましょう。

次のセクションでは、pdfplumberを使ったPDFテキスト抽出について解説します。

pdfplumberを使ったPDFテキスト抽出

pdfplumberは、PDFからテキストや表データを高精度で抽出するための強力なライブラリです。

以下では、pdfplumberのインストール方法や基本的な使い方について詳しく解説します。

pdfplumberのインストール方法

pdfplumberはpipを使用して簡単にインストールできます。

以下のコマンドを実行してください。

pip install pdfplumber

基本的な使い方

pdfplumberを使ったPDFテキスト抽出の基本的な流れを見ていきましょう。

PDFファイルの読み込み

まずは、PDFファイルを読み込む方法です。

以下のサンプルコードを参考にしてください。

import pdfplumber
# PDFファイルを開く
with pdfplumber.open('sample.pdf') as pdf:
    print(f'ページ数: {len(pdf.pages)}')

このコードでは、sample.pdfというPDFファイルを読み込み、ページ数を表示しています。

ページごとのテキスト抽出

次に、特定のページからテキストを抽出する方法を見てみましょう。

import pdfplumber
# PDFファイルを開く
with pdfplumber.open('sample.pdf') as pdf:
    # 1ページ目のテキストを抽出
    page = pdf.pages[0]
    text = page.extract_text()
    print(text)

このコードでは、1ページ目のテキストを抽出し、表示しています。

画像や表を含むPDFからのテキスト抽出

pdfplumberは、画像や表を含むPDFからもテキストを抽出することが得意です。

以下のサンプルコードでは、表データを抽出する方法を示します。

import pdfplumber
# PDFファイルを開く
with pdfplumber.open('sample_with_table.pdf') as pdf:
    page = pdf.pages[0]
    # 表を抽出
    table = page.extract_table()
    for row in table:
        print(row)

このコードでは、1ページ目から表データを抽出し、各行を表示しています。

pdfplumberの強みと制限

pdfplumberにはいくつかの強みと制限があります。

以下に主なポイントを示します。

強み	説明
高精度なテキスト抽出	複雑なレイアウトや表形式のデータを高精度で抽出できる。
画像や図形の情報取得	PDF内の画像や図形の情報も取得可能。
表データの抽出が得意	表形式のデータを簡単に抽出できる。
制限事項	説明
————————	——————————————–
OCR機能がない	画像ベースのPDFからのテキスト抽出にはOCRが必要。
大きなファイルの処理	大きなPDFファイルではメモリ使用量が増加することがある。

pdfplumberを活用することで、PDFからのデータ抽出がより効率的に行えるようになります。

次のセクションでは、PDFのテキスト抽出における注意点について解説します。

PDFのテキスト抽出における注意点

PDFからテキストを抽出する際には、いくつかの注意点があります。

これらのポイントを理解しておくことで、より効果的にデータを抽出できるようになります。

以下では、PDFの構造やレイアウト、OCRの必要性について詳しく解説します。

PDFの構造とテキスト抽出の難しさ

PDFは、テキスト、画像、図形などの要素を固定レイアウトで配置するためのフォーマットです。

このため、PDF内のテキストは、必ずしも論理的な順序で配置されているわけではありません。

テキストが異なるフォントやサイズで配置されている場合、抽出した際に意図しない順序や形式で表示されることがあります。

特に、複数のカラムやセクションがある場合、テキストの抽出が難しくなることがあります。

フォントやエンコーディングの問題

PDFファイル内のテキストは、特定のフォントやエンコーディングで保存されています。

これにより、特定のフォントが使用されている場合、テキストが正しく抽出できないことがあります。

特に、特殊なフォントやカスタムエンコーディングが使用されている場合、抽出結果が文字化けすることがあります。

このため、PDFのフォントやエンコーディングに注意を払う必要があります。

レイアウトが複雑なPDFの処理

複雑なレイアウトを持つPDF(例えば、複数のカラム、テーブル、画像などを含む場合)では、テキスト抽出が特に難しくなります。

テキストが異なる位置に配置されている場合、抽出したテキストが意図した順序で表示されないことがあります。

このような場合、手動での調整や、より高度な解析が必要になることがあります。

画像ベースのPDFに対するOCRの必要性

画像ベースのPDF(スキャンした文書など)では、テキストが画像として保存されているため、通常のテキスト抽出ライブラリではテキストを取得できません。

このような場合、OCR(光学式文字認識)技術を使用する必要があります。

OCRを使用することで、画像内のテキストを認識し、抽出することが可能になります。

ただし、OCRの精度は画像の品質やフォントによって異なるため、注意が必要です。

これらの注意点を理解し、適切な方法を選択することで、PDFからのテキスト抽出をより効果的に行うことができます。

次のセクションでは、OCRを使ったPDFからのテキスト抽出について解説します。

OCRを使ったPDFからのテキスト抽出

OCR(光学式文字認識)技術を使用することで、画像ベースのPDFからテキストを抽出することが可能になります。

以下では、OCRの基本や、Tesseractのインストール方法、pytesseractを使ったOCR処理について詳しく解説します。

OCRとは

OCR(Optical Character Recognition)は、画像内の文字を認識し、デジタルテキストに変換する技術です。

スキャンした文書や画像ファイルに含まれる文字を読み取り、テキストデータとして抽出することができます。

OCRは、特にスキャンした文書や画像ベースのPDFからテキストを取得する際に非常に有用です。

Tesseractのインストール方法

Tesseractは、オープンソースのOCRエンジンであり、Pythonからも利用することができます。

以下の手順でTesseractをインストールします。

Tesseractのインストール:

Windowsの場合: Tesseractのインストーラーからインストールします。
macOSの場合: Homebrewを使用してインストールします。

     brew install tesseract

Linuxの場合: 以下のコマンドでインストールします。

     sudo apt-get install tesseract-ocr

言語データのインストール:

日本語を使用する場合、追加の言語データをインストールする必要があります。

Linuxの場合、以下のコマンドを実行します。

     sudo apt-get install tesseract-ocr-jpn

pytesseractを使ったOCR処理

pytesseractは、TesseractをPythonから利用するためのラッパーライブラリです。

以下のコマンドでインストールします。

pip install pytesseract

次に、pytesseractを使って画像からテキストを抽出する基本的なサンプルコードを示します。

import pytesseract
from PIL import Image
# 画像ファイルを開く
image = Image.open('sample_image.png')
# OCR処理を行う
text = pytesseract.image_to_string(image, lang='jpn')
print(text)

このコードでは、sample_image.pngという画像ファイルから日本語のテキストを抽出し、表示しています。

OCRを使ったPDFテキスト抽出の手順

OCRを使ってPDFからテキストを抽出する手順は以下の通りです。

PDFを画像に変換する(例: pdf2imageライブラリを使用)
各ページの画像に対してOCR処理を行う
抽出したテキストを結合して出力する

以下は、PDFからテキストを抽出するサンプルコードです。

import pytesseract
from pdf2image import convert_from_path
# PDFを画像に変換
images = convert_from_path('sample.pdf')
# 各ページのテキストを抽出
all_text = ''
for image in images:
    text = pytesseract.image_to_string(image, lang='jpn')
    all_text += text + '\n'
print(all_text)

OCRの精度向上のためのヒント

OCRの精度を向上させるためには、以下のポイントに注意することが重要です。

画像の解像度: 高解像度の画像を使用することで、OCRの精度が向上します。

一般的には300dpi以上が推奨されます。

前処理: 画像のノイズを除去したり、コントラストを調整することで、OCRの精度が向上します。
言語設定: 使用する言語に応じて、適切な言語データを指定することが重要です。

日本語の場合はlang='jpn'を指定します。

フォントの選択: 明瞭なフォントを使用した文書は、OCRの精度が高くなります。

手書きや装飾的なフォントは避けるべきです。

これらのヒントを参考にすることで、OCRを用いたPDFからのテキスト抽出の精度を向上させることができます。

次のセクションでは、PDFから特定の情報を抽出する応用例について解説します。

応用例：PDFから特定の情報を抽出する

PDFから特定の情報を抽出するためには、さまざまな手法を用いることができます。

以下では、正規表現を使ったパターン抽出、表データの抽出、画像の抽出、メタデータの取得方法について詳しく解説します。

正規表現を使った特定のパターン抽出

正規表現を使用することで、特定のパターンにマッチするテキストを抽出することができます。

例えば、メールアドレスや電話番号などの特定の形式を持つデータを抽出する場合に便利です。

以下は、PDFからメールアドレスを抽出するサンプルコードです。

import re
import pdfplumber
# PDFファイルを開く
with pdfplumber.open('sample.pdf') as pdf:
    all_text = ''
    for page in pdf.pages:
        all_text += page.extract_text() + '\n'
# メールアドレスの正規表現パターン
email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
emails = re.findall(email_pattern, all_text)
print(emails)

このコードでは、PDF内の全テキストを結合し、正規表現を使ってメールアドレスを抽出しています。

PDFから表データを抽出する方法

PDF内の表データを抽出するには、pdfplumberを使用するのが効果的です。

以下は、PDFから表データを抽出するサンプルコードです。

import pdfplumber
# PDFファイルを開く
with pdfplumber.open('sample_with_table.pdf') as pdf:
    page = pdf.pages[0]
    # 表を抽出
    table = page.extract_table()
    for row in table:
        print(row)

このコードでは、1ページ目から表データを抽出し、各行を表示しています。

表形式のデータを簡単に取得できるのがpdfplumberの強みです。

PDFから画像を抽出する方法

PDF内に含まれる画像を抽出するには、PyMuPDF(fitz)ライブラリを使用することができます。

以下は、PDFから画像を抽出するサンプルコードです。

import fitz  # PyMuPDF
# PDFファイルを開く
pdf_document = fitz.open('sample.pdf')
for page_number in range(len(pdf_document)):
    page = pdf_document[page_number]
    images = page.get_images(full=True)
    for img_index, img in enumerate(images):
        xref = img[0]
        base_image = pdf_document.extract_image(xref)
        image_bytes = base_image["image"]
        # 画像を保存
        with open(f'image_page{page_number + 1}_{img_index + 1}.png', 'wb') as image_file:
            image_file.write(image_bytes)

このコードでは、PDF内のすべてのページから画像を抽出し、PNG形式で保存しています。

PDFのメタデータを取得する方法

PDFファイルには、作成者やタイトル、作成日などのメタデータが含まれています。

PyPDF2を使用して、これらのメタデータを取得することができます。

以下は、PDFのメタデータを取得するサンプルコードです。

import PyPDF2
# PDFファイルを開く
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    metadata = reader.metadata
    print(metadata)