【Python】Wordファイルを読み込んで表を抽出する方法

この記事では、Pythonを使ってWordファイルから表を抽出する方法を紹介します。

Python-docxライブラリを使って、Wordファイル内のテキストや表データを取得し、Pandasを活用してデータを加工・保存する方法を学ぶことができます。

目次から探す

Pythonを使ったWordファイルの読み込み

Python-docxライブラリの導入

Python-docxライブラリは、Wordファイルを操作するための便利なライブラリです。

まずはPython-docxライブラリをインストールしましょう。

以下はインストール方法のサンプルコードです。

pip install python-docx

Wordファイルを開いてテキストを取得する

Python-docxライブラリを使用してWordファイルを開き、テキストを取得する方法を示します。

以下のサンプルコードを実行すると、Wordファイル内のテキストが取得されます。

from docx import Document

doc = Document('sample.docx')
text = []
for paragraph in doc.paragraphs:
    text.append(paragraph.text)

print(text)

Wordファイルから表を抽出する

Wordファイルから表を抽出する方法を紹介します。

Python-docxライブラリを使用して表を抽出し、リストや辞書形式でデータを取得することができます。

以下は表を抽出するサンプルコードです。

tables = []
for table in doc.tables:
    table_data = []
    for row in table.rows:
        row_data = []
        for cell in row.cells:
            row_data.append(cell.text)
        table_data.append(row_data)
    tables.append(table_data)

print(tables)

抽出した表データの活用方法

抽出した表データを活用する方法として、データの加工や分析が挙げられます。

Pandasライブラリを使用して、表データをDataFrameに変換し、データの操作や可視化を行うことができます。

Pandasを使って表データをDataFrameに変換する方法

Pandasライブラリを使用して、抽出した表データをDataFrameに変換する方法を示します。

以下のサンプルコードを実行すると、表データがDataFrameに変換されます。

import pandas as pd

df = pd.DataFrame(tables[0][1:], columns=tables[0][0])
print(df)

抽出した表データをCSVファイルに保存する方法

最後に、抽出した表データをCSVファイルに保存する方法を紹介します。

Pandasライブラリを使用してDataFrameをCSVファイルに書き出すことができます。

以下はCSVファイルに保存するサンプルコードです。

df.to_csv('table_data.csv', index=False)

これで、Pythonを使ってWordファイルから表を抽出し、データを活用する方法について理解できました。

目次から探す