この記事では、Pythonを使ってWordファイルから表を抽出する方法を紹介します。
Python-docxライブラリ
を使って、Wordファイル内のテキストや表データを取得し、Pandasを活用してデータを加工・保存する方法を学ぶことができます。
目次から探す
Pythonを使ったWordファイルの読み込み
Python-docxライブラリの導入
Python-docxライブラリ
は、Wordファイルを操作するための便利なライブラリです。
まずはPython-docxライブラリ
をインストールしましょう。
以下はインストール方法のサンプルコードです。
pip install python-docx
Wordファイルを開いてテキストを取得する
Python-docxライブラリ
を使用してWordファイルを開き、テキストを取得する方法を示します。
以下のサンプルコードを実行すると、Wordファイル内のテキストが取得されます。
from docx import Document
doc = Document('sample.docx')
text = []
for paragraph in doc.paragraphs:
text.append(paragraph.text)
print(text)
Wordファイルから表を抽出する
Wordファイルから表を抽出する方法を紹介します。
Python-docxライブラリ
を使用して表を抽出し、リストや辞書形式でデータを取得することができます。
以下は表を抽出するサンプルコードです。
tables = []
for table in doc.tables:
table_data = []
for row in table.rows:
row_data = []
for cell in row.cells:
row_data.append(cell.text)
table_data.append(row_data)
tables.append(table_data)
print(tables)
抽出した表データの活用方法
抽出した表データを活用する方法として、データの加工や分析が挙げられます。
Pandasライブラリ
を使用して、表データをDataFrameに変換し、データの操作や可視化を行うことができます。
Pandasを使って表データをDataFrameに変換する方法
Pandasライブラリ
を使用して、抽出した表データをDataFrameに変換する方法を示します。
以下のサンプルコードを実行すると、表データがDataFrameに変換されます。
import pandas as pd
df = pd.DataFrame(tables[0][1:], columns=tables[0][0])
print(df)
抽出した表データをCSVファイルに保存する方法
最後に、抽出した表データをCSVファイルに保存する方法を紹介します。
Pandasライブラリ
を使用してDataFrameをCSVファイルに書き出すことができます。
以下はCSVファイルに保存するサンプルコードです。
df.to_csv('table_data.csv', index=False)
これで、Pythonを使ってWordファイルから表を抽出し、データを活用する方法について理解できました。