この記事では、Pythonを使用してWordファイルを読み込む方法やテキストデータの処理方法、画像や表の取得方法を解説します。
Pythonを使ってWordファイルの中身を取得したり、テキストデータを解析したりする方法がわかります。
初心者の方でも分かりやすく解説していますので、ぜひ参考にしてみてください。
目次から探す
Wordファイルの読み込み方法
Wordファイルを開く方法
Pythonのpython-docx
ライブラリを使用すると、Wordファイルを簡単に開くことができます。
以下は、Wordファイルを開いて中身を表示するサンプルコードです。
from docx import Document
# Wordファイルを開く
doc = Document('sample.docx')
# テキストを表示
for paragraph in doc.paragraphs:
print(paragraph.text)
テキストの抽出方法
Wordファイルからテキストを抽出する方法も簡単です。
以下のサンプルコードでは、Wordファイルからテキストを抽出して表示しています。
from docx import Document
# Wordファイルを開く
doc = Document('sample.docx')
# テキストを抽出して表示
text = ''
for paragraph in doc.paragraphs:
text += paragraph.text + '\n'
print(text)
画像や表の取得方法
Wordファイルから画像や表を取得する方法もあります。
python-docx
ライブラリを使用して、画像や表を取得することができます。
以下は、画像を取得して保存するサンプルコードです。
from docx import Document
# Wordファイルを開く
doc = Document('sample.docx')
# 画像を取得して保存
for image in doc.inline_shapes:
image.save('image.png')
これらのサンプルコードを参考にして、PythonでWordファイルを読み込む方法を実践してみてください。
次のページテキストや画像の処理方法