[Python] BeautifulSoupでtableから値を取得できない場合の対処法

2025-04-15更新日: 2025-04-15

BeautifulSoupでtableから値を取得できない場合、いくつかの対処法があります。

まず、HTML構造が正しく取得されているか確認します。

print(soup.prettify())でHTMLを確認し、tableタグが存在するかを確認します。

次に、tableがJavaScriptで動的に生成されている場合、BeautifulSoupだけでは取得できないため、Seleniumやrequests-htmlなどのライブラリを使用してページをレンダリングする必要があります。

また、find()やfind_all()で正しいタグやクラス名を指定しているかも確認してください。

目次から探す

BeautifulSoupでtableから値を取得できない原因と対処法
BeautifulSoupでのtable取得の応用例
まとめ

BeautifulSoupでtableから値を取得できない原因と対処法

HTML構造の確認

HTMLが正しく取得されているか確認する方法

まず、指定したURLからHTMLが正しく取得できているかを確認します。

以下のサンプルコードでは、requestsライブラリを使ってHTMLを取得し、内容を表示します。

import requests
url = 'https://example.com'
response = requests.get(url)
# HTMLの内容を表示
print(response.text)

<!DOCTYPE html>
<html>
<head>
    <title>Example Domain</title>
</head>
<body>
    <h1>Example Domain</h1>
    ...
</body>
</html>

tableタグが存在するか確認する方法

取得したHTMLの中にtableタグが存在するかを確認します。

BeautifulSoupを使って、tableタグを探すことができます。

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
table = soup.find('table')
if table:
    print("tableタグが見つかりました。")
else:
    print("tableタグが見つかりませんでした。")

tableタグが見つかりました。

soup.prettify()でHTMLを確認する

prettify()メソッドを使うことで、HTMLを整形して表示できます。

これにより、構造を視覚的に確認しやすくなります。

print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Example Domain
  </title>
 </head>
 <body>
  <h1>
   Example Domain
  </h1>
  ...
 </body>
</html>

タグやクラスの指定ミス

find()やfind_all()の使い方

find()メソッドは最初の一致を、find_all()メソッドはすべての一致を取得します。

正しいメソッドを選択することが重要です。

# 最初のtableを取得
first_table = soup.find('table')
# すべてのtableを取得
all_tables = soup.find_all('table')

タグやクラス名の指定が正しいか確認する

指定したタグやクラス名が正しいかを確認します。

例えば、class属性を持つtableを取得する場合は以下のようにします。

table_with_class = soup.find('table', class_='my-class')

attrsパラメータを使った属性指定

attrsパラメータを使って、特定の属性を持つタグを取得することも可能です。

table_with_attrs = soup.find('table', attrs={'id': 'my-id'})

JavaScriptで動的に生成されるコンテンツ

BeautifulSoupが対応できないケース

BeautifulSoupは静的なHTMLを解析するため、JavaScriptで動的に生成されたコンテンツには対応できません。

この場合、他のライブラリを使用する必要があります。

Seleniumを使った動的コンテンツの取得

Seleniumを使用することで、ブラウザを自動操作し、JavaScriptで生成されたコンテンツを取得できます。

from selenium import webdriver
driver = webdriver.Chrome()
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

requests-htmlを使ったレンダリング

requests-htmlライブラリを使うと、JavaScriptを実行してHTMLを取得できます。

from requests_html import HTMLSession
session = HTMLSession()
response = session.get(url)
response.html.render()
soup = BeautifulSoup(response.html.html, 'html.parser')

ページの遅延読み込みへの対処

time.sleep()で待機時間を設ける

ページの遅延読み込みに対処するために、time.sleep()を使って待機時間を設けることができます。

import time
time.sleep(5)  # 5秒待機

SeleniumのWebDriverWaitを使う方法

SeleniumのWebDriverWaitを使うことで、特定の要素が表示されるまで待機することができます。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, 'table')))

複数のtableが存在する場合

find_all()で複数のtableを取得する

複数のtableが存在する場合、find_all()メソッドを使ってすべてのtableを取得します。

tables = soup.find_all('table')

特定のtableを選択する方法

取得したtableの中から特定のものを選択するには、インデックスを使います。

second_table = tables[1]  # 2番目のtableを取得

tableのidやclassを使った絞り込み

特定のidやclassを持つtableを絞り込むことも可能です。

specific_table = soup.find('table', id='specific-id')

tableの構造が複雑な場合

trやtdタグのネスト構造を解析する

table内のtrやtdタグのネスト構造を解析することで、必要なデータを取得できます。

for row in table.find_all('tr'):
    columns = row.find_all('td')
    for column in columns:
        print(column.text)

forループを使った行・列の取得

forループを使って、行や列のデータを取得することができます。

for row in table.find_all('tr'):
    print([cell.text for cell in row.find_all('td')])

pandasを使ったtableの簡単な解析

pandasを使うことで、tableのデータを簡単に解析し、データフレームとして扱うことができます。

import pandas as pd
data = []
for row in table.find_all('tr'):
    columns = [cell.text for cell in row.find_all('td')]
    data.append(columns)
df = pd.DataFrame(data)
print(df)

0      1      2
0  データ1  データ2  データ3
1  データ4  データ5  データ6

BeautifulSoupでのtable取得の応用例

複数ページにまたがるtableのデータ取得

ページネーションの処理

複数ページにわたるtableのデータを取得するためには、ページネーションを処理する必要があります。

通常、ページ番号をURLに含めることで、次のページにアクセスできます。

以下のサンプルコードでは、ページ番号を変えながらデータを取得します。

import requests
from bs4 import BeautifulSoup
base_url = 'https://example.com/page='
data = []
for page in range(1, 6):  # 1ページ目から5ページ目まで
    response = requests.get(base_url + str(page))
    soup = BeautifulSoup(response.text, 'html.parser')
    table = soup.find('table')
    for row in table.find_all('tr'):
        columns = [cell.text for cell in row.find_all('td')]
        data.append(columns)
print(data)

requestsで複数ページをクロールする

requestsを使って、複数ページをクロールする際は、URLの構造を理解し、ループを使って各ページにアクセスします。

上記のコード例で示したように、ページ番号を動的に変更することで、各ページのデータを取得できます。

tableのデータをCSVに保存する

csvモジュールを使った保存方法

Pythonの標準ライブラリであるcsvモジュールを使って、取得したtableのデータをCSVファイルに保存することができます。

import csv
with open('table_data.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerows(data)  # 取得したデータを行単位で書き込む

このコードでは、dataリストに格納された行データをCSVファイルに書き込んでいます。

pandasを使ったCSV出力

pandasライブラリを使うと、データフレームとして簡単にCSVファイルに出力できます。

import pandas as pd
df = pd.DataFrame(data)
df.to_csv('table_data.csv', index=False, encoding='utf-8')

この方法では、pandasのDataFrameを使って、データをCSV形式で保存します。

index=Falseを指定することで、インデックスをファイルに含めないようにしています。

tableのデータをデータベースに保存する

sqlite3を使ったデータベース保存

Pythonの標準ライブラリであるsqlite3を使って、取得したtableのデータをSQLiteデータベースに保存することができます。

import sqlite3
# データベースに接続(なければ作成)
conn = sqlite3.connect('table_data.db')
cursor = conn.cursor()
# テーブルの作成
cursor.execute('CREATE TABLE IF NOT EXISTS table_data (column1 TEXT, column2 TEXT, column3 TEXT)')
# データの挿入
cursor.executemany('INSERT INTO table_data (column1, column2, column3) VALUES (?, ?, ?)', data)
# 変更を保存して接続を閉じる
conn.commit()
conn.close()

このコードでは、table_dataというテーブルを作成し、取得したデータを挿入しています。

SQLAlchemyを使ったORMでの保存

SQLAlchemyを使うことで、オブジェクトリレーショナルマッピング(ORM)を利用してデータベースにデータを保存できます。

from sqlalchemy import create_engine, Column, String
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
Base = declarative_base()
class TableData(Base):
    __tablename__ = 'table_data'
    column1 = Column(String)
    column2 = Column(String)
    column3 = Column(String)
# データベースに接続
engine = create_engine('sqlite:///table_data.db')
Base.metadata.create_all(engine)
Session = sessionmaker(bind=engine)
session = Session()
# データの挿入
for row in data:
    table_data = TableData(column1=row[0], column2=row[1], column3=row[2])
    session.add(table_data)
session.commit()
session.close()

このコードでは、SQLAlchemyを使ってデータベースに接続し、TableDataクラスを通じてデータを挿入しています。

ORMを使用することで、SQL文を直接書かずにデータベース操作が可能になります。