ファイル

[Python] XMLをパースする方法

2025-04-14更新日: 2025-04-14

PythonでXMLをパースするには、標準ライブラリのxml.etree.ElementTreeモジュールを使用するのが一般的です。

このモジュールは、XMLファイルを読み込み、ツリー構造としてデータを操作するための便利なメソッドを提供します。

例えば、ElementTree.parse()メソッドを使ってXMLファイルを読み込み、find()やfindall()メソッドで特定の要素を検索することができます。

また、lxmlライブラリを使用することで、より高速で機能豊富なXMLパースが可能です。

目次から探す

PythonでXMLを扱うためのライブラリ
xml.etree.ElementTreeを使ったXMLパース
lxmlを使ったXMLパース
xml.dom.minidomを使ったXMLパース
BeautifulSoupによるXMLパース
応用例
まとめ

PythonでXMLを扱うためのライブラリ

PythonでXMLを扱う際には、いくつかの便利なライブラリがあります。

それぞれのライブラリには特徴があり、用途に応じて使い分けることができます。

ここでは、代表的なライブラリについて概要とインストール方法を紹介します。

標準ライブラリのxml.etree.ElementTree

xml.etree.ElementTreeは、Pythonの標準ライブラリに含まれているXMLパース用のモジュールです。

軽量で使いやすく、基本的なXML操作に適しています。

特徴: シンプルで軽量、標準ライブラリのため追加インストール不要
用途: 小規模なXMLデータの読み書きや解析

lxmlライブラリ

lxmlは、XMLとHTMLの処理に特化した強力なライブラリです。

XPathやXSLTをサポートしており、高度なXML操作が可能です。

特徴: 高速で強力、XPathやXSLTをサポート
用途: 大規模なXMLデータの処理や複雑なXML操作

インストール方法:

pip install lxml

xml.dom.minidomライブラリ

xml.dom.minidomは、DOM(Document Object Model)を用いてXMLを操作するための標準ライブラリです。

XMLをツリー構造として扱うことができ、ノード単位での操作が可能です。

特徴: DOMを用いたツリー構造の操作が可能
用途: XML文書の詳細な操作や解析

BeautifulSoupによるXMLパース

BeautifulSoupは、HTMLやXMLのパースに広く使われるライブラリです。

特にWebスクレイピングで人気がありますが、XMLの解析にも利用できます。

特徴: 簡単なAPI、HTML/XMLのパースに強い
用途: WebスクレイピングやXMLデータの簡易解析

インストール方法:

pip install beautifulsoup4

これらのライブラリを活用することで、PythonでのXML操作がより効率的になります。

次のセクションでは、それぞれのライブラリを使った具体的なXMLパース方法について詳しく解説します。

xml.etree.ElementTreeを使ったXMLパース

xml.etree.ElementTreeは、Pythonの標準ライブラリに含まれているXMLパース用のモジュールで、シンプルで軽量なXML操作を可能にします。

ここでは、ElementTreeを使った基本的なXMLパースの方法を紹介します。

ElementTreeの基本的な使い方

ElementTreeは、XMLをツリー構造として扱うことができ、要素の追加や削除、属性の操作などが簡単に行えます。

以下は、ElementTreeの基本的な使い方の例です。

import xml.etree.ElementTree as ET
# XML文字列をパースしてElementTreeオブジェクトを作成
xml_data = '''<data>
    <item name="item1">Value1</item>
    <item name="item2">Value2</item>
</data>'''
root = ET.fromstring(xml_data)
# ルート要素のタグを表示
print(root.tag)

data

このコードでは、XML文字列をパースしてルート要素のタグを取得しています。

XMLファイルの読み込みと解析

XMLファイルを読み込んで解析するには、parseメソッドを使用します。

以下は、XMLファイルを読み込む例です。

import xml.etree.ElementTree as ET
# XMLファイルをパース
tree = ET.parse('example.xml')
root = tree.getroot()
# ルート要素のタグを表示
print(root.tag)

このコードでは、example.xmlというファイルを読み込み、ルート要素のタグを取得しています。

XML要素の検索と操作

ElementTreeを使うと、XML要素を簡単に検索して操作することができます。

以下は、要素を検索してその値を取得する例です。

import xml.etree.ElementTree as ET
# XML文字列をパース
xml_data = '''<data>
    <item name="item1">Value1</item>
    <item name="item2">Value2</item>
</data>'''
root = ET.fromstring(xml_data)
# 特定の要素を検索して値を表示
for item in root.findall('item'):
    name = item.get('name')
    value = item.text
    print(f'Name: {name}, Value: {value}')

Name: item1, Value: Value1
Name: item2, Value: Value2

このコードでは、item要素を検索し、その属性とテキストを表示しています。

XMLの書き込みと保存

XMLデータをファイルに書き込むには、ElementTreeオブジェクトのwriteメソッドを使用します。

以下は、XMLデータをファイルに保存する例です。

import xml.etree.ElementTree as ET
# 新しいXMLデータを作成
root = ET.Element('data')
item1 = ET.SubElement(root, 'item', name='item1')
item1.text = 'Value1'
item2 = ET.SubElement(root, 'item', name='item2')
item2.text = 'Value2'
# ElementTreeオブジェクトを作成してファイルに書き込む
tree = ET.ElementTree(root)
tree.write('output.xml', encoding='utf-8', xml_declaration=True)

このコードでは、新しいXMLデータを作成し、output.xmlというファイルに保存しています。

encodingとxml_declarationを指定することで、XML宣言を含めたファイルを生成できます。

lxmlを使ったXMLパース

lxmlは、PythonでXMLやHTMLを処理するための強力なライブラリです。

XPathやXSLTをサポートしており、複雑なXML操作を効率的に行うことができます。

ここでは、lxmlを使ったXMLパースの方法を紹介します。

lxmlのインストール方法

lxmlは、Pythonの標準ライブラリではないため、インストールが必要です。

以下のコマンドを使用してインストールします。

pip install lxml

このコマンドを実行することで、lxmlライブラリがインストールされ、Pythonで使用できるようになります。

lxmlの基本的な使い方

lxmlを使うと、XMLデータを簡単にパースして操作することができます。

以下は、lxmlを使った基本的なXMLパースの例です。

from lxml import etree
# XML文字列をパース
xml_data = '''<data>
    <item name="item1">Value1</item>
    <item name="item2">Value2</item>
</data>'''
root = etree.fromstring(xml_data)
# ルート要素のタグを表示
print(root.tag)

data

このコードでは、XML文字列をパースしてルート要素のタグを取得しています。

XPathを用いたXML要素の検索

lxmlは、XPathを用いたXML要素の検索をサポートしています。

XPathを使うことで、複雑な条件で要素を検索することができます。

以下は、XPathを用いた要素の検索例です。

from lxml import etree
# XML文字列をパース
xml_data = '''<data>
    <item name="item1">Value1</item>
    <item name="item2">Value2</item>
</data>'''
root = etree.fromstring(xml_data)
# XPathを用いて特定の要素を検索
items = root.xpath('//item[@name="item1"]')
for item in items:
    print(item.text)

Value1

このコードでは、name属性がitem1のitem要素をXPathで検索し、そのテキストを表示しています。

XMLのバリデーション

lxmlは、XMLのバリデーションを行うための機能も提供しています。

XMLスキーマを使用して、XMLデータが正しい形式であるかを検証することができます。

以下は、XMLスキーマを用いたバリデーションの例です。

from lxml import etree
# XMLスキーマの定義
xml_schema = '''<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
    <xs:element name="data">
        <xs:complexType>
            <xs:sequence>
                <xs:element name="item" maxOccurs="unbounded">
                    <xs:complexType>
                        <xs:simpleContent>
                            <xs:extension base="xs:string">
                                <xs:attribute name="name" type="xs:string" use="required"/>
                            </xs:extension>
                        </xs:simpleContent>
                    </xs:complexType>
                </xs:element>
            </xs:sequence>
        </xs:complexType>
    </xs:element>
</xs:schema>'''
# XMLデータ
xml_data = '''<data>
    <item name="item1">Value1</item>
    <item name="item2">Value2</item>
</data>'''
# スキーマをパース
schema_root = etree.XML(xml_schema)
schema = etree.XMLSchema(schema_root)
# XMLデータをパース
xml_root = etree.fromstring(xml_data)
# バリデーションを実行
is_valid = schema.validate(xml_root)
print(f'XML is valid: {is_valid}')

XML is valid: True

このコードでは、XMLスキーマを定義し、それに基づいてXMLデータが正しい形式であるかを検証しています。

バリデーションが成功すると、Trueが返されます。

xml.dom.minidomを使ったXMLパース

xml.dom.minidomは、Pythonの標準ライブラリに含まれているモジュールで、DOM(Document Object Model)を用いてXMLを操作するためのツールです。

XMLをツリー構造として扱い、ノード単位での操作が可能です。

ここでは、minidomを使ったXMLパースの方法を紹介します。

minidomの基本的な使い方

xml.dom.minidomを使うと、XMLデータをDOMツリーとしてパースし、ノードを操作することができます。

以下は、minidomを使った基本的なXMLパースの例です。

from xml.dom import minidom
# XML文字列をパース
xml_data = '''<data>
    <item name="item1">Value1</item>
    <item name="item2">Value2</item>
</data>'''
dom = minidom.parseString(xml_data)
# ルート要素のタグを表示
print(dom.documentElement.tagName)

data

このコードでは、XML文字列をパースしてルート要素のタグを取得しています。

DOMツリーの操作

DOMツリーを操作することで、XML要素の追加、削除、変更が可能です。

以下は、DOMツリーを操作して要素を取得する例です。

from xml.dom import minidom
# XML文字列をパース
xml_data = '''<data>
    <item name="item1">Value1</item>
    <item name="item2">Value2</item>
</data>'''
dom = minidom.parseString(xml_data)
# 特定の要素を取得して表示
items = dom.getElementsByTagName('item')
for item in items:
    name = item.getAttribute('name')
    value = item.firstChild.nodeValue
    print(f'Name: {name}, Value: {value}')

Name: item1, Value: Value1
Name: item2, Value: Value2

このコードでは、item要素を取得し、その属性とテキストを表示しています。

XMLの整形と出力

xml.dom.minidomを使うと、XMLデータを整形して出力することができます。

以下は、XMLデータを整形して出力する例です。

from xml.dom import minidom
# XML文字列をパース
xml_data = '''<data><item name="item1">Value1</item><item name="item2">Value2</item></data>'''
dom = minidom.parseString(xml_data)
# 整形してXMLを出力
pretty_xml = dom.toprettyxml(indent="  ")
print(pretty_xml)

<?xml version="1.0" ?>
<data>
  <item name="item1">Value1</item>
  <item name="item2">Value2</item>
</data>

このコードでは、toprettyxmlメソッドを使用してXMLデータを整形し、インデントを付けて出力しています。

これにより、XMLが読みやすくなります。

BeautifulSoupによるXMLパース

BeautifulSoupは、HTMLやXMLのパースに広く使われるライブラリで、特にWebスクレイピングで人気があります。

シンプルなAPIでXMLを解析し、要素を検索・抽出することができます。

ここでは、BeautifulSoupを使ったXMLパースの方法を紹介します。

BeautifulSoupのインストール方法

BeautifulSoupは、Pythonの標準ライブラリではないため、インストールが必要です。

以下のコマンドを使用してインストールします。

pip install beautifulsoup4

このコマンドを実行することで、BeautifulSoupライブラリがインストールされ、Pythonで使用できるようになります。

BeautifulSoupでのXML解析

BeautifulSoupを使うと、XMLデータを簡単に解析することができます。

以下は、BeautifulSoupを使った基本的なXML解析の例です。

from bs4 import BeautifulSoup
# XML文字列をパース
xml_data = '''<data>
    <item name="item1">Value1</item>
    <item name="item2">Value2</item>
</data>'''
soup = BeautifulSoup(xml_data, 'xml')
# ルート要素のタグを表示
print(soup.data.name)

data

このコードでは、XML文字列をパースしてルート要素のタグを取得しています。

XML要素の検索と抽出

BeautifulSoupを使うと、XML要素を簡単に検索して抽出することができます。

以下は、要素を検索してその値を取得する例です。

from bs4 import BeautifulSoup
# XML文字列をパース
xml_data = '''<data>
    <item name="item1">Value1</item>
    <item name="item2">Value2</item>
</data>'''
soup = BeautifulSoup(xml_data, 'xml')
# 特定の要素を検索して値を表示
items = soup.find_all('item')
for item in items:
    name = item['name']
    value = item.string
    print(f'Name: {name}, Value: {value}')

Name: item1, Value: Value1
Name: item2, Value: Value2

このコードでは、item要素を検索し、その属性とテキストを表示しています。

BeautifulSoupの利点と制限

BeautifulSoupにはいくつかの利点と制限があります。

以下にそれらをまとめます。

利点	制限
簡単なAPIで使いやすい	大規模なXMLデータの処理には不向き
HTMLとXMLの両方を解析可能	XPathのサポートがない
柔軟な検索機能	パフォーマンスが他のライブラリに劣る場合がある

BeautifulSoupは、簡単なXML解析やWebスクレイピングに非常に便利ですが、パフォーマンスが重要な場合やXPathを使用したい場合には、他のライブラリを検討することをお勧めします。

応用例

XMLは、データの構造化や交換に広く利用されており、さまざまな応用が可能です。

ここでは、XMLを用いたデータ変換、Webスクレイピング、設定ファイルの管理について紹介します。

XMLを用いたデータ変換

XMLは、異なるシステム間でデータを交換する際に便利なフォーマットです。

データ変換のプロセスでは、XMLを中間フォーマットとして使用することができます。

以下は、PythonでXMLを用いてデータを変換する例です。

import xml.etree.ElementTree as ET
# CSVデータをXMLに変換
csv_data = "name,age\nAlice,30\nBob,25"
lines = csv_data.splitlines()
headers = lines[0].split(',')
root = ET.Element('people')
for line in lines[1:]:
    person = ET.SubElement(root, 'person')
    values = line.split(',')
    for header, value in zip(headers, values):
        ET.SubElement(person, header).text = value
tree = ET.ElementTree(root)
tree.write('people.xml', encoding='utf-8', xml_declaration=True)

このコードでは、CSV形式のデータをXMLに変換し、people.xmlというファイルに保存しています。

WebスクレイピングでのXML利用

Webスクレイピングでは、XML形式のデータを取得して解析することがよくあります。

特に、RSSフィードやAPIのレスポンスがXMLで提供される場合に有用です。

以下は、PythonでXMLを用いたWebスクレイピングの例です。

import requests
from bs4 import BeautifulSoup
# RSSフィードを取得
url = 'https://example.com/rss'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'xml')
# 記事のタイトルを抽出
titles = soup.find_all('title')
for title in titles:
    print(title.string)

このコードでは、指定したURLのRSSフィードを取得し、記事のタイトルを抽出しています。

XMLを用いた設定ファイルの管理

XMLは、設定ファイルとしても利用されることがあります。

階層構造を持つ設定を扱うのに適しており、読みやすく編集しやすい形式です。

以下は、XMLを用いた設定ファイルの管理の例です。

import xml.etree.ElementTree as ET
# 設定ファイルを読み込む
tree = ET.parse('config.xml')
root = tree.getroot()
# 設定値を取得
database = root.find('database').text
username = root.find('username').text
password = root.find('password').text
print(f'Database: {database}, Username: {username}, Password: {password}')

このコードでは、config.xmlという設定ファイルを読み込み、データベースの設定値を取得しています。

XMLを用いることで、設定の階層構造を簡単に表現できます。