[Python] XMLの改行を削除する方法

2025-04-14更新日: 2025-04-14

PythonでXMLデータから改行を削除するには、標準ライブラリのxml.etree.ElementTreeを使用する方法があります。

XMLデータをパースした後、ElementTreeオブジェクトを文字列に変換し、replace()メソッドを用いて改行文字を削除します。

また、正規表現を使用することで、より柔軟に改行や空白を削除することも可能です。

これにより、XMLデータを一行にまとめて処理することができます。

目次から探す

PythonでXMLの改行を削除する方法
実践例：XMLの改行削除
応用例
まとめ

PythonでXMLの改行を削除する方法

改行を削除する理由

XMLデータを扱う際、改行や空白は人間にとっては読みやすさを向上させますが、プログラムによる処理では不要な場合があります。

特に、データの解析や変換を行う際には、改行があると余計なノードとして扱われることがあり、処理の効率を下げる原因となります。

そのため、改行を削除してデータをクリーンに保つことが重要です。

Python標準ライブラリを使った方法

xml.etree.ElementTreeの使用

xml.etree.ElementTreeはPythonの標準ライブラリで、XMLデータを扱うための基本的な機能を提供します。

改行を削除するには、XMLをパースしてからテキストノードを結合する方法があります。

import xml.etree.ElementTree as ET
# サンプルXMLデータ
xml_data = """<root>
    <child>データ1</child>
    <child>データ2</child>
</root>"""
# XMLをパース
tree = ET.ElementTree(ET.fromstring(xml_data))
root = tree.getroot()
# 改行を削除
for elem in root.iter():
    if elem.text:
        elem.text = elem.text.strip()
# 結果を出力
ET.dump(root)

<root><child>データ1</child><child>データ2</child></root>

このコードでは、XMLの各要素を反復処理し、テキストノードの前後の空白を削除しています。

minidomの使用

minidomは、XMLを扱うためのもう一つの標準ライブラリです。

こちらも改行を削除するために使用できます。

from xml.dom import minidom
# サンプルXMLデータ
xml_data = """<root>
    <child>データ1</child>
    <child>データ2</child>
</root>"""
# XMLをパース
dom = minidom.parseString(xml_data)
# 改行を削除
for node in dom.childNodes:
    if node.nodeType == node.TEXT_NODE:
        node.data = node.data.strip()
# 結果を出力
print(dom.toxml())

<?xml version="1.0" ?><root><child>データ1</child><child>データ2</child></root>

このコードでは、minidomを使ってXMLをパースし、テキストノードのデータをトリムしています。

外部ライブラリを使った方法

lxmlの使用

lxmlは、XMLおよびHTMLを効率的に処理するための強力なライブラリです。

改行を削除するのにも適しています。

from lxml import etree
# サンプルXMLデータ
xml_data = """<root>
    <child>データ1</child>
    <child>データ2</child>
</root>"""
# XMLをパース
root = etree.fromstring(xml_data)
# 改行を削除
for elem in root.iter():
    if elem.text:
        elem.text = elem.text.strip()
# 結果を出力
print(etree.tostring(root, pretty_print=False).decode())

<root><child>データ1</child><child>データ2</child></root>

lxmlを使用することで、より高速かつ柔軟にXMLデータを操作できます。

BeautifulSoupの使用

BeautifulSoupは、HTMLやXMLをパースするためのライブラリで、特にデータのスクレイピングに便利です。

改行を削除することも可能です。

from bs4 import BeautifulSoup
# サンプルXMLデータ
xml_data = """<root>
    <child>データ1</child>
    <child>データ2</child>
</root>"""
# XMLをパース
soup = BeautifulSoup(xml_data, "xml")
# 改行を削除
for elem in soup.find_all(text=True):
    elem.replace_with(elem.strip())
# 結果を出力
print(soup.prettify())

<?xml version="1.0" encoding="utf-8"?>
<root>
 <child>
  データ1
 </child>
 <child>
  データ2
 </child>
</root>

BeautifulSoupは、XMLの構造を保ちながらテキストノードを簡単に操作できるため、改行の削除にも適しています。

実践例：XMLの改行削除

サンプルXMLデータの準備

まずは、改行を含むサンプルXMLデータを用意します。

このデータを使って、さまざまな方法で改行を削除する実装を行います。

<root>
    <item>
        <name>商品A</name>
        <price>1000</price>
    </item>
    <item>
        <name>商品B</name>
        <price>2000</price>
    </item>
</root>

このXMLデータには、商品名と価格が含まれています。

各要素の間に改行が含まれており、これを削除することを目指します。

xml.etree.ElementTreeを使った改行削除の実装

xml.etree.ElementTreeを使用して、XMLデータから改行を削除する方法を示します。

import xml.etree.ElementTree as ET
# サンプルXMLデータ
xml_data = """<root>
    <item>
        <name>商品A</name>
        <price>1000</price>
    </item>
    <item>
        <name>商品B</name>
        <price>2000</price>
    </item>
</root>"""
# XMLをパース
tree = ET.ElementTree(ET.fromstring(xml_data))
root = tree.getroot()
# 改行を削除
for elem in root.iter():
    if elem.text:
        elem.text = elem.text.strip()
# 結果を出力
ET.dump(root)

<root><item><name>商品A</name><price>1000</price></item><item><name>商品B</name><price>2000</price></item></root>

このコードでは、ElementTreeを使ってXMLをパースし、各要素のテキストノードから改行を削除しています。

lxmlを使った改行削除の実装

次に、lxmlを使用して同様の処理を行います。

from lxml import etree
# サンプルXMLデータ
xml_data = """<root>
    <item>
        <name>商品A</name>
        <price>1000</price>
    </item>
    <item>
        <name>商品B</name>
        <price>2000</price>
    </item>
</root>"""
# XMLをパース
root = etree.fromstring(xml_data)
# 改行を削除
for elem in root.iter():
    if elem.text:
        elem.text = elem.text.strip()
# 結果を出力
print(etree.tostring(root, pretty_print=False).decode())

<root><item><name>商品A</name><price>1000</price></item><item><name>商品B</name><price>2000</price></item></root>

lxmlを使用することで、より効率的にXMLデータを操作し、改行を削除することができます。

BeautifulSoupを使った改行削除の実装

最後に、BeautifulSoupを使って改行を削除する方法を示します。

from bs4 import BeautifulSoup
# サンプルXMLデータ
xml_data = """<root>
    <item>
        <name>商品A</name>
        <price>1000</price>
    </item>
    <item>
        <name>商品B</name>
        <price>2000</price>
    </item>
</root>"""
# XMLをパース
soup = BeautifulSoup(xml_data, "xml")
# 改行を削除
for elem in soup.find_all(text=True):
    elem.replace_with(elem.strip())
# 結果を出力
print(soup.prettify())

<?xml version="1.0" encoding="utf-8"?>
<root>
 <item>
  <name>商品A</name>
  <price>1000</price>
 </item>
 <item>
  <name>商品B</name>
  <price>2000</price>
 </item>
</root>

BeautifulSoupを使うことで、XMLの構造を保ちながらテキストノードを簡単に操作し、改行を削除することができます。

応用例

XMLデータの整形とフォーマット

XMLデータの整形とフォーマットは、データの可読性を向上させるために重要です。

特に、データを人間が確認する必要がある場合や、他のシステムとデータをやり取りする際に役立ちます。

以下に、lxmlを使用してXMLデータを整形する方法を示します。

from lxml import etree
# サンプルXMLデータ
xml_data = """<root><item><name>商品A</name><price>1000</price></item><item><name>商品B</name><price>2000</price></item></root>"""
# XMLをパース
root = etree.fromstring(xml_data)
# 整形して出力
print(etree.tostring(root, pretty_print=True, encoding='unicode'))

<root>
  <item>
    <name>商品A</name>
    <price>1000</price>
  </item>
  <item>
    <name>商品B</name>
    <price>2000</price>
  </item>
</root>

このコードでは、pretty_print=Trueを指定することで、XMLデータをインデント付きで整形して出力しています。

XMLから特定の要素を抽出する

XMLデータから特定の要素を抽出することは、データ解析やフィルタリングにおいて非常に有用です。

以下に、xml.etree.ElementTreeを使用して特定の要素を抽出する方法を示します。

import xml.etree.ElementTree as ET
# サンプルXMLデータ
xml_data = """<root>
    <item>
        <name>商品A</name>
        <price>1000</price>
    </item>
    <item>
        <name>商品B</name>
        <price>2000</price>
    </item>
</root>"""
# XMLをパース
tree = ET.ElementTree(ET.fromstring(xml_data))
root = tree.getroot()
# 特定の要素を抽出
for item in root.findall('item'):
    name = item.find('name').text
    price = item.find('price').text
    print(f"商品名: {name}, 価格: {price}")

商品名: 商品A, 価格: 1000
商品名: 商品B, 価格: 2000

このコードでは、findallメソッドを使ってitem要素を抽出し、その中のnameとprice要素のテキストを取得しています。

XMLデータの変換と保存

XMLデータを他の形式に変換したり、ファイルに保存することは、データの再利用やバックアップにおいて重要です。

以下に、lxmlを使用してXMLデータをファイルに保存する方法を示します。

from lxml import etree
# サンプルXMLデータ
xml_data = """<root>
    <item>
        <name>商品A</name>
        <price>1000</price>
    </item>
    <item>
        <name>商品B</name>
        <price>2000</price>
    </item>
</root>"""
# XMLをパース
root = etree.fromstring(xml_data)
# ファイルに保存
with open("output.xml", "wb") as file:
    file.write(etree.tostring(root, pretty_print=True, xml_declaration=True, encoding='UTF-8'))

このコードでは、XMLデータを整形してoutput.xmlというファイルに保存しています。

xml_declaration=Trueを指定することで、XML宣言を含めて保存しています。

これにより、他のシステムでのデータの読み込みが容易になります。