文字列

[Python] 複数の区切り文字で文字列を分割する方法

2025-01-18更新日: 2025-01-18

Pythonで複数の区切り文字を使って文字列を分割するには、reモジュールの正規表現を使用します。

re.split()関数を使い、区切り文字を|で結合した正規表現パターンを指定することで、複数の区切り文字に対応できます。

例えば、カンマやスペースで分割したい場合、re.split(r'[ ,]', text)のように記述します。

これにより、カンマやスペースのいずれかで文字列を分割できます。

目次から探す

複数の区切り文字を使った文字列分割の基本
re.split()の具体例
応用例
まとめ

複数の区切り文字を使った文字列分割の基本

Pythonでは、文字列を特定の区切り文字で分割するためにsplit()メソッドがよく使われます。

しかし、複数の区切り文字を使用したい場合には、split()メソッドだけでは対応できないことがあります。

ここでは、複数の区切り文字を使った文字列分割の基本について解説します。

split()メソッドの限界

split()メソッドは、指定した区切り文字で文字列を分割しますが、1つの区切り文字しか指定できません。

例えば、カンマやスペースで分割したい場合、以下のように使います。

text = "apple,banana,orange"
result = text.split(",")
print(result)

['apple', 'banana', 'orange']

このように、split()メソッドは単一の区切り文字にしか対応していないため、複数の区切り文字を使いたい場合には他の方法を考える必要があります。

正規表現を使った分割の基本

複数の区切り文字で文字列を分割するためには、正規表現を使用するのが効果的です。

Pythonのreモジュールを使うことで、より柔軟に文字列を分割できます。

正規表現を使うことで、特定のパターンに基づいて文字列を分割することが可能です。

re.split()の使い方

re.split()関数を使用すると、正規表現に基づいて文字列を分割できます。

以下は、カンマとスペースの両方で分割する例です。

import re
text = "apple, banana; orange: grape"
result = re.split(r'[,\s;:]+', text)
print(result)

['apple', 'banana', 'orange', 'grape']

この例では、カンマ、スペース、セミコロン、コロンのいずれかで文字列を分割しています。

[,\s;:]の部分が区切り文字を指定しており、+は1回以上の連続した区切り文字を許可します。

複数の区切り文字を指定する方法

re.split()を使うことで、複数の区切り文字を簡単に指定できます。

正規表現の中で、|(パイプ)を使うことで、複数の選択肢を指定することも可能です。

以下は、カンマまたはセミコロンで分割する例です。

import re
text = "apple,banana;orange"
result = re.split(r'[;,]', text)
print(result)

['apple', 'banana', 'orange']

このように、[;,]を使うことで、カンマまたはセミコロンで分割することができます。

空白や特殊文字を含む場合の注意点

文字列に空白や特殊文字が含まれている場合、分割結果に空の要素が含まれることがあります。

これを避けるためには、分割後にリスト内包表記を使って空の要素を取り除くことができます。

以下はその例です。

import re
text = "apple,, banana; orange: "
result = [item for item in re.split(r'[,\s;:]+', text) if item]
print(result)

['apple', 'banana', 'orange']

このように、if itemを使うことで、空の要素を除外することができます。

re.split()の具体例

re.split()を使用することで、さまざまな条件で文字列を分割することができます。

ここでは、具体的な例を挙げてその使い方を解説します。

カンマとスペースで分割する例

カンマとスペースを区切り文字として使用する場合、以下のようにre.split()を使います。

import re
text = "apple, banana, orange, grape"
result = re.split(r'[,\s]+', text)
print(result)

['apple', 'banana', 'orange', 'grape']

この例では、カンマとスペースのいずれかで文字列を分割しています。

[,\s]+は、カンマまたは空白が1回以上続く部分で分割することを意味します。

タブや改行を含む文字列の分割

タブや改行を含む文字列を分割する場合も、re.split()を使うことができます。

以下の例では、タブ\tと改行\nを区切り文字として使用しています。

import re
text = "apple\tbanana\norange\tgrape"
result = re.split(r'[\t\n]+', text)
print(result)

['apple', 'banana', 'orange', 'grape']

このように、\tや\nを使ってタブや改行で分割することができます。

数字とアルファベットを区切り文字にする例

数字とアルファベットを区切り文字として使用する場合、以下のように正規表現を指定します。

import re
text = "apple1banana2orange3grape"
result = re.split(r'[\d]+', text)
print(result)

['apple', 'banana', 'orange', 'grape']

この例では、数字\dが1回以上続く部分で分割しています。

これにより、数字を区切り文字として扱うことができます。

特定の文字列を区切り文字にする方法

特定の文字列を区切り文字として使用する場合、以下のようにre.split()を使います。

例えば、 and という文字列で分割する場合です。

import re
text = "apple and banana and orange and grape"
result = re.split(r'\s+and\s+', text)
print(result)

['apple', 'banana', 'orange', 'grape']

この例では、andの前後に空白がある場合に分割しています。

\s+は1回以上の空白を意味します。

複数の連続した区切り文字を無視する方法

複数の連続した区切り文字を無視して分割する場合、以下のようにre.split()を使います。

例えば、カンマやスペースが連続している場合です。

import re
text = "apple,, banana; orange:  grape"
result = re.split(r'[,\s;:]+', text)
print(result)

['apple', 'banana', 'orange', 'grape']

この例では、カンマ、スペース、セミコロン、コロンのいずれかが1回以上続く部分で分割しています。

これにより、連続した区切り文字を無視して正しく分割することができます。

応用例

複数の区切り文字を使った文字列分割は、さまざまなデータ処理に応用できます。

ここでは、具体的な応用例をいくつか紹介します。

複数の区切り文字を使ったCSVデータの処理

CSV(カンマ区切り値)データは、カンマで区切られた値を持つテキストファイルです。

しかし、データ内にカンマが含まれる場合や、他の区切り文字が使われることもあります。

以下の例では、カンマとセミコロンを使ってCSVデータを処理します。

import re
csv_data = "name;age;city\nAlice,30,Tokyo\nBob;25;Osaka"
rows = csv_data.split("\n")
result = [re.split(r'[;,]', row) for row in rows]
print(result)

[['name', 'age', 'city'], ['Alice', '30', 'Tokyo'], ['Bob', '25', 'Osaka']]

この例では、行ごとに分割した後、各行をカンマまたはセミコロンで分割しています。

これにより、CSVデータをリスト形式で扱うことができます。

複数の区切り文字を使ったログファイルの解析

ログファイルは、さまざまな情報が区切り文字で分けられていることが多いです。

以下の例では、スペースとコロンを使ってログデータを解析します。

import re
log_data = "2023-10-01 12:00:00: INFO: User logged in\n2023-10-01 12:05:00: ERROR: Invalid password"
lines = log_data.split("\n")
result = [re.split(r'[\s:]+', line) for line in lines]
print(result)

[['2023-10-01', '12', '00', '00', 'INFO', 'User', 'logged', 'in'], ['2023-10-01', '12', '05', '00', 'ERROR', 'Invalid', 'password']]

この例では、各行をスペースまたはコロンで分割し、ログの各要素をリストとして取得しています。

これにより、ログデータを簡単に解析できます。

複数の区切り文字を使ったテキストデータのクリーニング

テキストデータには、不要な空白や特殊文字が含まれていることがあります。

以下の例では、複数の区切り文字を使ってテキストデータをクリーニングします。

import re
text_data = "apple,   banana; orange:  grape,,  "
cleaned_data = re.split(r'[\s,;:]+', text_data.strip())
cleaned_data = [item for item in cleaned_data if item]  # 空の要素を除外
print(cleaned_data)