文字列

[Python] 文字列の改行コードを変換・削除する方法

2025-01-18更新日: 2025-01-18

Pythonで文字列の改行コードを変換・削除するには、replace()メソッドを使用します。

例えば、Windowsの改行コード \r\n をUnixの改行コード \n に変換する場合は、str.replace('\r\n', '\n') を使います。

改行コードを削除するには、str.replace('\n', '') や str.replace('\r\n', '') を使用します。

また、re.sub()を使って正規表現で改行コードを一括処理することも可能です。

目次から探す

Pythonで改行コードを変換する方法
Pythonで改行コードを削除する方法
改行コードの自動検出と変換
応用例
まとめ

Pythonで改行コードを変換する方法

Pythonでは、文字列内の改行コードを簡単に変換することができます。

ここでは、主にreplace()メソッドとre.sub()を使った方法を紹介します。

replace()メソッドを使った変換

replace()メソッドを使用すると、指定した文字列を別の文字列に置き換えることができます。

改行コードの変換にも利用できます。

以下は、\n(LF)を\r\n(CRLF)に変換する例です。

# 改行コードを変換するサンプルコード
original_text = "こんにちは\n世界\nPython"
converted_text = original_text.replace("\n", "\r\n")
print(converted_text)

こんにちは
世界
Python

このコードでは、元のテキスト内のすべての\nが\r\nに置き換えられています。

re.sub()を使った正規表現での変換

reモジュールのsub()関数を使うと、正規表現を用いてより柔軟に改行コードを変換できます。

以下は、\r\nと\nの両方を\nに統一する例です。

import re
# 改行コードを正規表現で変換するサンプルコード
original_text = "こんにちは\r\n世界\nPython"
converted_text = re.sub(r'\r\n|\n', '\n', original_text)
print(converted_text)

こんにちは
世界
Python

このコードでは、\r\nまたは\nのいずれかを\nに置き換えています。

複数の改行コードを一括で変換する方法

複数の改行コードを一度に変換したい場合、re.sub()を使うと便利です。

以下は、\r、\n、および\r\nをすべて\nに変換する例です。

import re
# 複数の改行コードを一括で変換するサンプルコード
original_text = "こんにちは\r世界\nPython\r\nプログラミング"
converted_text = re.sub(r'\r\n|\r|\n', '\n', original_text)
print(converted_text)

こんにちは
世界
Python
プログラミング

このコードでは、すべての改行コードが\nに統一されています。

改行コードを統一する際の注意点

改行コードを統一する際には、以下の点に注意が必要です。

注意点	説明
OSによる違い	Windowsは`\r\n`、Unix系は`\n`を使用するため、環境に応じた処理が必要。
データの整合性	改行コードを変換することで、データの整合性が損なわれないように注意。
文字列のエンコーディング	文字列のエンコーディングによっては、改行コードが異なる場合がある。

これらの点に留意しながら、適切に改行コードを変換することが重要です。

Pythonで改行コードを削除する方法

Pythonでは、文字列内の改行コードを削除することも簡単に行えます。

ここでは、replace()メソッドやre.sub()を使った方法を紹介します。

replace()メソッドを使った削除

replace()メソッドを使用すると、指定した文字列を空文字列に置き換えることで改行コードを削除できます。

以下は、\nを削除する例です。

# 改行コードを削除するサンプルコード
original_text = "こんにちは\n世界\nPython"
removed_newline_text = original_text.replace("\n", "")
print(removed_newline_text)

こんにちは世界Python

このコードでは、元のテキスト内のすべての\nが削除されています。

re.sub()を使った正規表現での削除

reモジュールのsub()関数を使うと、正規表現を用いて改行コードを削除することができます。

以下は、\r\nと\nの両方を削除する例です。

import re
# 改行コードを正規表現で削除するサンプルコード
original_text = "こんにちは\r\n世界\nPython"
removed_newline_text = re.sub(r'\r\n|\n', '', original_text)
print(removed_newline_text)

こんにちは世界Python

このコードでは、\r\nまたは\nのいずれかが削除されています。

空行を削除する方法

空行を削除する場合も、re.sub()を使うと便利です。

以下は、空行を削除する例です。

import re
# 空行を削除するサンプルコード
original_text = "こんにちは\n\n世界\n\nPython\n\n"
removed_empty_lines_text = re.sub(r'\n\s*\n', '\n', original_text)
print(removed_empty_lines_text)

こんにちは
世界
Python

このコードでは、空行が削除され、連続する改行が1つの改行に統一されています。

改行コードを削除する際の注意点

改行コードを削除する際には、以下の点に注意が必要です。

注意点	説明
データの整合性	改行を削除することで、データの意味が変わる可能性があるため注意が必要。
文字列のエンコーディング	文字列のエンコーディングによっては、改行コードが異なる場合がある。
可読性の低下	改行を削除すると、テキストの可読性が低下することがあるため、必要に応じて改行を残すことを検討。

これらの点に留意しながら、適切に改行コードを削除することが重要です。

改行コードの自動検出と変換

Pythonでは、異なるプラットフォームで使用される改行コードを自動的に検出し、適切に変換する方法があります。

ここでは、os.linesepやuniversal_newlinesオプション、newline引数を使った方法を紹介します。

os.linesepを使った自動検出

osモジュールのlinesepを使用すると、現在のプラットフォームで使用される改行コードを自動的に取得できます。

以下は、os.linesepを使って改行コードを表示する例です。

import os
# 現在のプラットフォームの改行コードを取得するサンプルコード
current_newline = os.linesep
print(f"現在のプラットフォームの改行コード: '{current_newline}'")

現在のプラットフォームの改行コード: '(プラットフォームに応じた改行コード)'

このコードを実行すると、使用しているプラットフォームに応じた改行コードが表示されます。

universal_newlinesオプションを使ったファイル操作

ファイルを開く際にuniversal_newlines=Trueを指定すると、Pythonは自動的に改行コードを検出し、すべての改行を\nとして扱います。

以下は、ファイルを読み込む際の例です。

# universal_newlinesオプションを使ったファイル読み込みのサンプルコード
with open('sample.txt', 'r', universal_newlines=True) as file:
    content = file.read()
    print(content)

このコードでは、sample.txtファイルの内容が改行コードを意識せずに読み込まれます。

ファイル内の改行コードは自動的に\nに変換されます。

newline引数を使ったファイル書き込み時の改行コード指定

ファイルに書き込む際にnewline引数を指定することで、使用する改行コードを明示的に設定できます。

以下は、改行コードを\r\nに指定してファイルに書き込む例です。

# newline引数を使ったファイル書き込みのサンプルコード
with open('output.txt', 'w', newline='\r\n') as file:
    file.write("こんにちは\r\n世界\r\nPython")

このコードでは、output.txtファイルに\r\nを使用して書き込まれます。

これにより、Windows環境での互換性が保たれます。

これらの方法を活用することで、異なるプラットフォーム間での改行コードの扱いをスムーズに行うことができます。

応用例

Pythonを使った改行コードの処理は、さまざまな場面で役立ちます。

ここでは、いくつかの応用例を紹介します。

複数行のテキストを一行にまとめる

複数行のテキストを一行にまとめる際には、改行コードを削除することが必要です。

以下は、テキストを一行にまとめる例です。

# 複数行のテキストを一行にまとめるサンプルコード
original_text = """こんにちは
世界
Python"""
single_line_text = original_text.replace("\n", " ")
print(single_line_text)

こんにちは 世界 Python

このコードでは、改行コードをスペースに置き換えて、一行のテキストにまとめています。

異なるOS間でのファイル共有時の改行コード変換

異なるOS間でファイルを共有する際には、改行コードの違いに注意が必要です。

以下は、ファイルを読み込んで改行コードを変換する例です。

import re
# 異なるOS間での改行コード変換のサンプルコード
with open('input.txt', 'r', universal_newlines=True) as file:
    content = file.read()
    converted_content = re.sub(r'\r\n|\n', '\n', content)
with open('output.txt', 'w', newline='\n') as file:
    file.write(converted_content)

このコードでは、input.txtから読み込んだ内容の改行コードを\nに統一し、output.txtに書き込んでいます。

Webスクレイピングで取得したデータの改行コード処理

Webスクレイピングで取得したデータには、さまざまな改行コードが含まれることがあります。

以下は、スクレイピングしたデータの改行コードを処理する例です。

import requests
import re
# Webスクレイピングで取得したデータの改行コード処理のサンプルコード
response = requests.get('https://example.com')
content = response.text
cleaned_content = re.sub(r'\r\n|\n', ' ', content)
print(cleaned_content)

このコードでは、Webページから取得したテキストの改行コードをスペースに置き換えています。

CSVファイルの改行コードを統一する

CSVファイルを扱う際には、改行コードの統一が重要です。

以下は、CSVファイルの改行コードを統一する例です。

import csv
import re
# CSVファイルの改行コードを統一するサンプルコード
with open('input.csv', 'r', newline='') as infile:
    reader = csv.reader(infile)
    rows = [row for row in reader]
with open('output.csv', 'w', newline='\n') as outfile:
    writer = csv.writer(outfile)
    for row in rows:
        cleaned_row = [re.sub(r'\r\n|\n', '', cell) for cell in row]
        writer.writerow(cleaned_row)