アーカイブ

[Python] gzip圧縮されたテキストファイルを1行ずつ読み込む方法

2025-04-15更新日: 2025-04-15

Pythonでは、gzip圧縮されたテキストファイルを1行ずつ読み込むために、gzipモジュールを使用します。

このモジュールは、open関数を提供し、gzip形式のファイルを開くことができます。

ファイルを開いた後、通常のテキストファイルと同様にreadlineやreadlinesメソッドを使用して1行ずつ読み込むことが可能です。

これにより、メモリ効率を考慮しながら大きなファイルを処理することができます。

目次から探す

gzip圧縮されたテキストファイルを読み込む準備
gzip圧縮されたテキストファイルを1行ずつ読み込む方法
実践例
応用例
まとめ

gzip圧縮されたテキストファイルを読み込む準備

必要なライブラリのインポート

gzip圧縮されたファイルを扱うためには、Pythonの標準ライブラリであるgzipをインポートする必要があります。

また、ファイル操作のためにosライブラリも使用します。

以下のコードを実行して、必要なライブラリをインポートします。

import gzip
import os

サンプルデータの準備

gzip圧縮されたテキストファイルを作成するために、まずはサンプルデータを用意します。

ここでは、簡単なテキストデータを含むファイルを作成します。

以下のコードを実行して、サンプルデータを含むテキストファイルを作成します。

# サンプルデータを含むテキストファイルを作成
sample_data = """これはサンプルデータです。
gzip圧縮されたテキストファイルを読み込むための準備をしています。
Pythonを使って、1行ずつ読み込むことができます。"""
with open('sample.txt', 'w', encoding='utf-8') as f:
    f.write(sample_data)

gzipファイルの作成方法

次に、作成したテキストファイルをgzip形式で圧縮します。

以下のコードを実行して、sample.txtをsample.txt.gzという名前のgzipファイルに圧縮します。

# テキストファイルをgzip形式で圧縮
with open('sample.txt', 'rb') as f_in:
    with gzip.open('sample.txt.gz', 'wb') as f_out:
        f_out.writelines(f_in)

このコードを実行すると、sample.txt.gzというgzip圧縮ファイルが作成されます。

これで、gzip圧縮されたテキストファイルを読み込む準備が整いました。

gzip圧縮されたテキストファイルを1行ずつ読み込む方法

gzip.open()関数の使い方

gzip.open()関数は、gzip圧縮されたファイルを開くための関数です。

この関数を使用することで、圧縮されたファイルを直接読み込むことができます。

以下のコードは、gzip.open()関数の基本的な使い方を示しています。

import gzip
# gzipファイルを開く
with gzip.open('sample.txt.gz', 'rt', encoding='utf-8') as f:
    content = f.read()
    print(content)

このコードを実行すると、sample.txt.gzファイルの内容が表示されます。

'rt'モードは、テキストモードで読み込むことを意味します。

テキストファイルを1行ずつ読み込む方法

gzip圧縮されたテキストファイルを1行ずつ読み込むには、gzip.open()関数を使用してファイルを開き、forループを使って各行を処理します。

以下のコードは、その方法を示しています。

# gzipファイルを1行ずつ読み込む
with gzip.open('sample.txt.gz', 'rt', encoding='utf-8') as f:
    for line in f:
        print(line.strip())  # 各行の前後の空白を削除して表示

このコードを実行すると、gzip圧縮されたファイルの各行が1行ずつ表示されます。

読み込んだデータの処理方法

読み込んだデータを処理する方法は、具体的な用途によって異なりますが、ここでは簡単な例を示します。

例えば、各行の単語数をカウントする処理を行うことができます。

以下のコードは、その方法を示しています。

# gzipファイルを1行ずつ読み込み、単語数をカウント
word_count = 0
with gzip.open('sample.txt.gz', 'rt', encoding='utf-8') as f:
    for line in f:
        words = line.strip().split()  # 行を単語に分割
        word_count += len(words)  # 単語数をカウント
print(f"総単語数: {word_count}")

このコードを実行すると、gzip圧縮されたファイル内の総単語数が表示されます。

これにより、読み込んだデータを簡単に処理することができます。

実践例

大規模データの効率的な処理

gzip圧縮されたファイルは、特に大規模データを扱う際に非常に便利です。

圧縮されたデータを直接読み込むことで、ディスクスペースを節約し、データ転送の効率を向上させることができます。

以下のコードは、大規模なテキストデータを1行ずつ読み込み、特定の条件に基づいてフィルタリングする例です。

# 大規模データのフィルタリング
filtered_lines = []
with gzip.open('large_data.txt.gz', 'rt', encoding='utf-8') as f:
    for line in f:
        if '特定のキーワード' in line:  # 条件に基づいてフィルタリング
            filtered_lines.append(line.strip())
print(f"フィルタリングされた行数: {len(filtered_lines)}")

このコードを実行すると、特定のキーワードを含む行だけがフィルタリングされ、行数が表示されます。

ログファイルの解析

gzip圧縮されたログファイルを解析することも一般的な用途の一つです。

ログファイルは通常、非常に大きくなるため、圧縮して保存することが多いです。

以下のコードは、gzip圧縮されたログファイルからエラーメッセージを抽出する例です。

# gzip圧縮されたログファイルからエラーメッセージを抽出
error_messages = []
with gzip.open('server_logs.gz', 'rt', encoding='utf-8') as f:
    for line in f:
        if 'ERROR' in line:  # エラーメッセージを検出
            error_messages.append(line.strip())
print(f"検出されたエラーメッセージ数: {len(error_messages)}")

このコードを実行すると、ログファイル内のエラーメッセージの数が表示されます。

データサイエンスでの活用

データサイエンスの分野でも、gzip圧縮されたデータセットを扱うことがよくあります。

特に、機械学習モデルのトレーニングに使用する大規模なデータセットは、圧縮して保存されることが多いです。

以下のコードは、gzip圧縮されたCSVファイルを読み込み、データフレームに変換する例です。

import pandas as pd
# gzip圧縮されたCSVファイルを読み込み
df = pd.read_csv('data.csv.gz', compression='gzip', encoding='utf-8')
# データの概要を表示
print(df.describe())

このコードを実行すると、gzip圧縮されたCSVファイルがデータフレームに読み込まれ、その概要が表示されます。

これにより、データサイエンスの分析やモデルのトレーニングに利用することができます。

応用例

gzip圧縮されたバイナリファイルの読み込み

gzipはテキストファイルだけでなく、バイナリファイルの圧縮にも使用できます。

バイナリファイルをgzip形式で圧縮した場合、gzip.open()を使用して読み込むことができます。

以下のコードは、gzip圧縮されたバイナリファイルを読み込む例です。

# gzip圧縮されたバイナリファイルを読み込む
with gzip.open('binary_data.bin.gz', 'rb') as f:
    binary_data = f.read()  # バイナリデータを読み込む
print(f"読み込んだバイナリデータのサイズ: {len(binary_data)} バイト")

このコードを実行すると、gzip圧縮されたバイナリファイルのサイズが表示されます。

gzip圧縮されたファイルの書き込み

gzip圧縮されたファイルにデータを書き込むことも簡単です。

gzip.open()を使用して書き込みモードでファイルを開き、データを記録します。

以下のコードは、gzip圧縮されたテキストファイルにデータを書き込む例です。

# gzip圧縮されたファイルにデータを書き込む
data_to_write = "これはgzip圧縮されたファイルに書き込まれるデータです。"
with gzip.open('output_data.txt.gz', 'wt', encoding='utf-8') as f:
    f.write(data_to_write)
print("データがgzip圧縮されたファイルに書き込まれました。")

このコードを実行すると、指定したデータがgzip圧縮されたファイルに書き込まれます。

gzip圧縮と他の圧縮形式の比較

gzipは広く使用されている圧縮形式ですが、他にも多くの圧縮形式があります。

以下の表は、gzipと他の一般的な圧縮形式の比較を示しています。

圧縮形式	特徴	使用例
gzip	高い圧縮率、ストリーム処理に適している	Webサーバーのレスポンス圧縮
zip	複数ファイルの圧縮が可能、広く普及	ファイルのアーカイブ
bzip2	gzipよりも高い圧縮率、圧縮速度は遅い	大規模データの圧縮
lzma	非常に高い圧縮率、圧縮速度は遅い	データベースのバックアップ