[Python] gzipされたjsonファイルを読み込んで処理する方法
Pythonでは、gzip圧縮されたJSONファイルを読み込むために、gzip
モジュールとjson
モジュールを組み合わせて使用します。
まず、gzip.open()
を使用してgzipファイルを開きます。これにより、圧縮されたファイルをテキストモードで読み取ることができます。
次に、json.load()
を使用して、開いたファイルオブジェクトからJSONデータを読み込みます。
この方法を用いることで、圧縮されたJSONデータを効率的に処理することが可能です。
Pythonでgzipを扱うための準備
必要なライブラリのインストール
Pythonでgzip圧縮されたjsonファイルを扱うためには、特別なライブラリをインストールする必要はありません。
Pythonの標準ライブラリに含まれているgzip
とjson
モジュールを使用します。
これらはPythonをインストールすると自動的に利用可能になります。
gzipモジュールの基本的な使い方
gzip
モジュールは、gzip形式のファイルを読み書きするための機能を提供します。
以下は、gzipファイルを開く基本的な方法です。
import gzip
# gzipファイルを読み込む
with gzip.open('example.gz', 'rb') as f:
file_content = f.read()
print(file_content)
このコードでは、gzip.open
を使用してgzipファイルをバイナリモードで開き、内容を読み込んでいます。
with
文を使うことで、ファイルを自動的に閉じることができます。
jsonモジュールの基本的な使い方
json
モジュールは、JSONデータをPythonのデータ型に変換したり、逆にPythonのデータ型をJSON形式に変換したりするための機能を提供します。
以下は、JSONデータを読み込む基本的な方法です。
import json
# JSONデータを読み込む
data = '{"name": "太郎", "age": 30}'
parsed_data = json.loads(data)
print(parsed_data)
このコードでは、json.loads
を使用してJSON形式の文字列をPythonの辞書型に変換しています。
print
文で変換後のデータを表示しています。
gzipされたjsonファイルの読み込み
gzipファイルのオープン方法
gzip圧縮されたファイルを読み込むには、gzip
モジュールのopen関数
を使用します。
以下のコードは、gzipファイルをオープンする基本的な方法を示しています。
import gzip
# gzipファイルをオープンする
with gzip.open('data.json.gz', 'rt', encoding='utf-8') as f:
content = f.read()
print(content)
このコードでは、gzip.open
を使用してdata.json.gz
というgzipファイルをテキストモードで開いています。
encoding='utf-8'
を指定することで、UTF-8エンコーディングのファイルを正しく読み込むことができます。
jsonデータの読み込み手順
gzipファイルをオープンした後、json
モジュールを使ってデータを読み込むことができます。
以下はその手順です。
import gzip
import json
# gzipファイルをオープンしてJSONデータを読み込む
with gzip.open('data.json.gz', 'rt', encoding='utf-8') as f:
json_data = json.load(f)
print(json_data)
このコードでは、gzipファイルをオープンし、json.load
を使用してファイルから直接JSONデータを読み込んでいます。
これにより、JSONデータがPythonの辞書型に変換されます。
読み込んだデータの確認方法
読み込んだデータを確認するには、print関数
を使って内容を表示することができます。
以下は、読み込んだデータを確認するための例です。
import gzip
import json
# gzipファイルをオープンしてJSONデータを読み込む
with gzip.open('data.json.gz', 'rt', encoding='utf-8') as f:
json_data = json.load(f)
# 読み込んだデータを確認する
print("読み込んだデータ:", json_data)
このコードでは、gzipファイルから読み込んだJSONデータを表示しています。
データの内容を確認することで、正しく読み込まれたかどうかをチェックできます。
応用例
gzipされたjsonファイルの書き込み
gzip圧縮されたJSONファイルを作成するには、gzip
モジュールを使用してデータを圧縮しながら書き込むことができます。
以下は、その方法を示すコードです。
import gzip
import json
# 書き込むデータ
data = {'name': '花子', 'age': 25}
# gzipファイルにJSONデータを書き込む
with gzip.open('output.json.gz', 'wt', encoding='utf-8') as f:
json.dump(data, f)
print("データがoutput.json.gzに書き込まれました。")
このコードでは、json.dump
を使用してPythonの辞書型データをgzipファイルに書き込んでいます。
wt
モードを指定することで、テキストモードで書き込みが行われます。
複数のgzipファイルの一括処理
複数のgzipファイルを一括で処理する場合、ループを使用して各ファイルを読み込むことができます。
以下はその例です。
import gzip
import json
import glob
# gzipファイルのパスを取得
file_paths = glob.glob('data_*.json.gz')
# 各gzipファイルを読み込んでデータを表示
for file_path in file_paths:
with gzip.open(file_path, 'rt', encoding='utf-8') as f:
json_data = json.load(f)
print(f"{file_path}のデータ:", json_data)
このコードでは、glob
モジュールを使用して特定のパターンにマッチするgzipファイルを取得し、各ファイルを読み込んでその内容を表示しています。
gzipされたjsonデータのフィルタリングと変換
読み込んだgzip圧縮されたJSONデータをフィルタリングし、特定の条件に基づいて変換することも可能です。
以下はその例です。
import gzip
import json
# gzipファイルをオープンしてJSONデータを読み込む
with gzip.open('data.json.gz', 'rt', encoding='utf-8') as f:
json_data = json.load(f)
# 年齢が30以上のデータをフィルタリング
filtered_data = {k: v for k, v in json_data.items() if v.get('age', 0) >= 30}
# フィルタリングしたデータを表示
print("フィルタリングしたデータ:", filtered_data)
このコードでは、読み込んだJSONデータから年齢が30以上のエントリをフィルタリングし、新しい辞書型データとして保存しています。
フィルタリングした結果を表示することで、条件に合ったデータを確認できます。
まとめ
この記事では、Pythonを使用してgzip圧縮されたJSONファイルを読み込む方法について詳しく解説しました。
gzipファイルのオープン方法やJSONデータの読み込み手順、さらには応用例としての書き込みやフィルタリング方法についても触れました。
これを機に、gzipファイルを効率的に扱うスキルを身につけ、データ処理の幅を広げてみてください。