ファイル

[Python] CSVの読み込みエラー用の例外処理を定義する

2025-04-14更新日: 2025-04-14

PythonでCSVファイルを読み込む際、ファイルが存在しない、形式が不正、エンコーディングが異なるなどの理由でエラーが発生することがあります。

これらのエラーを適切に処理するために、tryとexceptブロックを使用して例外処理を定義することが重要です。

例えば、FileNotFoundErrorやUnicodeDecodeErrorなどの特定の例外をキャッチし、ユーザーに適切なエラーメッセージを表示することで、プログラムのクラッシュを防ぎます。

また、csvモジュールを使用する際には、csv.Errorをキャッチすることで、CSV形式の不正を検出できます。

目次から探す

CSV読み込みエラーの例外処理
応用例：CSVデータの検証とクレンジング
応用例：大規模CSVファイルの効率的な処理
まとめ

CSV読み込みエラーの例外処理

CSVファイルをPythonで読み込む際には、さまざまなエラーが発生する可能性があります。

これらのエラーを適切に処理することで、プログラムの安定性を向上させることができます。

以下では、代表的なエラーとその例外処理について解説します。

ファイルが見つからない場合の処理

ファイルが存在しない場合、FileNotFoundErrorが発生します。

このエラーをキャッチして、ユーザーに適切なメッセージを表示することが重要です。

import csv
try:
    with open('non_existent_file.csv', mode='r', encoding='utf-8') as file:
        reader = csv.reader(file)
        for row in reader:
            print(row)
except FileNotFoundError:
    print("指定されたファイルが見つかりません。ファイル名を確認してください。")

このコードは、存在しないファイルを開こうとしたときにFileNotFoundErrorをキャッチし、ユーザーにファイルが見つからない旨を通知します。

ファイル形式が不正な場合の処理

CSVファイルの形式が不正な場合、csv.Errorが発生することがあります。

これをキャッチして、エラーの詳細をユーザーに伝えることができます。

import csv
try:
    with open('invalid_format.csv', mode='r', encoding='utf-8') as file:
        reader = csv.reader(file)
        for row in reader:
            print(row)
except csv.Error as e:
    print(f"CSVファイルの形式が不正です: {e}")

この例では、CSVファイルの形式が不正な場合にcsv.Errorをキャッチし、エラーメッセージを表示します。

エンコーディングエラーの処理

ファイルのエンコーディングが正しくない場合、UnicodeDecodeErrorが発生します。

これをキャッチして、エンコーディングの問題をユーザーに知らせることができます。

import csv
try:
    with open('wrong_encoding.csv', mode='r', encoding='utf-8') as file:
        reader = csv.reader(file)
        for row in reader:
            print(row)
except UnicodeDecodeError:
    print("ファイルのエンコーディングが正しくありません。エンコーディングを確認してください。")

このコードは、エンコーディングが不正な場合にUnicodeDecodeErrorをキャッチし、ユーザーにエンコーディングの問題を通知します。

データ型の不一致の処理

CSVファイルのデータ型が期待されるものと異なる場合、ValueErrorが発生することがあります。

これをキャッチして、データ型の不一致を処理します。

import csv
try:
    with open('data_type_mismatch.csv', mode='r', encoding='utf-8') as file:
        reader = csv.reader(file)
        for row in reader:
            # 例として、整数型に変換を試みる
            number = int(row[0])
            print(number)
except ValueError:
    print("データ型が不一致です。データを確認してください。")

この例では、CSVファイルのデータを整数型に変換しようとした際にValueErrorをキャッチし、データ型の不一致をユーザーに知らせます。

応用例：CSVデータの検証とクレンジング

CSVデータを扱う際には、データの品質を確保するために検証とクレンジングが重要です。

以下では、CSVデータのバリデーションやクレンジングの方法について解説します。

データのバリデーション

データのバリデーションは、データが期待される形式や範囲にあるかを確認するプロセスです。

Pythonでは、条件を設定してデータを検証することができます。

import csv
def validate_row(row):
    # 例：年齢が0以上120以下であることを確認
    try:
        age = int(row['age'])
        if 0 <= age <= 120:
            return True
    except ValueError:
        pass
    return False
with open('data.csv', mode='r', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        if validate_row(row):
            print("Valid row:", row)
        else:
            print("Invalid row:", row)

このコードは、CSVファイルの各行について年齢が0以上120以下であるかを検証し、結果を表示します。

欠損値の処理

欠損値はデータ分析において問題を引き起こすことがあります。

欠損値を適切に処理することで、データの品質を向上させることができます。

import csv
def fill_missing_values(row):
    # 例：欠損値をデフォルト値で埋める
    if not row['age']:
        row['age'] = '0'
    if not row['name']:
        row['name'] = 'Unknown'
    return row
with open('data.csv', mode='r', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        row = fill_missing_values(row)
        print(row)

この例では、欠損している年齢を0、名前を”Unknown”で埋める処理を行っています。

データ型の変換

データ型の変換は、データを適切な形式に整えるために必要です。

Pythonでは、型変換を行うことでデータを一貫した形式にすることができます。

import csv
def convert_data_types(row):
    # 例：年齢を整数型に変換
    try:
        row['age'] = int(row['age'])
    except ValueError:
        row['age'] = 0  # デフォルト値
    return row
with open('data.csv', mode='r', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        row = convert_data_types(row)
        print(row)

このコードは、年齢を整数型に変換し、変換できない場合はデフォルト値を設定します。

不正データの検出と修正

不正データは、データ分析の結果に影響を与える可能性があります。

不正データを検出し、修正することでデータの信頼性を高めることができます。

import csv
def detect_and_correct_invalid_data(row):
    # 例：年齢が不正な場合に修正
    try:
        age = int(row['age'])
        if age < 0 or age > 120:
            row['age'] = '0'  # 修正
    except ValueError:
        row['age'] = '0'  # 修正
    return row
with open('data.csv', mode='r', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        row = detect_and_correct_invalid_data(row)
        print(row)

この例では、年齢が不正な場合に0に修正する処理を行っています。

これにより、不正データを検出し、修正することができます。

応用例：大規模CSVファイルの効率的な処理

大規模なCSVファイルを処理する際には、メモリや処理速度を考慮した効率的な方法が求められます。

以下では、Pythonで大規模CSVファイルを効率的に処理するためのテクニックを紹介します。

チャンク単位での読み込み

大規模なCSVファイルを一度にメモリに読み込むと、メモリ不足を引き起こす可能性があります。

pandasライブラリを使用して、チャンク単位でデータを読み込むことで、メモリ使用量を抑えることができます。

import pandas as pd
chunk_size = 1000  # 1回に読み込む行数
for chunk in pd.read_csv('large_data.csv', chunksize=chunk_size):
    # 各チャンクに対する処理
    print(chunk.head())

このコードは、large_data.csvを1000行ずつ読み込み、各チャンクに対して処理を行います。

これにより、メモリ使用量を抑えつつ大規模データを処理できます。

メモリ効率を考慮した処理

メモリ効率を考慮するためには、データ型を適切に設定することが重要です。

pandasでは、データ型を指定して読み込むことで、メモリ使用量を削減できます。

import pandas as pd
dtypes = {'column1': 'int32', 'column2': 'float32', 'column3': 'category'}
data = pd.read_csv('large_data.csv', dtype=dtypes)
print(data.info())

この例では、column1をint32、column2をfloat32、column3をcategory型として読み込むことで、メモリ使用量を削減しています。

並列処理によるパフォーマンス向上

大規模データの処理速度を向上させるために、並列処理を利用することができます。

concurrent.futuresモジュールを使用して、複数のプロセスでデータを処理することが可能です。

import pandas as pd
from concurrent.futures import ProcessPoolExecutor
def process_chunk(chunk):
    # 各チャンクに対する処理
    return chunk.sum()
chunk_size = 1000
results = []
with ProcessPoolExecutor() as executor:
    for chunk in pd.read_csv('large_data.csv', chunksize=chunk_size):
        future = executor.submit(process_chunk, chunk)
        results.append(future.result())
print(results)

このコードは、ProcessPoolExecutorを使用して各チャンクを並列に処理し、結果を集約します。

これにより、処理速度を大幅に向上させることができます。