データ分析や機械学習の分野でよく使われるCSVファイル。
Pythonを使ってCSVファイルを読み込む方法を知りたいと思っている初心者の方も多いでしょう。
この記事では、PythonでCSVファイルを読み込む方法を、標準ライブラリとPandasライブラリの2つの方法で解説します。
PythonでCSVファイルを読み込む方法
PythonでCSVファイルを読み込む方法は主に2つあります。
標準ライブラリのcsvモジュールを使った方法と、Pandasライブラリを使った方法です。
それぞれの方法について詳しく解説していきます。
標準ライブラリを使った方法
Pythonの標準ライブラリには、CSVファイルを読み込むためのcsvモジュールが含まれています。
この方法では、csv.reader
やcsv.DictReader
を使ってCSVファイルを読み込みます。
csvモジュールのインポート
まずはじめに、csvモジュールをインポートします。
以下のように記述します。
import csv
csv.readerを使った読み込み
csv.readerを使ってCSVファイルを読み込む方法を解説します。
以下のサンプルコードでは、sample.csv
というファイルを読み込んでいます。
import csv
with open('sample.csv', 'r', encoding='utf-8') as f:
reader = csv.reader(f)
for row in reader:
print(row)
このコードでは、with open
を使ってCSVファイルを開いています。
csv.reader
は、ファイルオブジェクトを引数に取り、CSVファイルの各行をリストとして返します。
forループを使って各行を表示しています。
csv.DictReaderを使った読み込み
csv.DictReaderを使うと、CSVファイルの各行を辞書として読み込むことができます。
以下のサンプルコードでは、sample.csv
というファイルを読み込んでいます。
import csv
with open('sample.csv', 'r', encoding='utf-8') as f:
reader = csv.DictReader(f)
for row in reader:
print(row)
このコードでは、csv.DictReader
がCSVファイルの各行を辞書として返します。
辞書のキーはCSVファイルのヘッダーになります。
forループを使って各行を表示しています。
Pandasライブラリを使った方法
Pandasは、データ解析を支援する機能を提供するライブラリです。
CSVファイルの読み込みや操作が簡単にできるため、データ解析を行う際に便利です。
Pandasのインストール
Pandasは標準ライブラリには含まれていないため、インストールが必要です。
以下のコマンドでインストールできます。
pip install pandas
read_csv関数を使った読み込み
Pandasのread_csv
関数を使ってCSVファイルを読み込む方法を解説します。
以下のサンプルコードでは、sample.csv
というファイルを読み込んでいます。
import pandas as pd
df = pd.read_csv('sample.csv', encoding='utf-8')
print(df)
このコードでは、pd.read_csv
関数がCSVファイルを読み込み、データフレームという形式で返します。
データフレームは、表形式のデータを扱うためのデータ構造です。
データフレームの操作
Pandasのデータフレームを使うと、CSVファイルのデータを簡単に操作できます。
以下は、データフレームの一部のデータを表示する例です。
import pandas as pd
df = pd.read_csv('sample.csv', encoding='utf-8')
# 最初の5行を表示
print(df.head())
# 最後の5行を表示
print(df.tail())
# 特定の列を表示
print(df['column_name'])
# 条件に合う行を抽出
filtered_df = df[df['column_name'] > 100]
print(filtered_df)
このように、Pandasを使うとCSVファイルのデータを簡単に操作できます。
データ解析や前処理を行う際に便利です。