[Python] Pandasで複数カラムをキーにしたデータフレームの結合方法
Pandasで複数カラムをキーにしてデータフレームを結合するには、merge()関数
を使用します。
merge()
のon
引数にリスト形式で複数のカラム名を指定することで、複数のキーを基に結合が可能です。
例えば、df1
とdf2
というデータフレームを'key1'
と'key2'
の2つのカラムで結合する場合、df1.merge(df2, on=['key1', 'key2'])
のように記述します。
結合の方法inner
, outer
, left
, right
はhow
引数で指定できます。
複数カラムをキーにした結合の実装
Pandasを使用してデータフレームを結合する際、複数のカラムをキーとして指定することができます。
これにより、より複雑なデータの結合が可能になります。
以下に、具体的な方法や注意点を解説します。
複数カラムを指定する方法
複数のカラムをキーにしてデータフレームを結合するには、merge関数
を使用します。
on
引数にリスト形式でカラム名を指定します。
以下はその例です。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key1': ['A', 'B', 'C'],
'key2': [1, 2, 3],
'value1': [10, 20, 30]
})
df2 = pd.DataFrame({
'key1': ['A', 'B', 'D'],
'key2': [1, 2, 4],
'value2': [100, 200, 400]
})
# 複数カラムをキーにして結合
result = pd.merge(df1, df2, on=['key1', 'key2'], how='inner')
print(result)
key1 key2 value1 value2
0 A 1 10 100
1 B 2 20 200
この例では、key1
とkey2
の2つのカラムをキーにして、df1
とdf2
を内部結合しています。
同名カラムがある場合の対処法
結合するデータフレームに同名のカラムが存在する場合、Pandasは自動的にカラム名に接尾辞を追加します。
接尾辞はsuffixes
引数で指定できます。
以下の例を見てみましょう。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key': ['A', 'B', 'C'],
'value': [10, 20, 30]
})
df2 = pd.DataFrame({
'key': ['A', 'B', 'D'],
'value': [100, 200, 400]
})
# 同名カラムがある場合の結合
result = pd.merge(df1, df2, on='key', suffixes=('_left', '_right'))
print(result)
key value_left value_right
0 A 10 100
1 B 20 200
このように、value
カラムには_left
と_right
の接尾辞が追加され、どのデータフレームから来たのかが明確になります。
結合後のカラム名の重複を避ける方法
結合後にカラム名が重複することを避けるためには、suffixes
引数を活用することが重要です。
また、結合前にカラム名を変更することも一つの手段です。
以下の例では、結合前にカラム名を変更しています。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key': ['A', 'B', 'C'],
'value': [10, 20, 30]
})
df2 = pd.DataFrame({
'key': ['A', 'B', 'D'],
'value': [100, 200, 400]
})
# 結合前にカラム名を変更
df1.rename(columns={'value': 'value1'}, inplace=True)
df2.rename(columns={'value': 'value2'}, inplace=True)
# 結合
result = pd.merge(df1, df2, on='key')
print(result)
key value1 value2
0 A 10 100
1 B 20 200
この方法により、結合後のカラム名の重複を避けることができます。
結合時のデータ型の注意点
結合を行う際には、キーとなるカラムのデータ型が一致していることが重要です。
異なるデータ型の場合、結合が正しく行われないことがあります。
以下の例では、データ型の不一致によるエラーを示します。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key': ['1', '2', '3'], # 文字列型
'value': [10, 20, 30]
})
df2 = pd.DataFrame({
'key': [1, 2, 4], # 整数型
'value': [100, 200, 400]
})
# 結合(エラーが発生する)
try:
result = pd.merge(df1, df2, on='key')
except Exception as e:
print(f"エラー: {e}")
エラー: You are trying to merge on object and int64 columns. If you wish to proceed you should use pd.DataFrame.astype() to cast your columns to the same type.
このように、データ型が異なる場合は、astypeメソッド
を使用してデータ型を揃える必要があります。
結合時のオプション設定
Pandasのmerge関数
には、結合をより柔軟に行うためのオプションがいくつか用意されています。
ここでは、suffixes
、indicator
、validate
の各引数について解説します。
suffixes引数でカラム名の重複を解消
suffixes
引数を使用することで、結合時に同名のカラムが存在する場合に自動的に付加される接尾辞をカスタマイズできます。
これにより、カラム名の重複を解消し、どのデータフレームから来たのかを明確にすることができます。
以下の例を見てみましょう。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key': ['A', 'B', 'C'],
'value': [10, 20, 30]
})
df2 = pd.DataFrame({
'key': ['A', 'B', 'D'],
'value': [100, 200, 400]
})
# suffixes引数を使用して結合
result = pd.merge(df1, df2, on='key', suffixes=('_df1', '_df2'))
print(result)
key value_df1 value_df2
0 A 10 100
1 B 20 200
この例では、value
カラムに_df1
と_df2
の接尾辞が追加され、どのデータフレームからの値かが明確になっています。
indicator引数で結合結果を確認
indicator
引数を使用すると、結合結果に新しいカラムを追加し、どのデータフレームからのデータが含まれているかを示すことができます。
この機能は、データの整合性を確認する際に非常に便利です。
以下の例を見てみましょう。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key': ['A', 'B', 'C'],
'value': [10, 20, 30]
})
df2 = pd.DataFrame({
'key': ['A', 'B', 'D'],
'value': [100, 200, 400]
})
# indicator引数を使用して結合
result = pd.merge(df1, df2, on='key', how='outer', indicator=True)
print(result)
key value_x value_y _merge
0 A 10.0 100.0 both
1 B 20.0 200.0 both
2 C 30.0 NaN left_only
3 D NaN 400.0 right_only
この例では、_merge
カラムが追加され、どのデータフレームからのデータが含まれているかが示されています。
both
は両方のデータフレームに存在することを、left_only
は左側のデータフレームにのみ存在することを示します。
validate引数で結合の整合性をチェック
validate
引数を使用することで、結合の整合性を確認することができます。
この引数には、結合の期待される形式を指定することができ、整合性が取れていない場合にはエラーが発生します。
以下の例を見てみましょう。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key': ['A', 'B', 'C'],
'value': [10, 20, 30]
})
df2 = pd.DataFrame({
'key': ['A', 'B', 'B'],
'value': [100, 200, 400]
})
# validate引数を使用して結合
try:
result = pd.merge(df1, df2, on='key', validate='one_to_one')
except Exception as e:
print(f"エラー: {e}")
エラー: MergeError: Merge keys are not unique in right dataset; not a one-to-one merge
この例では、df2
のkey
カラムに重複があるため、one_to_one
の整合性チェックに失敗し、エラーが発生しました。
このように、validate
引数を使用することで、結合の整合性を事前に確認することができます。
応用例
複数カラムをキーにしたデータフレームの結合は、さまざまなデータ処理に応用できます。
ここでは、結合とフィルタリング、集計処理、欠損値処理、データのソートを組み合わせた具体例を紹介します。
複数カラムでの結合とフィルタリングの組み合わせ
結合後に特定の条件でデータをフィルタリングすることができます。
以下の例では、複数カラムをキーにして結合した後、特定の条件でフィルタリングを行います。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key1': ['A', 'B', 'C'],
'key2': [1, 2, 3],
'value1': [10, 20, 30]
})
df2 = pd.DataFrame({
'key1': ['A', 'B', 'D'],
'key2': [1, 2, 4],
'value2': [100, 200, 400]
})
# 複数カラムで結合
result = pd.merge(df1, df2, on=['key1', 'key2'], how='inner')
# フィルタリング
filtered_result = result[result['value1'] > 15]
print(filtered_result)
key1 key2 value1 value2
1 B 2 20 200
この例では、value1
が15より大きい行のみを抽出しています。
複数カラムをキーにした結合と集計処理
結合後に集計処理を行うことで、データの要約情報を得ることができます。
以下の例では、結合後にvalue1
とvalue2
の合計を計算します。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key1': ['A', 'B', 'C'],
'key2': [1, 2, 3],
'value1': [10, 20, 30]
})
df2 = pd.DataFrame({
'key1': ['A', 'B', 'D'],
'key2': [1, 2, 4],
'value2': [100, 200, 400]
})
# 複数カラムで結合
result = pd.merge(df1, df2, on=['key1', 'key2'], how='inner')
# 集計処理
aggregated_result = result[['value1', 'value2']].sum()
print(aggregated_result)
value1 30
value2 300
dtype: int64
この例では、value1
とvalue2
の合計を計算しています。
複数カラムをキーにした結合と欠損値処理
結合後に欠損値が発生することがあります。
これを処理するために、fillnaメソッド
を使用して欠損値を埋めることができます。
以下の例では、結合後に欠損値を0で埋めています。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key1': ['A', 'B', 'C'],
'key2': [1, 2, 3],
'value1': [10, 20, 30]
})
df2 = pd.DataFrame({
'key1': ['A', 'B', 'D'],
'key2': [1, 2, 4],
'value2': [100, 200, 400]
})
# 複数カラムで結合
result = pd.merge(df1, df2, on=['key1', 'key2'], how='outer')
# 欠損値を0で埋める
result_filled = result.fillna(0)
print(result_filled)
key1 key2 value1 value2
0 A 1.0 10.0 100.0
1 B 2.0 20.0 200.0
2 C 3.0 30.0 0.0
3 D 4.0 0.0 400.0
この例では、value1
やvalue2
に欠損値があった場合、それを0で埋めています。
複数カラムをキーにした結合とデータのソート
結合後にデータを特定のカラムでソートすることも可能です。
以下の例では、結合後にvalue1
でソートしています。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({
'key1': ['A', 'B', 'C'],
'key2': [1, 2, 3],
'value1': [30, 20, 10]
})
df2 = pd.DataFrame({
'key1': ['A', 'B', 'D'],
'key2': [1, 2, 4],
'value2': [100, 200, 400]
})
# 複数カラムで結合
result = pd.merge(df1, df2, on=['key1', 'key2'], how='outer')
# value1でソート
sorted_result = result.sort_values(by='value1', ascending=True)
print(sorted_result)
key1 key2 value1 value2
2 C 3 10.0 NaN
1 B 2 20.0 200.0
0 A 1 30.0 100.0
3 D 4 NaN 400.0
この例では、value1
の値に基づいてデータを昇順にソートしています。
これにより、データの分析や可視化が容易になります。
まとめ
この記事では、Pandasを使用して複数カラムをキーにしたデータフレームの結合方法について詳しく解説しました。
具体的には、結合の実装方法やオプション設定、さまざまな応用例を通じて、データ処理の幅を広げる手法を紹介しました。
これを機に、実際のデータ分析や処理において、複数カラムを活用した結合を試してみることをお勧めします。