Pandas

[Python] Pandas – ベクトルを1に正規化する方法

2025-04-15更新日: 2025-04-15

Pandasでベクトルを1に正規化するには、ベクトルの各要素をそのベクトルのノルム(長さ)で割る方法が一般的です。

ノルムは通常、ユークリッドノルム(L2ノルム)を使用します。

具体的には、pandas.Seriesやpandas.DataFrameの行や列に対して、numpy.linalg.normを使ってノルムを計算し、各要素をそのノルムで割ることで正規化が可能です。

目次から探す

Pandasでベクトルを1に正規化する手順

ノルムの計算方法

NumPyを使ったノルム計算

ノルムとは、ベクトルの大きさを表す指標です。

NumPyを使用して、ベクトルのノルムを計算することができます。

以下は、L2ノルムを計算するサンプルコードです。

import numpy as np
# ベクトルの定義
vector = np.array([3, 4])
# L2ノルムの計算
l2_norm = np.linalg.norm(vector)
print("L2ノルム:", l2_norm)

L2ノルム: 5.0

L2ノルムは、ベクトルの各要素の二乗和の平方根で計算されます。

上記の例では、\(\sqrt{3^2 + 4^2} = 5\) となります。

L1ノルムとL2ノルムの違い

L1ノルム: ベクトルの各要素の絶対値の和で計算されます。

式で表すと、\(|x|_1 = \sum_{i=1}^{n} |x_i|\) です。

L2ノルム: ベクトルの各要素の二乗和の平方根で計算されます。

式で表すと、\(|x|_2 = \sqrt{\sum_{i=1}^{n} x_i^2}\) です。

ノルムの種類	計算方法	特徴
L1ノルム	各要素の絶対値の和	スパースなデータに強い
L2ノルム	各要素の二乗和の平方根	一般的な距離の計算に使用

ベクトルの各要素をノルムで割る

ベクトルを正規化するためには、各要素をそのノルムで割ります。

以下は、L2ノルムを用いてベクトルを正規化するサンプルコードです。

import numpy as np
# ベクトルの定義
vector = np.array([3, 4])
# L2ノルムの計算
l2_norm = np.linalg.norm(vector)
# 正規化
normalized_vector = vector / l2_norm
print("正規化されたベクトル:", normalized_vector)

正規化されたベクトル: [0.6 0.8]

この結果、元のベクトルがL2ノルムで割られ、長さが1のベクトルに変換されました。

DataFrame全体を正規化する方法

Pandasを使用してDataFrame全体を正規化することも可能です。

以下は、DataFrame全体をL2ノルムで正規化するサンプルコードです。

import pandas as pd
import numpy as np
# DataFrameの作成
data = {'A': [3, 1], 'B': [4, 2]}
df = pd.DataFrame(data)
# L2ノルムで正規化
df_normalized = df / np.linalg.norm(df, axis=1, keepdims=True)
print("正規化されたDataFrame:\n", df_normalized)

正規化されたDataFrame:
      A    B
0  0.6  0.8
1  0.447213  0.894427

このコードでは、各行をL2ノルムで割ることで、DataFrame全体を正規化しています。

列ごとに正規化する方法

特定の列だけを正規化したい場合も、Pandasを使って簡単に実行できます。

以下は、列ごとにL2ノルムで正規化するサンプルコードです。

import pandas as pd
import numpy as np
# DataFrameの作成
data = {'A': [3, 1], 'B': [4, 2]}
df = pd.DataFrame(data)
# 列ごとにL2ノルムで正規化
df_normalized = df / np.linalg.norm(df, axis=0)
print("列ごとに正規化されたDataFrame:\n", df_normalized)

列ごとに正規化されたDataFrame:
           A         B
0  0.948683  0.894427
1  0.316228  0.447214

この結果、各列がそれぞれのL2ノルムで割られ、正規化された値が得られます。

行ごとに正規化する方法

行ごとに正規化する場合は、axis=1を指定して計算します。

以下は、行ごとにL2ノルムで正規化するサンプルコードです。

import pandas as pd
import numpy as np
# DataFrameの作成
data = {'A': [3, 1], 'B': [4, 2]}
df = pd.DataFrame(data)
# 行ごとにL2ノルムで正規化
df_normalized = df.div(np.linalg.norm(df, axis=1), axis=0)
print("行ごとに正規化されたDataFrame:\n", df_normalized)

行ごとに正規化されたDataFrame:
           A         B
0  0.600000  0.800000
1  0.447214  0.894427

このように、行ごとに正規化することで、各行のベクトルが長さ1に調整されます。

応用例：異なるノルムでの正規化

L1ノルムを使った正規化

L1ノルムを使った正規化は、各要素の絶対値の和を基準にしてベクトルをスケーリングします。

以下は、L1ノルムを用いてベクトルを正規化するサンプルコードです。

import numpy as np
# ベクトルの定義
vector = np.array([3, -4])
# L1ノルムの計算
l1_norm = np.sum(np.abs(vector))
# 正規化
normalized_vector = vector / l1_norm
print("L1ノルムで正規化されたベクトル:", normalized_vector)

L1ノルムで正規化されたベクトル: [ 0.42857143 -0.57142857]

この結果、L1ノルムで正規化されたベクトルは、各要素がL1ノルムで割られた値になります。

L2ノルムを使った正規化

L2ノルムを使った正規化は、各要素の二乗和の平方根を基準にしてベクトルをスケーリングします。

以下は、L2ノルムを用いてベクトルを正規化するサンプルコードです。

import numpy as np
# ベクトルの定義
vector = np.array([3, 4])
# L2ノルムの計算
l2_norm = np.linalg.norm(vector)
# 正規化
normalized_vector = vector / l2_norm
print("L2ノルムで正規化されたベクトル:", normalized_vector)

L2ノルムで正規化されたベクトル: [0.6 0.8]

この結果、L2ノルムで正規化されたベクトルは、各要素がL2ノルムで割られた値になります。

無限ノルムを使った正規化

無限ノルム(L∞ノルム)は、ベクトルの最大絶対値を基準にして正規化を行います。

以下は、無限ノルムを用いてベクトルを正規化するサンプルコードです。

import numpy as np
# ベクトルの定義
vector = np.array([3, -4])
# 無限ノルムの計算
l_inf_norm = np.max(np.abs(vector))
# 正規化
normalized_vector = vector / l_inf_norm
print("無限ノルムで正規化されたベクトル:", normalized_vector)

無限ノルムで正規化されたベクトル: [ 0.75 -1.  ]

この結果、無限ノルムで正規化されたベクトルは、最大絶対値で割られた値になります。

特定の範囲にスケーリングする方法

特定の範囲にスケーリングする場合、Min-Maxスケーリングを使用することが一般的です。

これは、データを指定した範囲(通常は0から1)に収める方法です。

以下は、Min-Maxスケーリングを行うサンプルコードです。

import numpy as np
# ベクトルの定義
vector = np.array([3, 4, 5, 6])
# Min-Maxスケーリング
min_val = np.min(vector)
max_val = np.max(vector)
scaled_vector = (vector - min_val) / (max_val - min_val)
print("Min-Maxスケーリングされたベクトル:", scaled_vector)

Min-Maxスケーリングされたベクトル: [0.         0.33333333 0.66666667 1.        ]

この結果、元のベクトルが0から1の範囲にスケーリングされました。

Min-Maxスケーリングは、機械学習の前処理としてよく使用されます。

応用例：複数の列を同時に正規化する

複数列の正規化の必要性

データ分析や機械学習において、異なるスケールを持つ特徴量を持つデータセットでは、正規化が重要です。

正規化を行うことで、モデルの学習が安定し、収束が早くなることがあります。

また、異なる単位や範囲を持つデータを比較可能にするためにも、正規化は必要です。

DataFrame全体の正規化

Pandasを使用して、DataFrame全体を正規化することができます。

以下は、L2ノルムを用いてDataFrame全体を正規化するサンプルコードです。

import pandas as pd
import numpy as np
# DataFrameの作成
data = {'A': [3, 1, 4], 'B': [4, 2, 5], 'C': [5, 3, 6]}
df = pd.DataFrame(data)
# L2ノルムで正規化
df_normalized = df / np.linalg.norm(df, axis=0)
print("正規化されたDataFrame:\n", df_normalized)

正規化されたDataFrame:
           A         B         C
0  0.588348  0.596285  0.597614
1  0.196116  0.298142  0.358569
2  0.784465  0.745356  0.717137

この結果、DataFrame全体がL2ノルムで正規化されました。

特定の列のみを正規化する方法

特定の列だけを正規化したい場合も、Pandasを使って簡単に実行できます。

以下は、特定の列(A列とB列)をL2ノルムで正規化するサンプルコードです。

import pandas as pd
import numpy as np
# DataFrameの作成
data = {'A': [3, 1, 4], 'B': [4, 2, 5], 'C': [5, 3, 6]}
df = pd.DataFrame(data)
# 特定の列をL2ノルムで正規化
columns_to_normalize = ['A', 'B']
df[columns_to_normalize] = df[columns_to_normalize].div(np.linalg.norm(df[columns_to_normalize], axis=0))
print("特定の列が正規化されたDataFrame:\n", df)

特定の列が正規化されたDataFrame:
           A         B  C
0  0.588348  0.596285  5
1  0.196116  0.298142  3
2  0.784465  0.745356  6

この結果、A列とB列のみが正規化され、C列はそのままの値が保持されています。

グループごとに正規化する方法

データをグループごとに正規化する場合、groupbyメソッドを使用します。

以下は、グループごとにL2ノルムで正規化するサンプルコードです。

import pandas as pd
import numpy as np
# DataFrameの作成
data = {
    'Group': ['A', 'A', 'B', 'B'],
    'Value1': [3, 1, 4, 2],
    'Value2': [4, 2, 5, 3]
}
df = pd.DataFrame(data)
# グループごとにL2ノルムで正規化
df_normalized = df.copy()
df_normalized[['Value1', 'Value2']] = df.groupby('Group')[['Value1', 'Value2']].transform(
    lambda x: x / np.linalg.norm(x)
)
print("グループごとに正規化されたDataFrame:\n", df_normalized)

グループごとに正規化されたDataFrame:
   Group    Value1    Value2
0     A  0.948683  0.894427
1     A  0.316228  0.447214
2     B  0.894427  0.857493
3     B  0.447214  0.514496

この結果、各グループ(AとB)ごとにL2ノルムで正規化された値が得られました。

グループごとの正規化は、データの特性を保持しつつ、比較可能な形にするために有効です。

応用例：機械学習における正規化の活用

正規化が必要な理由

機械学習モデルは、入力データのスケールに敏感です。

異なるスケールを持つ特徴量がある場合、モデルの学習が不安定になったり、収束が遅くなったりすることがあります。

正規化を行うことで、以下のような利点があります。

収束の早さ: 正規化されたデータは、最適化アルゴリズムがより早く収束することを助けます。
モデルの性能向上: 特徴量のスケールが揃うことで、モデルの性能が向上することがあります。
解釈の容易さ: 正規化により、異なる特徴量の影響を比較しやすくなります。

正規化と標準化の違い

正規化と標準化は、データの前処理において異なる手法です。

正規化: データを特定の範囲(通常は0から1)にスケーリングします。

Min-Maxスケーリングが一般的です。

標準化: データを平均0、標準偏差1に変換します。

Zスコア標準化が一般的です。

手法	定義	使用例
正規化	データを特定の範囲にスケーリング	ニューラルネットワーク
標準化	平均0、標準偏差1に変換	線形回帰、SVM

正規化を行うタイミング

正規化は、データの前処理段階で行うべきです。

具体的には、以下のタイミングで実施します。

データの収集後: 生データを取得した後、まずはデータのクリーニングを行い、その後に正規化を行います。
トレーニングデータとテストデータの分割後: トレーニングデータに基づいて正規化のパラメータ(最小値、最大値、平均、標準偏差など)を計算し、そのパラメータを用いてテストデータを正規化します。
モデルのトレーニング前: モデルをトレーニングする前に、必ず正規化を行うことが重要です。