[Python] 因子分析のプログラムを実装する方法

2025-04-15更新日: 2025-04-15

因子分析は、観測データの背後にある潜在変数(因子)を特定するための統計手法です。

Pythonでは、主にsklearnやfactor_analyzerライブラリを使用して実装できます。

まず、データを前処理し、標準化を行います。

次に、factor_analyzerライブラリのFactorAnalyzerクラスを用いて因子数を指定し、因子分析を実行します。

結果として、因子負荷量や共通性などの情報を取得できます。

目次から探す

因子分析とは

因子分析は、多変量データの中に潜む構造を明らかにするための統計手法です。

主に、観測された変数の背後にある少数の因子(潜在変数)を特定し、データの次元を削減することを目的としています。

これにより、データの解釈が容易になり、重要な情報を抽出することが可能になります。

因子分析は、心理学、マーケティング、社会科学など、さまざまな分野で広く利用されており、特にアンケート調査やテストの結果を分析する際に有効です。

因子分析を通じて、データの背後にあるパターンや関係性を理解することができます。

Pythonで因子分析を行うための準備

必要なライブラリのインストール

因子分析を行うためには、いくつかのPythonライブラリをインストールする必要があります。

主に使用するライブラリは以下の通りです。

ライブラリ名	用途
`pandas`	データの操作と前処理
`numpy`	数値計算
`factor_analyzer`	因子分析の実行
`matplotlib`	結果の可視化
`seaborn`	データの可視化を強化

これらのライブラリは、以下のコマンドでインストールできます。

pip install pandas numpy factor_analyzer matplotlib seaborn

データの準備と前処理

因子分析を行う前に、データの準備と前処理が重要です。

以下の手順を踏むことが一般的です。

データの収集: アンケート結果や実験データなどを収集します。
欠損値の処理: 欠損値がある場合は、削除または補完します。
外れ値の検出: 外れ値を確認し、必要に応じて処理します。
カテゴリ変数のエンコーディング: カテゴリ変数を数値に変換します。

これらの前処理を行うことで、因子分析の精度が向上します。

データの標準化の重要性

因子分析を行う際、データの標準化は非常に重要です。

標準化とは、各変数の平均を0、標準偏差を1に変換するプロセスです。

これにより、異なるスケールの変数が同じ基準で比較できるようになります。

標準化を行わないと、スケールの大きい変数が因子分析の結果に過度に影響を与える可能性があります。

標準化の方法は以下の通りです。

\[Z = \frac{X – \mu}{\sigma}\]

ここで、\(Z\)は標準化された値、\(X\)は元の値、\(\mu\)は平均、\(\sigma\)は標準偏差です。

Pythonでは、StandardScalerを使用して簡単に標準化を行うことができます。

Pythonでの因子分析の実装

factor_analyzerライブラリの概要

factor_analyzerは、Pythonで因子分析を実行するための専用ライブラリです。

このライブラリは、因子分析の実行、因子負荷量の計算、因子回転などの機能を提供します。

使いやすいインターフェースを持ち、データの前処理から結果の可視化まで一貫して行うことができます。

インストールは以下のコマンドで行います。

pip install factor_analyzer

因子数の決定方法

因子数を決定する方法はいくつかありますが、一般的な方法は以下の通りです。

固有値基準: 固有値が1以上の因子を選択します。
スクリープロット: 固有値をプロットし、肘の位置で因子数を決定します。
並行分析: 実データの固有値とランダムデータの固有値を比較します。

これらの方法を用いて、適切な因子数を選定します。

因子分析の実行手順

因子分析を実行する手順は以下の通りです。

データの読み込みと前処理
因子数の決定
因子分析の実行

以下は、因子分析を実行するためのサンプルコードです。

import pandas as pd
from factor_analyzer import FactorAnalyzer
# データの読み込み
data = pd.read_csv('data.csv')
# 因子数の決定
fa = FactorAnalyzer(n_factors=3, rotation=None)
fa.fit(data)
# 因子分析の実行
fa = FactorAnalyzer(n_factors=3, rotation='varimax')
fa.fit(data)
# 因子負荷量の表示
loadings = fa.loadings_
print(loadings)

[[ 0.75  0.10  0.05]
 [ 0.20  0.80  0.10]
 [ 0.05  0.15  0.90]]

因子負荷量の解釈

因子負荷量は、各変数がどの因子にどれだけ寄与しているかを示す指標です。

負荷量が高いほど、その変数は該当する因子に強く関連しています。

一般的に、負荷量が0.4以上であれば、その因子に対して重要な寄与をしていると考えられます。

共通性と固有値の確認

共通性は、各変数がどれだけ因子によって説明されるかを示す指標です。

共通性が高いほど、その変数は因子によってよく説明されていることを意味します。

固有値は、因子がどれだけの分散を説明しているかを示します。

固有値が1以上の因子は、実質的に有意な因子と見なされます。

以下のコードで共通性と固有値を確認できます。

# 共通性の表示
communalities = fa.get_communalities()
print(communalities)
# 固有値の表示
eigenvalues = fa.get_eigenvalues()
print(eigenvalues)

共通性: [0.85, 0.70, 0.90]
固有値: [2.5, 1.5, 1.0]

因子回転の実施(Varimax回転など)

因子回転は、因子負荷量をより解釈しやすくするための手法です。

Varimax回転は、最も一般的な直交回転法で、因子間の相関を最小限に抑えつつ、因子負荷量を最大化します。

以下のコードでVarimax回転を実施できます。

# Varimax回転の実施
fa = FactorAnalyzer(n_factors=3, rotation='varimax')
fa.fit(data)
# 回転後の因子負荷量の表示
rotated_loadings = fa.loadings_
print(rotated_loadings)

[[ 0.80  0.05  0.10]
 [ 0.15  0.85  0.05]
 [ 0.10  0.20  0.95]]

このように、因子回転を行うことで、因子負荷量がより明確になり、解釈が容易になります。

因子分析の結果の可視化

因子負荷量の可視化

因子負荷量を可視化することで、各因子がどの変数にどれだけ寄与しているかを直感的に理解できます。

以下のコードでは、matplotlibとseabornを使用して因子負荷量をヒートマップとして表示します。

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from factor_analyzer import FactorAnalyzer
# データの読み込み
data = pd.read_csv('data.csv')
# 因子分析の実行
fa = FactorAnalyzer(n_factors=3, rotation='varimax')
fa.fit(data)
# 因子負荷量の取得
loadings = fa.loadings_
# ヒートマップの作成
plt.figure(figsize=(10, 6))
sns.heatmap(loadings, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('因子負荷量のヒートマップ')
plt.xlabel('因子')
plt.ylabel('変数')
plt.show()

このコードを実行すると、因子負荷量のヒートマップが表示され、各因子と変数の関係が視覚的に把握できます。

Scree Plotの作成

Scree Plotは、因子の固有値を視覚化するためのグラフで、因子数を決定する際に役立ちます。

以下のコードでは、固有値をプロットしてScree Plotを作成します。

# 固有値の取得
eigenvalues = fa.get_eigenvalues()
# Scree Plotの作成
plt.figure(figsize=(8, 5))
plt.plot(range(1, len(eigenvalues) + 1), eigenvalues, marker='o')
plt.title('Scree Plot')
plt.xlabel('因子番号')
plt.ylabel('固有値')
plt.axhline(y=1, color='r', linestyle='--')  # 固有値1のライン
plt.xticks(range(1, len(eigenvalues) + 1))
plt.grid()
plt.show()

このScree Plotを通じて、固有値が1以上の因子を視覚的に確認することができます。

因子スコアのプロット

因子スコアは、各観測値が因子にどれだけ寄与しているかを示す指標です。

因子スコアをプロットすることで、データのクラスタリングやパターンを視覚化できます。

以下のコードでは、最初の2つの因子スコアを散布図として表示します。

# 因子スコアの取得
factor_scores = fa.transform(data)
# 散布図の作成
plt.figure(figsize=(8, 5))
plt.scatter(factor_scores[:, 0], factor_scores[:, 1], alpha=0.7)
plt.title('因子スコアの散布図')
plt.xlabel('因子1')
plt.ylabel('因子2')
plt.grid()
plt.show()

この散布図を通じて、データのクラスタリングや分布を視覚的に確認することができます。

因子スコアのプロットは、データの理解を深めるための重要な手段です。