[Python] PCA(Principal Component Analysis)

250x250

Link

GitHub

나의 GitHub Contribution 그래프

Loading data ...

Notice

Recent Posts

Recent Comments

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

관리 메뉴

Data Science LAB

[Python] PCA(Principal Component Analysis) 본문

🛠 Machine Learning/차원 축소

[Python] PCA(Principal Component Analysis)

ㅅ ㅜ ㅔ ㅇ 2022. 3. 5. 19:47

728x90

PCA 개요

PCA(Principal Component Analysis)는 가장 대표적인 차원 축소 기법으로 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분(Principal Component)를 추출해 차원을 축소하는 기법이다. PCA 차원 축소로 인한 정보 유실을 최소화하기 위해 가장 높은 분산을 가지는 데이터의 축을 찾아 이 축으로 차원을 축소한다. 이것이 PCA의 주성분이 되는데, 분산이 데이터의 특성을 가장 잘 나타내는 것을 의미한다.

출처 : https://laptrinhx.com/dimensionality-reduction-principal-component-analysis-359354885/

데이터에 가장 가까운 초평면을 정의하고, 이 초평면에 데이터를 투영시키는 것이다.

투영시켰을 때 데이터셋과의 평균 제곱 거리가 가장 작은 초평면을 찾고 투영 시키는 과정을 그림에 나타내었다.

PCA는 제일 먼저 가장 데이터 변동성을 기반으로 첫 번째 벡터 축을 생성하고, 두 번째 축은 이 벡터 축에 직각이 되는 벡터를 축으로 한다. 세 번째 축은 두 번째 축과 직각이 되는 벡터를 설정하는 방식으로 축을 생성한다. 이렇게 생성된 벡터 축에 원본 데이터를 투영하면 벡터 축의 개수만큼의 차원으로 원본 데이터가 차원 축소된다. 즉, 원본 데이터의 피처 개수에 비해 매우 작은 주성분으로 원본 데이터의 총 변동성을 대부분 설명할 수 있는 분석법이다.

선형대수 관점에서 해석해 보면, 입력 데이터의 공분산 행렬(Covariance Matix)을 고유값 분해하고, 이렇게 구한 고유 벡터에 입력 데이터를 선형 변환하는 것이다. 이 고유벡터가 PCA의 주성분 벡터로서 입력 데이터의 분산이 큰 방향을 나타낸다. 고유값(eigenvalue)은 바로 이 고유벡터의 크기를 나타내며, 동시에 입력 데이터의 분산을 나타낸다.

보통 분산은 한 개의 특정한 변수의 데이터 변동을 의미하지만, 공분산은 두 변수 간의 변동을 의미한다. 공분산 행렬은 여러 변수와 관련된 공분산을 포함하는 정방형 행렬이다.

	X	Y	Z
X	3	-0.71	-0.24
Y	-0.71	4.5	0.28
Z	-0.24	0.28	0.91

위의 표 공분산 행렬에서 대각선 원소는 각 변수(X,Y,Z)의 분산을 의미하며, 대각선 이외의 원소는 가능한 모든 변수 쌍 간의 공분산을 의미한다. X,Y,Z의 분산은 각각 3, 4.5,0.91이며 X와 Y의 공분산은 -0.71, X와 Z의 공분산은 0.91, Y와 Z의 공분산은 0.28이다.

고유벡터는 행렬 A를 곱하여도 방향이 변하지 않고 크기만 변하는 것을 의미한다. 즉, Ax = ax(A는 행렬, x는 고유벡터, a는 스칼라 값)이다. 이 고유 벡터는 여러개가 존재하며, 정방 행렬은 최대 그 차원 수 만큼의 고유 벡터를 가질 수 있다. 공분산 행렬은 정방행렬 이며 대칭행렬이다. 정방행렬은 열과 행이 같은 행렬을 지칭하며, 정방행렬 중에서 대각 원소를 중심으로 원소 값이 대칭되는 행렬을 대칭행렬이라고 부른다. 공분산 행렬은 개별 분산 값을 대각 원소로 하는 대칭 행렬이며 항상 고유벡터를 직교행렬로, 고유값을 정방 행렬로 대각화할 수 있다.

ei는 i번째 고유벡터, λ는 고유벡터의 크기를 의미한다.

e1은 가장 분산이 큰 방향을 가진 고유벡터이며, e2는 e1에 수직이면서 다음으로 가장 분산이 큰 방향을 가진 고유벡터이다.

즉, 입력 데이터의 공분산 행렬이 고유벡터와 고유값으로 분해될 수 있으며, 이렇게 분해된 고유벡터를 이용해 입력 데이터를 선형 변환하는 방식이 PCA이다.

1. 입력 데이터 셋의 공분산 행렬 생성
2. 공분산 행렬의 고유벡터와 고유값 계산
3. 고유값이 큰 순으로 K개(PCA 변환 차수)만큼 고유벡터 추출
4. 고유값이 큰 순으로 추출된 고유벡터를 이용해 새롭게 입력 데이터 변환

위의 순서대로 PCA를 진행한다.

예제

4개의 속성으로 이루어진 iris 데이터를 2개의 차원으로 압축

데이터 로딩

from sklearn.datasets import load_iris
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

iris = load_iris()
columns = ['sepal_length','sepal_width','petal_length','petal_width']
iris_df = pd.DataFrame(iris.data,columns=columns)
iris_df['target'] = iris.target
iris_df.head()

2차원으로 품종 데이터 분포 확인

markers=['^','s','o']

#setosa의 target값은 0, versicolor는 1, virginica는2
#각 타겟별로 다른모양으로 표시

for i,marker in enumerate(markers):
    x_axis_data = iris_df[iris_df['target'] == i]['sepal_length']
    y_axis_data = iris_df[iris_df['target'] == i]['sepal_width']
    plt.scatter(x_axis_data,y_axis_data,marker = marker, label = iris.target_names[i])
    
plt.legend()
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.show()

각 품종에 따라 원본 붓꽃 데이터셋이 어떻게 분포되어 있는지 2차원으로 시각화

StandardScaler로 스케일 변환

from sklearn.preprocessing import StandardScaler

iris_scaled = StandardScaler().fit_transform(iris_df.iloc[:,:-1])

PCA는 여러 속성의 값을 연산해야 하므로 속성의 스케일에 영향을 받는다. 따라서 PCA 압축 전에 각 속성값을 동일한 스케일로 변환하는 과정이 필요하다.

2차원의 PCA데이터로 변환

from sklearn.decomposition import PCA

pca = PCA(n_components = 2)
iris_pca = pca.fit_transform(iris_scaled)
print(iris_pca.shape)

2차원으로 변환하고자 하므로 n_components = 2로 설정하였다.

pca 변환된 데이터의 컬럼 명을 각각 pca_component1,2로 명명

pca_columns = ['pca_component_1','pca_component_2']
iris_df_pca = pd.DataFrame(iris_pca,columns=pca_columns)
iris_df_pca['target'] = iris.target
iris_df_pca.head()

2개 속성으로 변환된 데이터셋 2차원상에 시각화

markers = ['^','s','o']

#pca_compontent_1이 x축, pca_component_2가 y축
for i, marker in enumerate(markers):
    x_axis_data = iris_df_pca[iris_df_pca['target'] == i]['pca_component_1']
    y_axis_data = iris_df_pca[iris_df_pca['target'] == i]['pca_component_2']
    plt.scatter(x_axis_data,y_axis_data,marker=marker,label = iris.target_names[i])
    

    
plt.legend()
plt.xlabel('pca_component_1')
plt.ylabel('pca_component_2')
plt.show()

분석을 편리하게 하기 위해서 PCA 데이터프레임을 따로 생성하여, 주성분1, 주성분2, 타깃 컬럼으로 구성하였다.

전체 변동성에서 개별 PCA 컴포넌트별로 차지하는 변동성 비율 제공

print(pca.explained_variance_ratio_)

explained_variance_ration_속성은 전체 변동성에서 개별 PCA 컴포넌트 별로 차지하는 변동성 비율을 제공한다.

첫 번째 PCA 변환 요소인 pca_component_1은 전체 변동성의 약 72.9%를 차지하며 두 번째인 pca_component_2는 약 22.8%를 차지한다. 따라서 PCA를 2개 요소로만 압축하여도 원본 데이터의 약 95%를 설명할 수 있다.

랜덤포레스트 적용

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
import numpy as np

rf = RandomForestClassifier(random_state = 156)
scores = cross_val_score(rf,iris.data,iris.target,scoring='accuracy',cv=3)
print('원본 데이터 교차 검증 정확도 : ',scores)
print('원본 데이터 평균 정확도 : ',np.mean(scores))

#2차원 PCA 변환 데이터셋에 적용
pca_X = iris_df_pca[['pca_component_1','pca_component_2']]
scores_pca = cross_val_score(rf,pca_X,iris.target,scoring='accuracy',cv=3)
print('PCA 변환 데이터 교차 검증 정확도 : ',scores_pca)
print('PCA 변환 데이터 평균 정확도 : ',np.mean(scores_pca))

원본 데이터셋 대비 예측 정확도는 PCA 변환 차원 개수에 따라 예측 성능이 떨어질 수 밖에 없다. 4개의 속성이 2개의 변환 속성으로 감소하면서 예측 성능의 정확도가 10%하락하였다. 4개의 속성에서 2개의 속성으로 50%감소한 것을 감수하면, 정확도를 상당히 잘 유지하고 있다고 할 수 있다.

728x90

'🛠 Machine Learning > 차원 축소' 카테고리의 다른 글

[Python]NMF (0)	2022.03.08
[Python] SVD(Singular Value Decomposition) (0)	2022.03.07
[Python] LDA(Linear Discriminant Analysis) (0)	2022.03.07
[Python] PCA 예제 (0)	2022.03.06

'🛠 Machine Learning/차원 축소' Related Articles

Comments

Data Science LAB

[Python] PCA(Principal Component Analysis) 본문

[Python] PCA(Principal Component Analysis)

PCA 개요

예제

'🛠 Machine Learning > 차원 축소' 카테고리의 다른 글

티스토리툴바