본문 바로가기
Programming/Python

데이터 전처리3 (Correlation)

데이터 직무는 처음에 데이터 전처리만 2년에서 3년 함 (데이터 특성 파악)

3 4년차에 보통 분석 시작

 

Correlation (상관 관계)  in (-1, 1)   <- 인과관계와 같은 개념 아니다!

1: 매우 강함

0: 미존재

-1: 매우 없음

 

EDA: Exploratory Data Analysis  변수 간 관계를 파악 -> 상관분석(피어슨 correlation analysis) 이용

 

 

 

상관계수 찾기 corr()

import pandas as pd
iris_corr = iris_df.corr()
iris_corr

 

해당 상관관계를 한번에 확인하는 그래프 호출 sns.pairplot()  <- 표의 행 열 관계를 상관계수 대입시 바로 표현

 

import seaborn as sns 
sns.pairplot(iris_df, kind='reg')  # kind = 'reg'로 회귀선 추가
plt.show()

 

 

 

heatmap에 iris_corr넣으면 바로 상관관계에 적절한 그림 생성!

 

plt.figure(figsize=(8,8))

sns.heatmap(iris_corr, annot=True, fmt = '.2f', linewidths=.5, cmap='Blues')
plt.show()

 

 

 

 

 

Pandas profiling: 이쁘게 html로 정리해서 만들어주는 것. 패키지 업데이트에 따라 호환문제로 오류가 발생하는 문제 有

pip install pandas_profiling

import pandas_profiling
profile = wine.profile_report()
profile.to_file('wine_profile.html')

이렇게 이쁘게 나옴

 

 

 

 

 

대신에 이쁜 리포트 sweetviz가 있다. EDA 툴이라고도 함.

 

import sweetviz

eda_report=sweetviz.analyze(wine)
eda_report.show_html()

이런식으로 이쁘게 알아서 정리해줌

 

 

두 데이터간의 비교 .compare(A, B) 도 可


빠르게 흝어보기 좋고 귀찮게 코딩안해도 되고

 

 

 

728x90
반응형