데이터 직무는 처음에 데이터 전처리만 2년에서 3년 함 (데이터 특성 파악)
3 4년차에 보통 분석 시작
Correlation (상관 관계) in (-1, 1) <- 인과관계와 같은 개념 아니다!
1: 매우 강함
0: 미존재
-1: 매우 없음
EDA: Exploratory Data Analysis 변수 간 관계를 파악 -> 상관분석(피어슨 correlation analysis) 이용
상관계수 찾기 corr()
import pandas as pd
iris_corr = iris_df.corr()
iris_corr
해당 상관관계를 한번에 확인하는 그래프 호출 sns.pairplot() <- 표의 행 열 관계를 상관계수 대입시 바로 표현
import seaborn as sns
sns.pairplot(iris_df, kind='reg') # kind = 'reg'로 회귀선 추가
plt.show()
heatmap에 iris_corr넣으면 바로 상관관계에 적절한 그림 생성!
plt.figure(figsize=(8,8))
sns.heatmap(iris_corr, annot=True, fmt = '.2f', linewidths=.5, cmap='Blues')
plt.show()
Pandas profiling: 이쁘게 html로 정리해서 만들어주는 것. 패키지 업데이트에 따라 호환문제로 오류가 발생하는 문제 有
pip install pandas_profiling
import pandas_profiling
profile = wine.profile_report()
profile.to_file('wine_profile.html')
대신에 이쁜 리포트 sweetviz가 있다. EDA 툴이라고도 함.
import sweetviz
eda_report=sweetviz.analyze(wine)
eda_report.show_html()
이런식으로 이쁘게 알아서 정리해줌
두 데이터간의 비교 .compare(A, B) 도 可
빠르게 흝어보기 좋고 귀찮게 코딩안해도 되고
728x90
반응형
'Programming > Python' 카테고리의 다른 글
[ML] 기본 데이터 정리 및 split (iris 예제) (1) | 2023.09.06 |
---|---|
[ML] Scikit_learn introduction (0) | 2023.09.06 |
데이터 전처리2 (Data Scaling) (0) | 2023.09.05 |
데이터 전처리1 (null, outlier, bias, regression) (0) | 2023.09.05 |
[Matplotlib] 히트맵(pcolor) 및 응용 (0) | 2023.09.05 |