본문 바로가기
Programming/Python

인공지능 기본 수학 (베이즈 통계학, 인과관계 추론)

출처: AI 엔지니어 기초 다지기 : 네이버 부스트캠프 AI Tech 준비과정

 

 

 

베이즈 통계학은 조건부 확률 개념에서 시작한다. 

사건 B가 일어난 상황에서 사건 A가 발생할 확률

 

베이즈정리: 조건부 확률을 이용한 정보 갱신 방법

D: 새로 관찰하는 데이터 // 세타:모델에서 추정하고자하는 모수(parameter)  // Evidence: 데이터 전체 분포

사후확률(posterior): 데이터 관찰 후에 이 파라미터(혹은 가정)이 성립할 확률

사전확률 분포(prior distribution): 모델링 이전 기본적으로 주어진 정보 혹은 전제사항

가능도(likelihood): 현재 주어진 조건, 환경에서 해당 데이터가 관찰될 확률

 

예제) Covid 발병률 10%로 알려져있다. 실제로 걸렸을 때 검진될 확률은 99%, 걸리지 않았는데 오검진될 확률은 1%

어떤 사람이 질병에 걸렸다고 검진되었을 때 정말 제대로 검진될 확률은?

발병률이 10%라고 알려짐                                                                                                   검진과 관련된 확률

 

여기서 세타는 실제 발병률로 정의(관찰 불가), D는 검진 양성판정에 대한 것(테스트 결과, 관찰 가능)

ㄱ: negation(부정) 의미

 

따라서 문제에서 구하고자하는 값은

precision(정밀도)로, 0.916이 나온다.

 

 

 

조건부확률 시각화(Confusion Matrix)

[개념 복습]

1. Accuracy(정확도) = (TP+TN) / 전체 합 = 전체 데이터에서 제대로 분류한 비율

문제점: 불균형 데이터에는 부적절함 
Ex) 100명중 1명만 암환자일 때, 100명 모두 정상으로 예측하면 Accuracy는 99%임. 암환자 예측 못하는게 의미있을까?

 

2. Precision(정밀도) = TP / (TP+ FP) = True 예측값이 진짜 True인 정도 = Negative 데이터가 더 중요한 경우

Negative를 Positive로 판단하면 안될 때 사용 ex) 스팸메일 자동 분류시, 스팸이 아닌 것을 스팸으로 분류하면 안됨

 

3. Recall(재현율) = TP / (TP + FN) = 실제 True값을 얼마나 많이 예측했는지  = Positive 데이터가 더 중요한 경우

Positive를 Negative로 판단하면 안될 때 사용 ex) 악성 종양을 음성으로 판단하면 환자 생명이 위급해

 

4. ROC(Receiver Operating Characteristic Curve = 수신자 조작 특성)

y축 = 1을 1로 예측한 비율(TPR), x축 =  0을 0으로 예측한 비율(FPR)  으로 두고 모델 임계값을 변형하며 그린 곡선

 

5. AUC(Area Under Curve): ROC곡선의 면적 in [0, 1]: 1은 잘 예측한 것, 0은 잘 예측 못한 것

 

여기서 대각선은 0.5를 나타낸 것.

ML모형은 최소한 0.5보다는 높게 나와야한다.

 

 

 

 

 

 

 

 

 

 

 

 

 

베이즈 정리 정보 갱신 (안걸렸는데 검진될 확률 10%인 경우)

 

이미 양성판정받은 사람이 두 번째 검진에서도 양성이 나왔을 때 진짜 걸렸을 확률은?

 

0.524에서 0.917까지 올랐고, 세 번째 검사에도 양성이 나온다면 정밀도는 99.1%까지 갱신된다.

 

 

 

 

 

 

 

주의사항!: 조건부확률로 casuality(인과관계)를 함부로 추론하지않는다! (조건부확률은 인과관계 추론 불가능)

인과관계는 데이터 분포 변화에 강건한 예측모형을 만들 때 사용한다. 단, 인과관계만으로 높은 예측정확도는 나오기 어렵다.

 

 

인과관계파악을 위해서는 Z (= 중첩요인(confounding factor) 효과)를 제거해야한다!

 

 

인과관계 추론 예제: 치료법 a와 b 중 어느 것이 더 나은가?

각각의 환자들에 대해서는 a가 완치율이 높은데 전체적으로는 b가 높다?

 

 

모든 환자가 치료법 a를 선택했을 때 완치율을 계산하기
모든 환자가 치료법 b를 선택했을 때 완치율 계산하기

 

728x90
반응형