출처: AI 엔지니어 기초 다지기 : 네이버 부스트캠프 AI Tech 준비과정
베이즈 통계학은 조건부 확률 개념에서 시작한다.
베이즈정리: 조건부 확률을 이용한 정보 갱신 방법
사후확률(posterior): 데이터 관찰 후에 이 파라미터(혹은 가정)이 성립할 확률
사전확률 분포(prior distribution): 모델링 이전 기본적으로 주어진 정보 혹은 전제사항
가능도(likelihood): 현재 주어진 조건, 환경에서 해당 데이터가 관찰될 확률
예제) Covid 발병률 10%로 알려져있다. 실제로 걸렸을 때 검진될 확률은 99%, 걸리지 않았는데 오검진될 확률은 1%
어떤 사람이 질병에 걸렸다고 검진되었을 때 정말 제대로 검진될 확률은?
여기서 세타는 실제 발병률로 정의(관찰 불가), D는 검진 양성판정에 대한 것(테스트 결과, 관찰 가능)
ㄱ: negation(부정) 의미
따라서 문제에서 구하고자하는 값은
precision(정밀도)로, 0.916이 나온다.
[개념 복습]
1. Accuracy(정확도) = (TP+TN) / 전체 합 = 전체 데이터에서 제대로 분류한 비율
문제점: 불균형 데이터에는 부적절함
Ex) 100명중 1명만 암환자일 때, 100명 모두 정상으로 예측하면 Accuracy는 99%임. 암환자 예측 못하는게 의미있을까?
2. Precision(정밀도) = TP / (TP+ FP) = True 예측값이 진짜 True인 정도 = Negative 데이터가 더 중요한 경우
Negative를 Positive로 판단하면 안될 때 사용 ex) 스팸메일 자동 분류시, 스팸이 아닌 것을 스팸으로 분류하면 안됨
3. Recall(재현율) = TP / (TP + FN) = 실제 True값을 얼마나 많이 예측했는지 = Positive 데이터가 더 중요한 경우
Positive를 Negative로 판단하면 안될 때 사용 ex) 악성 종양을 음성으로 판단하면 환자 생명이 위급해
4. ROC(Receiver Operating Characteristic Curve = 수신자 조작 특성)
y축 = 1을 1로 예측한 비율(TPR), x축 = 0을 0으로 예측한 비율(FPR) 으로 두고 모델 임계값을 변형하며 그린 곡선
5. AUC(Area Under Curve): ROC곡선의 면적 in [0, 1]: 1은 잘 예측한 것, 0은 잘 예측 못한 것
여기서 대각선은 0.5를 나타낸 것.
ML모형은 최소한 0.5보다는 높게 나와야한다.
이미 양성판정받은 사람이 두 번째 검진에서도 양성이 나왔을 때 진짜 걸렸을 확률은?
주의사항!: 조건부확률로 casuality(인과관계)를 함부로 추론하지않는다! (조건부확률은 인과관계 추론 불가능)
인과관계 추론 예제: 치료법 a와 b 중 어느 것이 더 나은가?
'Programming > Python' 카테고리의 다른 글
[CNN] Computer Vision Applications (Semantic Segmentation and Detection) (1) | 2024.02.27 |
---|---|
[CNN] Convolutional Neural Networks (1) | 2024.02.27 |
인공지능 기본 수학 (확률론, 통계) (2) | 2024.02.18 |
인공지능(AI) 기초 (0) | 2024.02.07 |
인공지능 기본 수학 (선형대수: 벡터, 행렬, 경사하강법) (1) | 2024.02.05 |