[1] 사전 준비
테스트 분석용 및 교육 실습용: 멤버십 앱 사용에 따른 제휴사 선호도 모델 개발
멤버십앱 사용내역을 합성데이터로 생성 -> 어떤 고객이 멤버십 앱에서 무슨 쿠폰을 받아 사용할지 추정
-> 자사 쿠폰 사용 고객과 그렇지 않은 고객 차이 분석하여 쿠폰 상품 개발 및 활성화 프로모션 등 제휴마케팅 전략 수립
데이터 공급자: (주)LG 유플러스
-> 통신사 멤버십 사용내역 로그 약 20만건의 정보를 합성데이터로 생성하여 제공
합성데이터 생성기관: (주)AIT 스토리, 인하대 연구팀(김승환교수)
-> 멤버십앱 사용내역 데이터 처리 위탁받아 합성데이터로 직접 생성
합성데이터 수요자: (주)LG 생활건강, 한국인터넷진흥원(공동 소유권자로서 교육 실습 등 목적에 활용)
-> 멤버십 앱 사용에 따른 제휴사 선호도 모델 개발
[원본 특성 검토]
【데이터 명세】
▸ 유통 분야, 정형데이터(CSV)
▸ 유플러스멤버십 사용내역 로그 (멤버십연계 제휴사 연계 활용 정보)
▸ 속성 : 회원ID, 이동통신사 명, 제휴컨텐츠 유형명, 제휴컨텐츠 발행일자·시각, 제휴사명,
고객연령, 성별, 시군구 주소 (‘22.6.~’23.4. 중 매월 2만건씩 약 20만건 추출)
개인정보 포함 여부: 회원 ID, 연령, 성별, 시군구 주소로 개인 식별 가능 -> 개인정보로 판단됨
[관련 법률 검토]
공급자-수요자 간 공동연구 협약, 「개인정보 보호법」에 따라 개인정보 처리 위탁계약(LG유플러스-AIT스토리·인하대학교 연구팀), 내부 규정에 따라 외부 반출 않고 LG유플러스 개인정보 처리자 및 책임자의 관리 하에 처리
[2] 합성데이터 생성
전처리: 불필요 부분 삭제, 식별 위험이 높은 속성 범주화 및 삭제
회원ID: 개인식별자, 변수 간 관계가 없으므로 삭제
통신사명: 대부분 LGU+이므로 분석의미가 없어 삭제
컨텐츠유형명: 가장 많이 쓰이는 3종만 추출
제휴사명: 컨텐츠 유형명과 일치하므로 삭제
발행일자: 일자 삭제 (그대로 생성시 식별위험 높음) 후, 요일, 월, 시각으로 분
고객 연령: 극단값 검토 후 삭제
주소: 시, 도 명만 유지(그대로 생성시 식별위험 높음)
모델 결정: 다양한 모델로 생성하여 비교한 후, 유용성과 안전성이 높은 결과를 낸 생성모델 선택
사용한 방법들: 가우스 혼합모델(통계:모수적 기법), synthpop-CART(통계:비모수적 기법), CTGAN(AI: 딥러닝)
각각의 모델은 원본과 같은 수로 생성된 셋 A와 2배수로 생성 후 식별 위험도 높은 것을 삭제하여 원본과 같은 수로 줄여 생성한 셋 B 둘 다 적용 -> 각 모델별 A,B 셋이 나오므로 총 6개의 합성데이터 셋 생성
[3] 유용성, 안전성 검증
검증 방법:안전성 -> 유용성 순서 검증(안전성 충족된 것 중에서 유용성 높은 것을 선택)
임계값: 임계값 산출방법 (안전성 우선) 사용
[안전성 검증]: 2-A를 제외하고 모두 만족
임계값이 0.17인데 2-A의 값이 0.3917로 임계값보다 크므로 식별 위험도 불안전
* 임계값 0.17 = 원본 데이터의 최대 17%가 중복하여 존재
해당 합성데이터 셋에는 민감한 정보가 없어 '연결 위험도'지표를 통한 안전성 검증은 생략
[유용성 검증]: 2-A를 제외한 나머지를 대상으로 만족한 경우는 각 모델의 B셋이지만, 그중 pMSE가 가장 낮은 2-B 선택
* 구별 불가능성: 원본과 합성데이터 구분하는 ML모형이 구분할 확률. 생성-수요자가 가장 중요하게 고려한 유용성 지표
[4] 활용
객관적 검증을 위해 외부전문가를 통해 적정성 심의를 받음(외부전문가 6인; 법률1인, 데이터 산업 4인, 정보보호 1인)
결과: 데이터 생성 및 검증 과정이 적절하다 판단
'TechStudy > SyntheticData' 카테고리의 다른 글
합성데이터 사례: 서울시민 라이프스타일 (0) | 2024.06.19 |
---|---|
합성데이터 사례: 기업개요 및 주주 신용등급 (0) | 2024.06.18 |
합성데이터 사례: 혈당 측정정보 (0) | 2024.06.18 |
합성데이터 사례: 안전모 착용 감지 AI 솔루션 (0) | 2024.06.18 |
합성데이터 사례: 구강 이미지를 통한 충치 진단 AI 솔루션 (0) | 2024.06.17 |