본문 바로가기
TechStudy/SyntheticData

합성데이터 사례: 통신사 멤버십 사용내역

[1] 사전 준비

테스트 분석용 및 교육 실습용: 멤버십 앱 사용에 따른 제휴사 선호도 모델 개발

멤버십앱 사용내역을 합성데이터로 생성 -> 어떤 고객이 멤버십 앱에서 무슨 쿠폰을 받아 사용할지 추정

-> 자사 쿠폰 사용 고객과 그렇지 않은 고객 차이 분석하여 쿠폰 상품 개발 및 활성화 프로모션 등 제휴마케팅 전략 수립

 

데이터 공급자: (주)LG 유플러스

-> 통신사 멤버십 사용내역 로그 약 20만건의 정보를 합성데이터로 생성하여 제공

 

합성데이터 생성기관: (주)AIT 스토리, 인하대 연구팀(김승환교수)

-> 멤버십앱 사용내역 데이터 처리 위탁받아 합성데이터로 직접 생성

 

합성데이터 수요자: (주)LG 생활건강, 한국인터넷진흥원(공동 소유권자로서 교육 실습 등 목적에 활용)

-> 멤버십 앱 사용에 따른 제휴사 선호도 모델 개발

 

 

 

 

[원본 특성 검토]

 

【데이터 명세】 
▸ 유통 분야, 정형데이터(CSV)
▸ 유플러스멤버십 사용내역 로그 (멤버십연계 제휴사 연계 활용 정보) 
▸ 속성 : 회원ID, 이동통신사 명, 제휴컨텐츠 유형명, 제휴컨텐츠 발행일자·시각, 제휴사명, 

               고객연령, 성별, 시군구 주소 (‘22.6.~’23.4. 중 매월 2만건씩 약 20만건 추출) 

원본 데이터 컬럼 명세

개인정보 포함 여부: 회원 ID, 연령, 성별, 시군구 주소로 개인 식별 가능 -> 개인정보로 판단됨

 

 

 

[관련 법률 검토]

공급자-수요자 간 공동연구 협약,  「개인정보 보호법」에 따라 개인정보 처리 위탁계약(LG유플러스-AIT스토리·인하대학교 연구팀), 내부 규정에 따라 외부 반출 않고 LG유플러스 개인정보 처리자 및 책임자의 관리 하에 처리

 

 

 

 

 

 

 

[2] 합성데이터 생성

전처리: 불필요 부분 삭제, 식별 위험이 높은 속성 범주화 및 삭제

원본 데이터 전처리 수행 양상

 

회원ID: 개인식별자, 변수 간 관계가 없으므로 삭제

통신사명: 대부분 LGU+이므로 분석의미가 없어 삭제

컨텐츠유형명: 가장 많이 쓰이는 3종만 추출

제휴사명: 컨텐츠 유형명과 일치하므로 삭제

발행일자: 일자 삭제 (그대로 생성시 식별위험 높음) 후, 요일, 월, 시각으로 분

고객 연령: 극단값 검토 후 삭제

주소: 시, 도 명만 유지(그대로 생성시 식별위험 높음)

 

 

 

 

 

모델 결정: 다양한 모델로 생성하여 비교한 후, 유용성과 안전성이 높은 결과를 낸 생성모델 선택

사용한 방법들: 가우스 혼합모델(통계:모수적 기법), synthpop-CART(통계:비모수적 기법), CTGAN(AI: 딥러닝)

해당 모델들을 python을 통해 생성한 합성데이터 예시

각각의 모델은 원본과 같은 수로 생성된 셋 A와 2배수로 생성 후 식별 위험도 높은 것을 삭제하여 원본과 같은 수로 줄여 생성한 셋 B 둘 다 적용 -> 각 모델별 A,B 셋이 나오므로 총 6개의 합성데이터 셋 생성

 

 

 

 

 

 

 

[3] 유용성, 안전성 검증

검증 방법:안전성 -> 유용성 순서 검증(안전성 충족된 것 중에서 유용성 높은 것을 선택)

임계값: 임계값 산출방법 (안전성 우선) 사용

 

합성데이터 셋별 안전성, 유용성 측정 결과 (임계값)

[안전성 검증]: 2-A를 제외하고 모두 만족

임계값이 0.17인데 2-A의 값이 0.3917로 임계값보다 크므로 식별 위험도 불안전

* 임계값 0.17 = 원본 데이터의 최대 17%가 중복하여 존재

 

해당 합성데이터 셋에는 민감한 정보가 없어 '연결 위험도'지표를 통한 안전성 검증은 생략

 

 

 

[유용성 검증]: 2-A를 제외한 나머지를 대상으로 만족한 경우는 각 모델의 B셋이지만, 그중 pMSE가 가장 낮은 2-B 선택

* 구별 불가능성: 원본과 합성데이터 구분하는 ML모형이 구분할 확률. 생성-수요자가 가장 중요하게 고려한 유용성 지표

 

 

 

 

 

 

 

 

 

 

[4] 활용

객관적 검증을 위해 외부전문가를 통해 적정성 심의를 받음(외부전문가 6인; 법률1인, 데이터 산업 4인, 정보보호 1인) 

 

적정성 심의 주요 의견

 

 

 

 

결과: 데이터 생성 및 검증 과정이 적절하다 판단

 

 

 

 

 

 

 

 

 

728x90
반응형