본문 바로가기
TechStudy/SyntheticData

합성데이터 사례: 서울시민 라이프스타일

[1] 사전 준비

테스트 분석용 및 교육 실습용: 가명결합데이터(활용 제약) 한계점을 극복한 합성데이터 생산 필요

 

 

데이터 공급자: 서울시

-> 서울시민 생활 데이터(주민등록자료, 건축물대장, 신용정보회사, 신용카드사, 통신사 데이터 기반 가명정보결합데이터)

 

합성데이터 생성기관: LG CNS 데이터결합분석팀

-> 기존 가명정보 결합데이터(22년 3분기)의 10%를 '서울시민 라이프스타일 재현데이터'로 재현하되, 두 가지 형태로 생성

1) 가구 금융별 금융 현황

2) 서울시민 소비 및 이동 패턴

 

합성데이터 수요자: 서울시 빅데이터 캠퍼스 (일반 연구자, 개발자, 시민 등에 개방)

 

 

 

 

[원본 특성 검토]

 

【데이터 명세】 
▸ 정형데이터 
▸ 속성 : 서울 시민생활 데이터 약 510개 컬럼

 

 

 

 

 

 

 

[2] 합성데이터 생성

두 가지 양상 (Use case)로 분리

Use case1: 가구 유형별 금융 및 활동 상태 관련 65개 컬럼으로 744만 건 데이터 생성

Use case2: 서울시민 소비 및 이동 패턴 관련 102개 컬럼으로 494만 건 데이터 생성

 

전체 소스 데이터 크기: 원본이 충분히 크므로 모수 대표성을 유지하면서 10% 랜덤 샘플링한 부분만 사용

 

전처리:

범주가 너무 많은 컬럼, 결측치가 많은 컬럼, 대다수 데이터가 특정 값만 가지는 컬럼 등을 조정 및 삭제

일부 컬럼은 특이값 노출 위험 제거를 위해 상단 0.1% 또는 상단 0.01% 기준으로 상한값 일괄 처리

 

생성 방법: R의 Synthpop 라이브러리를 활용하여 '순차적 재현' 방식 사용

 

후처리: 실제 원본 데이터와 일치하는 데이터를 전부 삭제, k-익명성 적용을 통해 k=5 기준으로 데이터를 일부 삭제

 (기준 준식별자 : 자치구명+생년월일+성별+직업군 컬럼 활용) 

 

 

 

 

 

 

 

 

 

[3] 유용성, 안전성 검증

 

원본과 최종 재현 데이터 셋 비교 결과 컬럼별 평균값 간 오차는 평균 약 4% 수준

 

 

 

 

 

 

 

[4] 활용

 

 

 

 

활용예시: 서울시 382만 가구의 경제상황과 소비패턴 분석

 

 

 

 

결과: 데이터 생성 및 검증 과정이 적절하다 판단

접근: https://bigdata.seoul.go.kr/data/selectSampleData.do?r_id=P213&sample_data_seq=331

 

서울특별시 빅데이터 캠퍼스

 

bigdata.seoul.go.kr

 

 

 

 

 

 

 

 

 

728x90
반응형