[1] 사전 준비
테스트 분석용 및 교육 실습용: 가명결합데이터(활용 제약) 한계점을 극복한 합성데이터 생산 필요
데이터 공급자: 서울시
-> 서울시민 생활 데이터(주민등록자료, 건축물대장, 신용정보회사, 신용카드사, 통신사 데이터 기반 가명정보결합데이터)
합성데이터 생성기관: LG CNS 데이터결합분석팀
-> 기존 가명정보 결합데이터(22년 3분기)의 10%를 '서울시민 라이프스타일 재현데이터'로 재현하되, 두 가지 형태로 생성
1) 가구 금융별 금융 현황
2) 서울시민 소비 및 이동 패턴
합성데이터 수요자: 서울시 빅데이터 캠퍼스 (일반 연구자, 개발자, 시민 등에 개방)
[원본 특성 검토]
【데이터 명세】
▸ 정형데이터
▸ 속성 : 서울 시민생활 데이터 약 510개 컬럼
[2] 합성데이터 생성
두 가지 양상 (Use case)로 분리
Use case1: 가구 유형별 금융 및 활동 상태 관련 65개 컬럼으로 744만 건 데이터 생성
Use case2: 서울시민 소비 및 이동 패턴 관련 102개 컬럼으로 494만 건 데이터 생성
전체 소스 데이터 크기: 원본이 충분히 크므로 모수 대표성을 유지하면서 10% 랜덤 샘플링한 부분만 사용
전처리:
범주가 너무 많은 컬럼, 결측치가 많은 컬럼, 대다수 데이터가 특정 값만 가지는 컬럼 등을 조정 및 삭제
일부 컬럼은 특이값 노출 위험 제거를 위해 상단 0.1% 또는 상단 0.01% 기준으로 상한값 일괄 처리
생성 방법: R의 Synthpop 라이브러리를 활용하여 '순차적 재현' 방식 사용
후처리: 실제 원본 데이터와 일치하는 데이터를 전부 삭제, k-익명성 적용을 통해 k=5 기준으로 데이터를 일부 삭제
(기준 준식별자 : 자치구명+생년월일+성별+직업군 컬럼 활용)
[3] 유용성, 안전성 검증
원본과 최종 재현 데이터 셋 비교 결과 컬럼별 평균값 간 오차는 평균 약 4% 수준
[4] 활용
결과: 데이터 생성 및 검증 과정이 적절하다 판단
접근: https://bigdata.seoul.go.kr/data/selectSampleData.do?r_id=P213&sample_data_seq=331
'TechStudy > SyntheticData' 카테고리의 다른 글
[논문 리뷰] ITF-GAN: Synthetic time series dataset generation and manipulation by interpretable features (0) | 2024.07.01 |
---|---|
Nemotron: LLM훈련을 위한 합성데이터 생성모델 (0) | 2024.06.20 |
합성데이터 사례: 기업개요 및 주주 신용등급 (0) | 2024.06.18 |
합성데이터 사례: 통신사 멤버십 사용내역 (0) | 2024.06.18 |
합성데이터 사례: 혈당 측정정보 (0) | 2024.06.18 |