합성데이터 사례: 서울시민 라이프스타일

[1] 사전 준비

테스트 분석용 및 교육 실습용: 가명결합데이터(활용 제약) 한계점을 극복한 합성데이터 생산 필요

데이터 공급자: 서울시

-> 서울시민 생활 데이터(주민등록자료, 건축물대장, 신용정보회사, 신용카드사, 통신사 데이터 기반 가명정보결합데이터)

합성데이터 생성기관: LG CNS 데이터결합분석팀

-> 기존 가명정보 결합데이터(22년 3분기)의 10%를 '서울시민 라이프스타일 재현데이터'로 재현하되, 두 가지 형태로 생성

1) 가구 금융별 금융 현황

2) 서울시민 소비 및 이동 패턴

합성데이터 수요자: 서울시 빅데이터 캠퍼스 (일반 연구자, 개발자, 시민 등에 개방)

[원본 특성 검토]

【데이터 명세】
▸ 정형데이터
▸ 속성 : 서울 시민생활 데이터 약 510개 컬럼

[2] 합성데이터 생성

두 가지 양상 (Use case)로 분리

Use case1: 가구 유형별 금융 및 활동 상태 관련 65개 컬럼으로 744만 건 데이터 생성

Use case2: 서울시민 소비 및 이동 패턴 관련 102개 컬럼으로 494만 건 데이터 생성

전체 소스 데이터 크기: 원본이 충분히 크므로 모수 대표성을 유지하면서 10% 랜덤 샘플링한 부분만 사용

전처리:

범주가 너무 많은 컬럼, 결측치가 많은 컬럼, 대다수 데이터가 특정 값만 가지는 컬럼 등을 조정 및 삭제

일부 컬럼은 특이값 노출 위험 제거를 위해 상단 0.1% 또는 상단 0.01% 기준으로 상한값 일괄 처리

생성 방법: R의 Synthpop 라이브러리를 활용하여 '순차적 재현' 방식 사용

후처리: 실제 원본 데이터와 일치하는 데이터를 전부 삭제, k-익명성 적용을 통해 k=5 기준으로 데이터를 일부 삭제

(기준 준식별자 : 자치구명+생년월일+성별+직업군 컬럼 활용)

[3] 유용성, 안전성 검증

원본과 최종 재현 데이터 셋 비교 결과 컬럼별 평균값 간 오차는 평균 약 4% 수준

[4] 활용

결과: 데이터 생성 및 검증 과정이 적절하다 판단

접근: https://bigdata.seoul.go.kr/data/selectSampleData.do?r_id=P213&sample_data_seq=331

서울특별시 빅데이터 캠퍼스

bigdata.seoul.go.kr

728x90

'TechStudy > SyntheticData' 카테고리의 다른 글

[논문 리뷰] ITF-GAN: Synthetic time series dataset generation and manipulation by interpretable features (2)	2024.07.01
Nemotron: LLM훈련을 위한 합성데이터 생성모델 (0)	2024.06.20
합성데이터 사례: 기업개요 및 주주 신용등급 (0)	2024.06.18
합성데이터 사례: 통신사 멤버십 사용내역 (0)	2024.06.18
합성데이터 사례: 혈당 측정정보 (1)	2024.06.18

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

LeafHT

합성데이터 사례: 서울시민 라이프스타일

[1] 사전 준비

[2] 합성데이터 생성

[3] 유용성, 안전성 검증

[4] 활용

'TechStudy > SyntheticData' 카테고리의 다른 글

티스토리툴바

합성데이터 사례: 서울시민 라이프스타일

[1] 사전 준비

[2] 합성데이터 생성

[3] 유용성, 안전성 검증

[4] 활용

'TechStudy > SyntheticData' 카테고리의 다른 글

'TechStudy/SyntheticData' 관련글

티스토리툴바