[1] 사전 준비
테스트 분석용 및 교육 실습용: 기업투자 의사결정에 활용하기 위한 기업평가모델 생성·고도화
(주)KOC 파트너스: 벤처캐피탈 기업, 스타트업 발굴 및 투자, 육성, 사업확장 지원
-> 합성데이터를 활용하여 기업투자, 창업지원 컨설팅, 중소기업 정책지원 등에 대한 의사결정에 참조할 모델 개발 필요
목표: 주주 속성에 따라 특정 기업 신용도 평가하는 CRI(Credit Risk Index) 분석
*CRI: 특정 기업의 재무제표에서 파생된 재무 계량 모형의 주요 평가 지표와 업력, 종업원수, 대표자의 신용등급 등의 비재무 계량 모형의 주요 평가 지표로 산출된 지표
분석모형: 이자보상비율(=영업이익/이자 비용) 예측 회귀 모형
* 낮은 이자보상비율 = 부채상환 능력 부족한 부실기업
데이터 공급자: (주)나이스디앤비
-> 최근 3년 간 수집한 기업개요 및 주주 신용등급 6800건 데이터를 합성데이터로 생성하여 제공
합성데이터 생성기관: (주)AIT 스토리, 인하대 연구팀(김승환교수)
-> 해당 데이터 처리 위탁받아 합성데이터로 직접 생성
합성데이터 수요자: (주)KOC파트너스(벤처캐피탈 투자회사), 한국인터넷진흥원(공동 소유권자: 교육 실습 등에 활용)
-> 기업투자 의사결정에 연관, 기업평가모델 생성 및 고도화에 활용
[원본 특성 검토]
【데이터 명세】
▸ 금융 분야, 정형데이터(CSV)
▸ 최근 3년치 총 1,807개 기업(서울 소프트웨어 개발 업종)의 기업개요 정보(1,800건) 및 주주 신용등급 정보(5,000건)
▸ 속성: CRI등급, 기업형태, 대표자, 전화번호, 이메일, 주소, 매출액, 단기·장기 대여금,
영업이익, 자산총계, 매출채권, 총부채 등 195개 컬럼 (6,800건, 최근 3년치)
195개 컬럼: 재무 계량모형의 주요 평가 지표(성장성, 수익성, 안정성, 활동성, 현금흐름)의 모든 재무비율 포함
개인정보 포함 여부: 원본 데이터 = 기업 정보 but 대표자 신용 등급은 개인 식별 정보 -> 개인정보로 판단
-> 해당 부분은 전처리, 안전성 검증 등 필요
[관련 법률 검토]
공급자-수요자 간 공동연구 협약, 「개인정보 보호법」에 따라 개인정보 처리 위탁계약((주)나이스디앤비-AIT스토리·인하대학교 연구팀), 내부 규정에 따라 외부 반출 않고 기관 내부 안전한 환경에서 처리
[2] 합성데이터 생성
전처리: 불필요 개인식별자 및 속성 삭제, 처리 용이하도록 컬럼 형태 변환 혹은 추가 컬럼 생성
변수간 관계 없는 개인식별자 컬럼들(사업자 번호, 기업명, 대표자명 등) 삭제
설립일, CRI 등급, 재고자산 증가율 등은 처리에 용이하도록 형태 변환 혹은 추가 컬럼 생성
모델 결정: 다양한 모델로 생성하여 비교한 후, 유용성과 안전성이 높은 결과를 낸 생성모델 선택
사용한 방법들: 가우스 혼합모델(통계:모수적 기법), synthpop-CART(통계:비모수적 기법), CTGAN(AI: 딥러닝)
각각의 모델은 원본과 같은 수로 생성된 셋 A와 2배수로 생성 후 식별 위험도 높은 것을 삭제하여 원본과 같은 수로 줄여 생성한 셋 B 둘 다 적용 -> 각 모델별 A,B 셋이 나오므로 총 6개의 합성데이터 셋 생성
[3] 유용성, 안전성 검증
검증 방법:안전성 -> 유용성 순서 검증(안전성 충족된 것 중에서 유용성 높은 것을 선택)
임계값: 임계값 산출방법 (안전성 우선) 사용
[안전성 검증]: 2-A를 제외하고 모두 만족
해당 합성데이터 셋에는 민감한 정보가 없어 '연결 위험도'지표를 통한 안전성 검증은 생략
[유용성 검증]: 2-A를 제외한 나머지 대상으로 만족한 경우는 1번과 2번의 B셋이지만, 그중 pMSE가 가장 낮은 2-B 선택
* 구별 불가능성: 원본과 합성데이터 구분하는 ML모형이 구분할 확률. 생성-수요자가 가장 중요하게 고려한 유용성 지표
[4] 활용
객관적 검증을 위해 외부전문가를 통해 적정성 심의를 받음(외부전문가 6인; 법률1인, 데이터 산업 4인, 정보보호 1인)
결과: 데이터 생성 및 검증 과정이 적절하다 판단
'TechStudy > SyntheticData' 카테고리의 다른 글
Nemotron: LLM훈련을 위한 합성데이터 생성모델 (0) | 2024.06.20 |
---|---|
합성데이터 사례: 서울시민 라이프스타일 (0) | 2024.06.19 |
합성데이터 사례: 통신사 멤버십 사용내역 (0) | 2024.06.18 |
합성데이터 사례: 혈당 측정정보 (0) | 2024.06.18 |
합성데이터 사례: 안전모 착용 감지 AI 솔루션 (0) | 2024.06.18 |