본문 바로가기
TechStudy/LLM

wandb 1회 밋업: LG유플러스 김기현 연구위원

 

호랑이 리더보드를 wandb와 만들게된 이유는 본인이 직접 wandb를 쓰는데 그 사용량이 유독 많았고(?)

그 특이점을 wandb의 아키라가 흥미롭게 보게되어 같이 협업을 하게되었다고.. 뭐 그런 카더라

 

 

 

 

 

 

 

 

LG도 AI 개발 합니다!...라는 내용

 

 

 

 

근데 그 중에서도 상담 (CS) AI 자동화 연구를 목적으로 한다고 함.

통신사의 CS 데이터는 매우 크고 그 상담 직원 규모도 큼. 

 

예전엔 법(legal) 분야을 AI로 하려했는데, 미국과 달리 한국은 문자 그대로 해석되는 내용이 아닌 경우가 있어서 어렵다고 함

 

 

 

 

 

 

 

데이터가 엄청난데 이 데이터에는 말 그대로 핵심 내용만 담긴 것이 아니라 불필요한 구어체

" - 네네.. 아 네... 알겠습니다. 네.. 아 네... 네네.. 네!"

 

뭐 이런 말도 다 들어있어서 이 부분을 정제하는 것이 중요했다고 함

 

그리고 데이터가 너무 방대해서 버리는 것도 있을 정도였다고 함

 

 

 

 

 

 

 

 

도메인지식 사전훈련을 DACP라고 부른다고 함.. 파인튜닝은 아니라는데;;

 

 

 

 

 

 

 

 

 

데이터 증강 = 데이터가 부족해서 늘리는게아닌 품질을 높이는 의미로 사용

여기서 합성데이터를 생성해서 사용했다는데 상세 기법 공유는 어렵다고하고

LG CNS팀에서 사용한 R 프로그램을 이용한 순차적 재현 방식은 아니라고함

 

대신 추천받은 논문

 

https://arxiv.org/abs/2406.14491

 

Instruction Pre-Training: Language Models are Supervised Multitask Learners

Unsupervised multitask pre-training has been the critical method behind the recent success of language models (LMs). However, supervised multitask learning still holds significant promise, as scaling it in the post-training stage trends towards better gene

arxiv.org

 

이거 요즘 읽어보려고한다고 함 

 

 

 

 

 

 

 

 

 

 

 

 

평가 중에서 호랑이 평가는 직접 생성을 시켜서 평가하는 것이라 비교적 엄격한 평가기준이라고 함

 

 

 

 

 

 

 

 

 

너무 많이 공개하나싶어서 걱정된다며 공유해준 내용들이다.

 

 

 

728x90
반응형