wandb 1회 밋업: LG유플러스 김기현 연구위원

호랑이 리더보드를 wandb와 만들게된 이유는 본인이 직접 wandb를 쓰는데 그 사용량이 유독 많았고(?)

그 특이점을 wandb의 아키라가 흥미롭게 보게되어 같이 협업을 하게되었다고.. 뭐 그런 카더라

LG도 AI 개발 합니다!...라는 내용

근데 그 중에서도 상담 (CS) AI 자동화 연구를 목적으로 한다고 함.

통신사의 CS 데이터는 매우 크고 그 상담 직원 규모도 큼.

예전엔 법(legal) 분야을 AI로 하려했는데, 미국과 달리 한국은 문자 그대로 해석되는 내용이 아닌 경우가 있어서 어렵다고 함

데이터가 엄청난데 이 데이터에는 말 그대로 핵심 내용만 담긴 것이 아니라 불필요한 구어체

" - 네네.. 아 네... 알겠습니다. 네.. 아 네... 네네.. 네!"

뭐 이런 말도 다 들어있어서 이 부분을 정제하는 것이 중요했다고 함

그리고 데이터가 너무 방대해서 버리는 것도 있을 정도였다고 함

도메인지식 사전훈련을 DACP라고 부른다고 함.. 파인튜닝은 아니라는데;;

데이터 증강 = 데이터가 부족해서 늘리는게아닌 품질을 높이는 의미로 사용

여기서 합성데이터를 생성해서 사용했다는데 상세 기법 공유는 어렵다고하고

LG CNS팀에서 사용한 R 프로그램을 이용한 순차적 재현 방식은 아니라고함

대신 추천받은 논문

https://arxiv.org/abs/2406.14491

Instruction Pre-Training: Language Models are Supervised Multitask Learners

Unsupervised multitask pre-training has been the critical method behind the recent success of language models (LMs). However, supervised multitask learning still holds significant promise, as scaling it in the post-training stage trends towards better gene

arxiv.org

이거 요즘 읽어보려고한다고 함

평가 중에서 호랑이 평가는 직접 생성을 시켜서 평가하는 것이라 비교적 엄격한 평가기준이라고 함

너무 많이 공개하나싶어서 걱정된다며 공유해준 내용들이다.

728x90

'TechStudy > LLM' 카테고리의 다른 글

트랜스포머 구조의 비밀 (1)	2024.07.01
wandb 1회 밋업: 야놀자 EEVE 개발자 김승덕 (0)	2024.06.27
wandb 1회 밋업: intro, Chris Van Pelt, FriendliAI (1)	2024.06.27
[펌글] 인스트럭트 튜닝 모델에서 데이터 뽑기 (0)	2024.06.27
NLEP: 문제 해결에 스스로 프로그램을 만들어 해결하는 LLM (0)	2024.06.20

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

LeafHT

wandb 1회 밋업: LG유플러스 김기현 연구위원

'TechStudy > LLM' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

wandb 1회 밋업: LG유플러스 김기현 연구위원

'TechStudy > LLM' 카테고리의 다른 글

'TechStudy/LLM' 관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역