EEVE 출시된 지가 반년 이상 지났기에 도움이 될지 모르겠다는 서두로 시작한 개발자님.
근데 사진과 실물이 매우 다르시네요...
파라미터 설정의 기본이지만 잘 모르고 넘어간 경우도 많다.
Unsloth 개발자는 packing 옵션에 대해 선택의 문제라고 답변한 반면,
김승덕 개발자님은 " 시간도 줄고 효과도 좋은데 굳이 좋은거 두고 왜 안씀? " 의 입장이였다.
pakcing으로 인한 원본 데이터 왜곡 우려에 대해서는 원본 데이터 품질이 충분히 좋다면 걱정하지 않아도 된다는 것.
그리고 이것저것 튜닝해본 결과, 하이퍼 파라미터 조정 등을 포함한 packing으로 인한 loss가 있더라도 그게 성능측면에서 크게 눈에 띄지 않는다고 함. 결국 중요한건 데이터의 질과 양
각종 튜닝가이드를 보여주고나서
GPU 1장이면 Unsloth 쓰라고 추천 (근데 1장아니여도 Unsloth이 더 빠른 아이러니..)
Unsloth은 원래 저사양 환경에서도 sLLM 튜닝이 가능하도록 만드는 것이 오리지널 모티브인데
병령 GPU에 대한 문의도 공식 깃헙에서 이슈란에 끊이지 않는다.
디스코드 문의결과 8월즈음에는 병렬 GPU 기능도 만들 것이라고 답변은 하였다.
나무늘보 출력창에 Num GPU 출력 섹션이 있으니 구현은 할 것을 염두에 두고 있기는 한데 정말 8월즈음에 업데이트될 지는 미지수
그리고 wandb 밋업이니 wandb로 이렇게 할 수 있다는것도 보여주고
사용한 데이터 일부도 보여주고 (영어-한국어 번역)
해당 코드는 Unsloth 전용 추론 코드이다.
Unsloth을 사용한 예시를 많이 보여주는데 내가 쓰던거라 반갑고 뿌듯한 느낌이 들었다.
임베딩모델이 예전에는 가볍게만 나왔는데 요즘은 굳이...? 라서 크게크게 나오는 경향성이 있다고 함
평가기준 세우기란 늘 어려운 숙제이다.
'TechStudy > LLM' 카테고리의 다른 글
[펌] 프롬프트 엔지니어링(?)의 중요성 (0) | 2024.07.15 |
---|---|
트랜스포머 구조의 비밀 (1) | 2024.07.01 |
wandb 1회 밋업: LG유플러스 김기현 연구위원 (0) | 2024.06.27 |
wandb 1회 밋업: intro, Chris Van Pelt, FriendliAI (1) | 2024.06.27 |
[펌글] 인스트럭트 튜닝 모델에서 데이터 뽑기 (0) | 2024.06.27 |