TechStudy/LLM
2024. 12. 26.
[펌] 강화학습(Reinforcement Training)
대중에게 최초로 AI의 공포를 각인시켰던 사건들 중 하나를 꼽자면, 단연 알파고를 빼놓을 수 없을 것입니다. 또한 chatGPT 가 처음 등장할 때에도 기본적인 GPT 언어 생성모델에, 파라메터를 잔뜩 불리고 (180B) RLHF 라는 기법을 통해 사람과 대화하는 것 같은 instruction following 이라는 task 에 추가 학습시킴으로써 이제껏 보지못한 새로운 형태의 지능이 등장하는 것을 보게 되었습니다. 이러한 충격적인 기술혁명의 공통점에는 바로 강화학습이 있습니다. 오늘은 강화학습에 대해 알아볼까 합니다. 강화학습이라는 기술 자체는 꽤 오래전부터 연구되어오던 주제입니다. 하지만 2010년 대 들어서 발전한 딥러닝의 기법들+GPU 연산능력의 증가에 의해 그 실용적인 적용범위가 대폭 확장되..