크로스-어텐션
여러 가지 다른 유형의 입력 데이터를 처리하고 결합하여 작업을 수행하는 시스템
입력 시퀀스는 키와 값 입력으로 사용되고, 출력 시퀀스는 쿼리 입력으로 사용됨
> 쿼리는 어텐션 점수에 따라 다른 토큰에서 관련 정보를 추출하는데 사용되고, 키는 어떤 토큰이 쿼리와 관련 있는지 확인하는데 도움을 주고, 값은 해당 정보를 제공
손실 함수
머신 러닝 모델의 성능을 측정하는 데 사용되는 함수로, 모델이 예측한 값과 실제 타겟 값 사이의 차이를 나타내고 이를 최소화하기 위해 모델을 훈련시킴
성능 측정을 통해 손실 함수의 값을 측정하고, 이를 최소화하는 방향으로 가중치를 조절하고 최적의 파라미터 값을 찾음
강화 학습
1. 언어 모델 사전 훈련
- 대규모 텍스트 데이터로 LLM을 사전 훈련시킴
- 일반적인 말뭉치나 특정 작업을 위한 텍스트 생성법을 배우거나 문법, 구문, 의미를 학습함
2. 보상 모델 정의 및 잠재적 훈련
- 사람들의 선호도에 맞춰 조정된 모델 또는 다른 LLM으로부터 보상 시스템을 정의하여 생성된 텍스트의 품질을 평가
- 다양한 텍스트 샘플에 대한 순위, 점수 등의 피드백 수집
- 생성된 텍스트를 사람의 피드백에 따른 텍스트 품질을 나타내는 보상 신호에 매핑하는 함수를 학습
3. 강화 학습으로 언어 모델 파인튜닝(업데이트)
- 텍스트 생성 > 보상 모델로부터 피드백 수집 > 보상 신호에 기반하여 파라미터 업데이트
- 생성된 텍스트가 사람의 선호도와 밀접하게 일치하도록 언어모델을 최적하하는 것이 목표
보상 모델
LLM의 출력을 입력으로 받아 하나의 스칼라로 보상을 피드백
각 출력에 대해 스칼라 보상을 할당하는 한, 어느 접근 방식으로든 보상 시스템을 만들 수 있음
ex) cardiffnlp LLM의 감정분석의 경우, 요약이 중립적인 성격을 띠도록 '중립' 클래스의 로짓 값을 보상으로 정의
트랜스포머 강화 학습
강화 학습과 트랜스포머 모델을 결합한 방법론
트랜스포머 모델을 사용하여 에이전트의 상태를 표현하고, 상태 정보를 기반으로 강화 학습 알고리즘을 적용하여 행동을 선택하고 학습
ex) 데이터 소스로부터 데이터 배치를 가져오기 > 요약을 해서 사람 또는 AI로부터 피드백(보상)을 얻기 > 보상을 더 얻기 위해서 PPO 강화 학습을 통해 LLM을 최적화
RLF 파인튜닝 과정
1. LLM이 데이터 배치에 대한 결과를 생성
2. 보상 모델로부터 스칼라 보상을 할당
3. TRL 라이브러리가 업데이트하기 전에 보상과 차이점을 고려하여 생성된 텍스트 비료
4. PPO 정책으로 LLM을 업데이트
'Book' 카테고리의 다른 글
웹 개발자를 위한 웹 보안: 1장 요약 - 웹사이트를 해킹하다 (0) | 2024.09.14 |
---|---|
쉽고 빠르게 익히는 실전 LLM - CHAPTER 8. 고급 오픈 소스 LLM 파인튜닝 (0) | 2024.05.03 |
쉽고 빠르게 익히는 실전 LLM - CHAPTER 6. 임베딩과 모델 아키텍처 맞춤화 (0) | 2024.04.21 |
쉽고 빠르게 익히는 실전 LLM - CHAPTER 5. 고급 프롬프트 엔지니어링 (0) | 2024.04.19 |
쉽고 빠르게 익히는 실전 LLM - CHAPTER 4. 맞춤형 파인튜닝으로 LLM 최적화하기 (0) | 2024.04.19 |