일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 정밀도
- 평가 지표
- layer normalization
- 데이터 프로젝트
- 빠르게 실패하기
- 웹서비스 기획
- ifnull
- five lines challenge
- 백엔드
- DecisionTree
- 강화학습
- NULLIF
- Normalization
- NVL
- nvl2
- 데이터 분석
- 데이터 전처리
- 감정은 습관이다
- SQL
- 오차 행렬
- Batch Normalization
- 재현율
- sorted
- CASE WHEN
- 지도학습
- recall
- 결정트리
- LAG
- beautifulsoup
- 비지도학습
Archives
- Today
- Total
목록2024/11/15 (1)
Day to_day
[논문 리뷰] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
이 논문의 핵심! 이 논문에서 해결하고자 하는 문제는 LLM 기반 채팅 어시스턴트를 평가할 때 기존 벤치마크가 이들의 광범위한 기능과 인간의 선호도를 충분히 반영하지 못한다는 것이다. 그래서 두 가지 벤치 마크를 도입한 것과 LLM을 평가자로 사용하는 방법을 제안한다.또한 LLM-as-a-judge(LLM을 평가자로 사용)의 사용과 한계를 실험을 통해 보여주며, 한계를 완화하기 위한 해결 방안도 제안한다.그 결과 GPT-4와 같은 강력한 LLM 평가자가 통제된 환경과 크라우드소싱된 인간 선호도 모두에서 80% 이상의 일치율을 달성하여 인간 간의 일치율과 동일한 수준을 달성할 수 있었고, 이는 인간 평가자를 통해 소요되는 높은 비용을 대체 가능할 수 있음을 시사했다. IntroLLM 기반의 chatbot이..
논문 리뷰
2024. 11. 15. 21:04