'2024/11/15 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2024/11 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록2024/11/15 (1)

Day to_day

[논문 리뷰] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

이 논문의 핵심! 이 논문에서 해결하고자 하는 문제는 LLM 기반 채팅 어시스턴트를 평가할 때 기존 벤치마크가 이들의 광범위한 기능과 인간의 선호도를 충분히 반영하지 못한다는 것이다. 그래서 두 가지 벤치 마크를 도입한 것과 LLM을 평가자로 사용하는 방법을 제안한다.또한 LLM-as-a-judge(LLM을 평가자로 사용)의 사용과 한계를 실험을 통해 보여주며, 한계를 완화하기 위한 해결 방안도 제안한다.그 결과 GPT-4와 같은 강력한 LLM 평가자가 통제된 환경과 크라우드소싱된 인간 선호도 모두에서 80% 이상의 일치율을 달성하여 인간 간의 일치율과 동일한 수준을 달성할 수 있었고, 이는 인간 평가자를 통해 소요되는 높은 비용을 대체 가능할 수 있음을 시사했다. IntroLLM 기반의 chatbot이..

논문 리뷰 2024. 11. 15. 21:04

이전 Prev 1 Next 다음

목록2024/11/15 (1)

Day to_day

티스토리툴바