일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- recall
- 감정은 습관이다
- 재현율
- 빠르게 실패하기
- Batch Normalization
- 결정트리
- LAG
- 지도학습
- CASE WHEN
- layer normalization
- NULLIF
- sorted
- 데이터 전처리
- 평가 지표
- 비지도학습
- ifnull
- 데이터 분석
- 정밀도
- DecisionTree
- Normalization
- 오차 행렬
- SQL
- 강화학습
- NVL
- beautifulsoup
- 데이터 프로젝트
- nvl2
- 웹서비스 기획
- five lines challenge
- 백엔드
Archives
- Today
- Total
목록2025/01/05 (1)
Day to_day
[논문 리뷰] Prompt Cache: Modular Attention Reuse For Low-Latency Inference
Introduction 이 논문은 LLM을 사용할 때 입력 프롬프트로 시스템 메시지나 프롬프트 템플릿 등과 같은 겹치는 텍스트 세그먼트가 존재하고, 이것을 재사용 가능하지 않을까? 하는 생각에서 시작한다. 그래서 자주 사용되는 프롬프트 구간의 attention state를 미리 계산하고 저장 → 이 구간이 프롬프트에 등장했을 때 이를 재사용하여 latency를 줄이자! 그러면 일단 기본적인 개념들에 대해서 간단하게 짚고 넘어가보기로 하자. Autoregressive ModelLLM 모델은 autoregressive 모델로, autoregressive 모델의 뜻은 자기 회귀 모델로써 이전 시점의 출력을 다음 시점의 입력으로 사용하여 순차적으로 텍스트를 생성하는 것이다. 그래서 위의 예시를 보면 이전 시점..
논문 리뷰
2025. 1. 5. 23:51