<- Back to projects and build log

LARA - Long Context LLMs VS RAG

LARA Benchmarking Retrieval Augmented Generation and Long Context LLMs No Silver Bullet for LC or RAG Routing Link ICML 2025 Poster Alibaba group 요약 Long context LLM의 등장... 과연 RAG는 유효한 전략인가? LARA Long context LLM과 RAG 비교...

lara / rag / long-context-llm / benchmark
LARA - Long Context LLMs VS RAG 글 대표 일러스트
Jeffrey Kim의 SecondBrain 빌드 로그 아티클 커버

Quick context

First, this page captures one concrete build-log step, research note, or project lesson from Jeffrey Kim.

Next, use the tags, related reading, and home archive to move from this note to deeper material in the same topic cluster.

Finally, follow the RSS feed if you want the next experiment, retrospective, or paper review as soon as it ships.

요약

LARA를 만든 원칙

  1. Context Length를 모델의 최대 인풋 길이에 맞게 최대한 길게 넣어줘야 한다.
    1. Infinte-bench라는게 있었는데, 평균 길이가 128k를 넘어가서 내용 절반씩 잘린채로 들어갔다. 우리가 잘 잘라서 넣어보니깐 Qwen-2.5-7B가 안자르고 넣은 gpt-4o를 이기더라.
  2. Context는 원래부터 긴 문서여야 한다.
    1. Qasper는 고작 평균 4912 토큰이다.
  3. LLM의 내부 지식으로는 답변할 수 없어야 한다. (Data Leakage)
    1. NarrativeQA는 평균 84,770토큰이지만 Gemini 1.5 Pro는 거의 100% 정확도를 달성한다.
  4. 정해진 답이 있어야 한다 (정확한 평가를 위하여)
    1. 기존에는 생성 태스크에 전혀 적합하지 않은 F1이나 EM을 쓴다.
  5. real-world LLM 시나리오에서 나올법한 질문이어야 한다.

LARA를 만든 법

소설, 논문, 금융 관련 보고서 (분기 보고서, 연간 보고서 등)을 모았다. Data Leakage를 막기 위해서 entity replacement (고유 명사 등을 대체)를 수행했다.

먼저 seed question과 answer를 만든 후에 이것을 few-shot으로 해서 gpt-4o에게 새로운 QA 페어를 생성하도록 했다. 랜덤으로 뽑았을 때 퀄리티가 괜찮을 때까지 프롬프트를 깎았다.

질문을 만들때는 10k 정도로 잘라서 gpt-4o에 넣었다. 특히 comparison 만들때는 더 작게 만들어서 랜덤으로 두 개를 골랐다.

LARA의 4가지 태스크

1. Location Task

Needle in a haystack과 비슷한데, 뜻만 같다면 paraphrasing이 허용된다. ex) 경희대 교육과정 전체를 주며, ‘컴퓨터공학과 단일전공 졸업학점은?‘

2. Reasoning Task

논리적인 사고나 계산을 요구하는 태스크.

3. Comparison Task

긴 context 내의 여러 파트에서 정보를 수집해서, 각각의 정보를 비교한 후 최종 결론에 다다를 수 있는가?

4. Hallucination Detection

Context 내에 없는 정보에 관해서는 답변을 거부하는 능력.

메트릭

gpt-4o가 채점했다. LARA에는 정해진 답 뿐이기 때문에 채점이 용이하다. 그리고 gpt-4o가 잘했는지 사람이 몇 개 채점해서 correlation을 구해봤다.

실험

베이스라인

Pasted%20image%2020250805173105 Avg GAP은 LC - RAG입니다. (음수면 RAG가 더 좋았다)

결과 해석

Pasted%20image%2020250805174200

Pasted%20image%2020250805174411

결론

Related reading

같이 읽으면 좋은 프로젝트 로그와 연구 노트를 이어서 탐색해보세요.