<- Back to projects and build log

Deep Think with Confidence

LLM은 뭐? 자신감 논문 Fu & Zhao et al., Aug 21 2025, Meta AI & UCSD 요약 test time scaling에 따라서 여러번 돌리면 성능은 올라갔는데, 불안정하고 컴퓨팅 자원도 많이 소모됨. 논문은 reasoning 중 모델의 자신감 을 측정해서 각각 reasoning path를 필터링함. 이 자신감 측정기 를 이용해서 모델의 성능은 올리고, 생성하는 토...

llm / reasoning / test-time-scaling / confidence-estimation
Deep Think with Confidence 글 대표 일러스트
Jeffrey Kim의 SecondBrain 빌드 로그 아티클 커버

Quick context

First, this page captures one concrete build-log step, research note, or project lesson from Jeffrey Kim.

Next, use the tags, related reading, and home archive to move from this note to deeper material in the same topic cluster.

Finally, follow the RSS feed if you want the next experiment, retrospective, or paper review as soon as it ships.

Pasted%20image%2020250826102142

요약

기존 방법 : self-consistency with majority voting

LLM의 자신감 측정법

Pasted%20image%2020250826103848

토큰 엔트로피

Hi=jPi(j)logPi(j)H_i = - \sum_j P_i(j)\log P_i(j)

즉, j 토큰분포의 정보량을 의미한다. (참고) 작은 엔트로피는 특정 토큰에 대해 모델이 더 집중된 (높은) 분포를 보였다는 것이고, 높은 엔트로피는 여러 토큰들에 대해 불확실성이 높았다는 것이다.

토큰 자신감 (Token Confidence)

Ci=1kj=1klogPi(j)C_i = - \frac{1}{k} \sum^k_{j=1} \log P_i(j) Cavg=1Ni=1NCiC_{avg} = \frac{1}{N} \sum^N_{i=1} C_i

Pasted%20image%2020250826104820

DeepConf (논문이 제안한 방법)

Pasted%20image%2020250826110239

여러 자신감 계산 방법들

Offline Thinking

Online Thinking

Pasted%20image%2020250826110305

1. Offline Warmup

2. Adaptive Sampling

β=V(a^)aV(a)\beta = \frac{V(\hat{a})}{\sum_a V(a)}

실험

실험 대상

  1. Pass@1 - 한 번만 돌렸을 때
  2. Cons@K - unweighted majority voting
  3. Measure@K - confidence-weighted majority voting (자신감 사용)
  4. Measure+top-η\eta%@K - 상위 η\eta%의 자신감만 사용한 경우
  5. DeepConf-low, DeepConf-high - online evaluation

오프라인 결과

Pasted%20image%2020250826114212

온라인 결과

Pasted%20image%2020250826114302 Pasted%20image%2020250826114355

온라인으로 하니 성능은 유지되거나 높아지면서, 토큰은 훨씬 덜 생성했다!

결론

Related reading

같이 읽으면 좋은 프로젝트 로그와 연구 노트를 이어서 탐색해보세요.

  • Search-R1 제목 : 강화학습을 통해서 LLM이 reasoning을 하며 검색 엔진을 사용하도록 훈련하다. 논문 [[Search R1 발표 슬라이드]] 들어가며 최근 링크드인 등지에서 이러한 제목의 포스트들을 보았다. Beyon...
  • MemoRAG - 기억하는 모델을 만들자 요약 인간은 공부를 어떻게 하는가? 교과서 등에 있는 내용을 학습하며 기억하고, 정확한 정보가 필요하다면 나중에 교과서를 찾아본다. 근데 RAG는? 공부는 안하고 매번 찾아본다. 공부를 안했으니 잘 찾을리가 없다!...
  • Task Arithmetic (Task Vector, Model Merge) 왼발 손흥민 + 오른발 손흥민 = 양발 손흥민 좌타 레이예스 + 우타 레이예스 = 스위치 히터 레이예스 안전한 모델 + 성능 좋은 모델 = 성능 좋고 안전한 모델? Editing Models with Task Ari...
  • 이 MoE 모델은 무료로 임베딩 해줍니다 ICLR 2025 Oral 논문 원문 원 제목 : Your Mixture of Experts LLM is Secretly an Embedding Model for free (당신의 MoE LLM은 몰래 무료로 임베딩...