<- Back to projects and build log

PPO

[[Search R1]]에서의 PPO 예시 (search engine과 함께 이용) 잘 설명해준 블로그 https://ai com.tistory.com/entry/RL %EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5 %EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 5 PPO 기본적으로 advantage를 극대화 하면서도, old policy에서 업데이트된...

ai-ml / reinforcement-learning / ppo / policy-optimization
PPO 글 대표 일러스트
Jeffrey Kim의 SecondBrain 빌드 로그 아티클 커버

Quick context

First, this page captures one concrete build-log step, research note, or project lesson from Jeffrey Kim.

Next, use the tags, related reading, and home archive to move from this note to deeper material in the same topic cluster.

Finally, follow the RSS feed if you want the next experiment, retrospective, or paper review as soon as it ships.

Archive note

First, this imported note is intentionally compact. It acts as a pointer into the wider SecondBrain archive rather than a long-form standalone article.

Next, use the tags, related reading, and project sections to move toward deeper context. Those paths usually lead to fuller write-ups, experiments, or project retrospectives.

Finally, revisit this page together with the home archive and RSS feed when you want the follow-up posts that expand the same topic.

Pasted%20image%2020250407154927 [[Search-R1]]에서의 PPO 예시 (search engine과 함께 이용)

잘 설명해준 블로그 -> https://ai-com.tistory.com/entry/RL-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-5-PPO

기본적으로 advantage를 극대화 하면서도, old policy에서 업데이트된 new policy가 너무 차이가 크지 않기 위해서 clipping을 사용 (절벽 가장자리를 걷는 것과 같은 비유로 설명할 수 있는데, 새로운 정책이 이전 정책으로부터 안전한 거리 내에서만 업데이트되도록 보장)

Related reading

같이 읽으면 좋은 프로젝트 로그와 연구 노트를 이어서 탐색해보세요.

  • A Self-Supervised Reinforcement Learning Approach for Fine-Tuning Large Language Models Using Cross-Attention Signals 원문 들어가며 2015년 개봉한 어벤저스 : 에이지 오브 울트론의 한 장면이다. 토니 스타크에 의해 만들어진 초지능 자비스와 그것을 뛰어 넘는 울트론이 만들어진 장면이다. 10년 전, 공상 과학 영화의 일부였던 자비...
  • Search-R1 제목 : 강화학습을 통해서 LLM이 reasoning을 하며 검색 엔진을 사용하도록 훈련하다. 논문 [[Search R1 발표 슬라이드]] 들어가며 최근 링크드인 등지에서 이러한 제목의 포스트들을 보았다. Beyon...
  • RepLLaMA - Fine-Tuning LLaMA for Multi-Stage Text Retrieval 논문의 목적 임베딩 모델이나 리랭커를 LLM을 기반으로 훈련시킬 수는 없을까? LLM은 완전 똑똑한데, 이것을 리랭커나 임베딩 모델로서 사용하고 싶다! 어떻게 했을까? Retriever 이전에는 주로 [[BERT]]...
  • KL Regularization 참고 : [[Regularization, Normalization, Standardization, Generalization]] [[VAE]]의 Regularization Error 라고 보면 된다. $$ L i(\...