论文深度解读:DeepSeek-R1——强化学习开启逻辑推理的新纪元
2026-02-04
DeepSeek-R1 放弃了传统的 PPO 算法,转而采用 GRPO。理解这篇论文的关键,在于理解下面这个核心目标函数及其背后的数学动机
1086 字
|
5 分钟
论文阅读-关于如何解决细致视频理解的解决办法
2026-02-02
作者: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan
1279 字
|
6 分钟