一把梭穿强化学习在大模型中的应用?

Hello 啊,大家好。我之前一直有一个想法只用一页纸,把强化学习相关的这些东西,尤其是在大模型应用中的这部分推导给写清楚。通俗地讲,就是达到概念的闭包:我希望把推导中涉及的所有概念,尤其是它所依赖的概念和定义,都给写清楚。 ...

2026-06-01 · 8 分钟 · 3674 字 · LEE