一把梭穿强化学习在大模型中的应用?
Hello 啊,大家好。我之前一直有一个想法只用一页纸,把强化学习相关的这些东西,尤其是在大模型应用中的这部分推导给写清楚。通俗地讲,就是达到概念的闭包:我希望把推导中涉及的所有概念,尤其是它所依赖的概念和定义,都给写清楚。 ...
Hello 啊,大家好。我之前一直有一个想法只用一页纸,把强化学习相关的这些东西,尤其是在大模型应用中的这部分推导给写清楚。通俗地讲,就是达到概念的闭包:我希望把推导中涉及的所有概念,尤其是它所依赖的概念和定义,都给写清楚。 ...
这段时间做了什么? 2025 年做了啥?说实话,有点恍若隔世:大部分记忆都停留在 9 月之后。可真要细想,一年其实也没少折腾。 9 月之前我一直比较焦虑,总觉得找不到方向;到了 9 月才终于静下心来,准备去找个 RA。我意识到自己得补补课,于是把西湖大学赵老师的强化学习课程系统学了一遍。学的过程中我还尝试构造一套更“抽象”的公式表达,想把强化学习里的 reward 和能量模型结合到一起。胡乱推了半天,居然把那个一直卡在脑子边上的思路梳理清楚了。 ...