深圳幻海软件技术有限公司 欢迎您!

  • PPO算法(附pytorch代码)

    这里写目录标题一、PPO算法(1)简介(2)On-policy?(3)GAE(GeneralizedAdvantageEstimation)三、代码代码解析:一、PPO算法(1)简介PPO算法是一种强化学习中的策略梯度方法,它的全称是ProximalPolicyOptimization,即近端策略优

  • 【强化学习PPO算法】

    强化学习PPO算法一、PPO算法二、伪代码三、相关的简单理论1.ratio2.裁断3.Advantage的计算4.loss的计算四、算法实现五、效果六、感悟最近再改一个代码,需要改成PPO方式的,由于之前没有接触过此类算法,因此进行了简单学习,论文没有看的很详细,重点看了实现部分,这里只做简单记录。

  • ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT

    写在最前面,为了彻底写清楚ChatGPT背后的所有关键细节,从1月初写到3月底仍未完工,除了本文之外,过程中涉及到多篇文章(RL论文项目CV多模态),再加上之前写的Transformer、RL数学基础等多篇笔记,成了一个大系列:Transform通俗笔记RL所需的微积分/概率统计基础RL所需的最优化

推荐阅读