groq吧 关注:8贴子:66
  • 4回复贴,共1

UnslothAI的优化Gpro训练方法

只看楼主收藏回复

把内存需求减少了80%,7GB显存就能复现R1的顿悟时刻
里面似乎有相关的部署方法,稍后我阅读之后在这个贴下面慢慢补


IP属地:黑龙江来自Android客户端1楼2025-02-10 17:18回复
    https://unsloth.ai/blog/r1-reasoning,这是网站


    IP属地:黑龙江来自Android客户端2楼2025-02-10 17:19
    回复
      2025-08-01 02:40:34
      广告
      不感兴趣
      开通SVIP免广告
      大佬


      IP属地:北京来自iPhone客户端3楼2025-02-10 17:25
      回复
        这个东西是不是要自己写gpro奖励函数


        IP属地:江苏来自Android客户端4楼2025-02-11 15:20
        收起回复