240 发简信
IP属地:浙江
  • Resize,w 360,h 240
    ReFT论文浅读

    ReFT: Reasoning with Reinforced Fine-Tuning[https://arxiv.org/abs/2401.0...

  • Resize,w 360,h 240
    DeepSeekMath论文浅读(GRPO)

    Group Relative Policy Optimization(GRPO) ,从DeepSeekMath[https://arxiv.or...

  • Resize,w 360,h 240
    PPO(Proximal Policy Optimization)

    PPO(Proximal Policy Optimization)是一种广泛使用的强化学习算法,它通过优化策略来训练智能体,旨在提升训练过程的稳...

  • spacy安装和使用

    spacy是一个python的自然语言处理的包,可以做词性分析、命名实体识别、依赖关系刻画,embedding的计算以及可视化。 直接清华源安装...

  • Resize,w 360,h 240
    rStar论文浅读

    来自:Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers[https://...

  • Resize,w 360,h 240
    位置编码(Positional Encoding)

    在大语言模型(LLM)中,位置编码(Positional Encoding)是用于表示输入序列中词汇或标记相对位置的技术。由于Transform...

  • Resize,w 360,h 240
    Linux cuda-toolkit安装

    查看系统信息 下载工具包 下载地址: https://developer.nvidia.com/cuda-toolkit-archive[htt...

  • Linux教程 命令行运行clash

    clash (meta) 下载安装包 linux x64下载 curl https://d2.duckgogo.net/mihomo/mihom...

  • Python改变字符颜色

    打印有颜色的字符串 只改变颜色,不打印