躺不平的NLPer - 简书

发简信

躺不平的NLPer

0
关注
2
粉丝
25
文章
13778

字数
2

收获喜欢
0

总资产

IP属地：浙江

Linux 常用命令
服务器备份到本地： user_name: 服务器端用户名123.345.67.890: 服务器端 ip1234: 服务器端口将服务器上整个...

26 0 0
git添加上游仓库
1. 添加 upstream 远程仓库如果你是从一个仓库 fork 下来的，通常需要将原始仓库作为 upstream 远程仓库。假设原始仓库的...

140 0 0

Linux生成 SSH 密钥，以及authorized_keys
1. 生成密钥（如果还没有的话）可以通过ls ~/.ssh 方式查看有没有 2. 选择存储位置(可选) 系统会提示你选择存储密钥的位置：如...

272 0 0
五大过程组-十大知识领域-49个过程-工具使用

75 0 0
绩效域

106 0 0
DeepSeek-R1论文浅读
DeepSeek-R1-Zero：直接从DeepSeek-V3-Base进行强化学习RL训练，大概进行了数千步，就能展现出强大的性能和惊人的推...

398 0 0
ReFT论文浅读
ReFT: Reasoning with Reinforced Fine-Tuning[https://arxiv.org/abs/2401.0...

273 0 0

DeepSeekMath论文浅读(GRPO)
Group Relative Policy Optimization(GRPO) ，从DeepSeekMath[https://arxiv.or...

3367 0 0
PPO（Proximal Policy Optimization）
PPO（Proximal Policy Optimization）是一种广泛使用的强化学习算法，它通过优化策略来训练智能体，旨在提升训练过程的稳...

1731 0 0

暂无个人介绍