240 发简信
IP属地:北京
  • 无标题文章

    将强化学习应用于强大的基础模型,并结合已经验证的奖励机制,能够显著提升模型的推理能力和性能。Deepseek-R1、Kimi K1.5均是通过策略梯度算法训练而成的。 # 基...

  • 120
    HTTP协议学习笔记

    一、HTTP简介 HTTP超文本传输协议是用于从万维网服务器传输超文本到本地浏览器的传送协议,HTTP基于TCP/IP通信协议来传递数据(HTML文件、图片文件、查询结果等)...