240 发简信
IP属地:上海
  • gpt4o--图像参数

    gpt-4o 学习到的参数 frequency_penalty 和 presence_penalty:防止模型重复内容或鼓励引入新话题。 多模态...

  • openai

    结构化输出 有两种定义数据结构的方式,一种是用类定义(Pydantic),一种是用使用 JSON Schema 字典(tool use时接触的)...

    0.6 10 0 1
  • Palantir

    Palantir Ontology是组织的操作层,Ontology 位于集成到Palantir平台中的数字资产(数据集、虚拟表和模型)之上,并将...

  • MCP开发实战

    构建客户端 具体代码见githubgithub中使用的是DeepSeek API调用 同时也可以调用本地模型进行对话如通过ollama 或者vl...

  • Resize,w 360,h 240
    Qwen3技术报告

    Abstract Qwen3 系列包括dense transformer和MoE架构的模型。Qwen3 的一项关键创新是将思维模式(用于复杂的多...

  • Resize,w 360,h 240
    DeepSeek-V3技术报告

    总结 和原生的transformer架构的decoder部分相比,deepseek架构有几点不同 layernorm替换为RMSnorm FFN...

  • Resize,w 360,h 240
    DeepSeekMoE论文精读

    Abstract 在大型语言模型时代,Mixture-of-Expert (MoE) 是一种很有前途的架构,用于在扩展模型参数时管理计算成本。然...

  • Resize,w 360,h 240
    Llama3技术报告精读--(1)

    总结 Llama3的模型依旧是用的是传统的dense Transformer架构,与Llama2和Llama在架构上没有本质的区别,只是在训练数...

  • Resize,w 360,h 240
    InstructGPT论文精读--Training language models to follow instructions with human feedback

    总结 InstructGPT 的训练方法就是ChatGPT的训练方法 Abstract 作者认为,语言模型越大本质上并不能让它更好地遵循人类的意...