240 发简信
IP属地:北京
  • AI 一周周报(06.08 - 06.14)

    AI 一周周报(06.08 - 06.14) 本周头条 1. Anthropic Fable/Mythos 模型遭美国政府出口管制,引发行业震动...

  • Resize,w 360,h 240
    训练计算优化的大语言模型

    作者: 我们研究了在给定的计算预算下,训练transformer语言模型的最佳模型大小和标记数量。我们发现,目前的大型语言模型训练不足,这是最近...