1.方法
鉴于信息过载,此论文提出了一个大型语言模型,可以更好地存储、组合和推理科学知识。例如,一个经过训练的模型可能发现不同研究之间的潜在联系。
2. 训练数据
-
训练数据:4800万篇论文、教科书、讲义,数百万种化合物和蛋白质,科学网站,百科全书等等。
-
specialized tokens
prompt
We deviate from existing language model research in one important direction, which is our decision to include prompts in pre-training alongside the general corpora