让大模型出Demo和让大模型投入生产是两回事。前者是为了展示技术能力,后者则需要考虑成本、效率、稳定性等多方面因素。
出Demo的成本很低
大模型在训练中注入了大量的人类经验,让它出Demo并不难,甚至还没有到它的舒适区。
一个Demo的投入成本(提示词、token)很低,输入的提示词信息量极少,但输出的信息量极高。这种惊艳的效果有时候会让人觉得它无所不能。
这也会带来一种错觉。人类线性思考的习惯会让人误以为:“它已经完成了80%的工作量,再投入一些资源就能够把事情做完美了。”
线性投入舒适区
实际上,开发工作符合二八原则。一次Demo的工作量只能占到总体的20%,而要让系统可靠地投入生产,还有80%的工作量要做。
系统可靠性设计或高可用设计无不证明这一点。
从一次Demo到90%的SLA,可以简单看作是线性投入区间(输入的情景信息、提示词少,产出的内容多)。持续和AI对话,就能获得更准确、更接近预期的结果。
生产环境需要极高的可靠性
但大模型本身存在准确性问题,输入的信息也可能不准确,输出的结果也往往只是概略性的。这从底层就决定了,大模型辅助的开发就是一个低可靠性系统,必须遵守系统可靠性设计原理。
系统可靠性实践表明,追求极高可靠性的系统需要投入大量资源,而且这种投入往往是指数级增长的。
90%-99%是一个临界区间。
假如投入1单位资源,让AI产出达到80%准确的信息,那么要达到90%的准确率,可能需要再投入2倍的资源;再往上提高,则可能是10倍、100倍的投入。
正确性一旦进入极难提升的区间,就决定了在更高可靠性要求下,继续投入大模型资源不如由人来承担。
因此,在未来一段时间内,大模型AI投入生产的场景,注定更适合作为一种辅助决策工具。必须有人一起参与,才能让大模型处于一个高价值的输出区间。