few-shot,one-shot,zero-shot
- Few-Shot指的是在推理过程中,给模型一些任务演示。比如在下图英译法的任务中,会给出K个上下文和补全的示例,期待模型在给出类似的上下文时,对结果进行补全。Few-shot的最主要优点就是大大减少了对特定任务数据的需求,降低了从大且窄的微调数据集中学习到一个过窄分布的可能性。缺点就是,这个方法仍然远远落后于目前最先进的fine-tune模型
- One-Shot在推理过程中,只会给模型一个演示,其余同Few-Shot相同
- Zero-Shot在推理过程中,不会给模型任何演示,只会提供对任务的自然语言描述。这个方法非常便利、鲁棒性强、避免了预训练-微调的虚假相关性,但着实是一个极具挑战的任务。在不给任何例子的情况下,人类可能都很难理解某些任务的形式,更何况模型
GPT-1(2018年6月)
GPT-2(2019年2月)
GPT-2的最大贡献就是验证了通过海量数据和大量参数训练出来的语言模型,可以迁移到下游其他任务,无需额外训练和fine-tune.
GPT-3(2020年5月)
GPT-3尝试解决GPT-2的有效性问题,大幅度将参数增加到1750亿(是GPT-2的100多倍)
GPT-4(2023年3月)
image.png