视觉大模型基础

基础模型

定义:在大规模数据上以自监督或半监督方式训练的基础模型,可以适应多种其他下游任务。

自监督学习

定义:通过数据本身的内在结构来预测输入数据的其他部分,而不是使用明确的标签。
属于无监督学习中的一类,不需要标签,从输入中自动生成标签

半监督学习

使用部分标记数据和大量未标记数据来训练模型。这种方法的目的是利用未标记数据中的信息来提高学习性能,尤其是在标记数据稀缺或获取成本高昂的情况下。

Vision Transformer (ViT)

vit

宽度width:对应Hidden size,特征维度
层数depth:对应Layers,深度
B/32: vit-base
L/16: vit-large
S/32: vit-small
G/14:18亿参数

MoCo v3

基于ViT架构的自监督学习

MoCo v2:更多数据增强+SimCLR中的映射层

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容