240 发简信
IP属地:北京
  • pytorch训练经验

    用fp16训练的时候,得单独把transformer layer改成fp32,不然可能loss不降 checkpoint+ddp的时候,可能会报...

  • pytorch下index数据

    1. 通过下标取数据:index_select torch.index_select(input, dim, index)input: 待ind...

  • Resize,w 360,h 240
    DetNet: A Backbone network for Object Detection

    今天读了一篇比较古老的文章,是旷视发表在ECCV18的一篇目标检测文章,DetNet。这篇文章应该紧跟着FPN发表的,主要针对目标检测通用bac...

  • Resize,w 360,h 240
    Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

    这篇文章是从改进ViT输入的角度来做的,在最初版本的ViT中,是将图像分成16*16个patch,每个patch展开为一个向量,作为ViT的序列...

  • Resize,w 360,h 240
    DeepViT: Towards Deeper Vision Transformer

    字节跳动AI Lab最新的工作,研究了如何把ViT做的更深的问题。之前的ViT采用的都是固定的12层,所不同的是head的数目和embeddin...

  • Resize,w 360,h 240
    Training data-efficient image transformers & distillation through attention

    这篇文章最大的贡献就是有效降低了vision transformer的训练成本(时间以及数据),提高了ViT实验的可复现性,本文所提出的DeiT...

  • Resize,w 360,h 240
    Bottleneck Transformers for Visual Recognition

    谷歌和伯克利一起提出的Bottleneck Transformer(BoT)属于一种hybrid network,将cnn和transforme...

  • Resize,w 360,h 240
    An image is worth 16 x 16 words: transformers for image recognition at a scale

    (可能)是第一次大规模的采用纯transformer做cv任务的文章,验证了transformer在cv领域的有效性,大大的挖坑之作。 ViT的...

  • pytorch学习经验(六)torch.where():根据条件修改张量值

    今天写代码的时候遇到一个问题,网络前向过程中有一个张量A,我想把张量A中的大于0的值变成张量B中对应的值,最初的实现是: 然后运行起来就报错了,...