新研究开发了名为「Patch-to-Cluster attention」(PaCa)的新视觉Transformer(ViT)方法,可以改善ViT在图像识别、分类和分割对象的能力,降低计算需求,提高模型可解释性。PaCa方法使用聚类技术,使ViT更好地识别并关注图像中的对象,从而解决了计算和内存需求方面的挑战。聚类方法将图像中的部分数据汇聚到一起,从而大大减少了系统的计算需求。优化可解释性上,该方法创建的聚类数量较少,因此可以更容易地查看这些聚类特征,理解AI的数据处理逻辑下一步,研究人员计划将PaCa用在更大的数据集上进行训练测试效果。
29
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
相关阅读更多精彩内容
- 正则化的目的是稀疏神经网络中的权值,通过一些限制条件,训练使其中的一些不重要的权重为0,从而达到稀疏的目标,并且可...