29

新研究开发了名为「Patch-to-Cluster attention」（PaCa）的新视觉Transformer（ViT）方法，可以改善ViT在图像识别、分类和分割对象的能力，降低计算需求，提高模型可解释性。PaCa方法使用聚类技术，使ViT更好地识别并关注图像中的对象，从而解决了计算和内存需求方面的挑战。聚类方法将图像中的部分数据汇聚到一起，从而大大减少了系统的计算需求。优化可解释性上，该方法创建的聚类数量较少，因此可以更容易地查看这些聚类特征，理解AI的数据处理逻辑下一步，研究人员计划将PaCa用在更大的数据集上进行训练测试效果。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。