学习:
3D Dual-Fusion旨要通过减小域间间隙来提高检测效果,特征级融合的难点在于融合不同的数据来源的同时,不丢失原域的信息。
本文是针对前面数据处理部分的研究,通过多级交互融合图像和体素特征来实现将多模态原始数据转化成具有多模态的密集BEV特征,将这种密集特征交由现有的3d目标检测器(如transfusion,AutoAlign等)。
主要思想:如果在模态融合过程中分级,特征转换在特定阶段只执行一次,并且不执行其他域之间的后续交互,在一定程度上可以保留原域的特征信息。
方法:双查询(图像和体素)机制引导,自注意力机制对v查询做局部自注意力学习qv得到qv’,双查询自适应注意力层,将qv’做查询Q,将体素对应图像像素作为K,V,做交叉注意力。
读书:
要重输出轻输入
日常:
昨天八点就回宿舍玩了,认真学了一天的感觉真好。