=================2023-11-12===============
腹侧神经通路和背侧神经通路 -- 是人脑对 where 和 what 的先验知识,是一种硬件编码的基础结构。
在这个基础上,人脑利用双目*立体视觉,做到了算力节约的三维世界的认知(感受的同时预测),
如果模仿人脑的认知,在神经网络中,加入基础模块或基础元件,让视觉信息从输入开始,就一直保留 where 和 what 信息**,并使用位姿标注***降低训练难度。
*有左右眼信号夹层输入的硬编码
**并同时做预测,并根据异常重新认知
***手动标注,自动标注,模拟生成的技术
=================2023-10-31===============
机器人 双目YOLO到BEV(鸟瞰图)
用现在的机器人的眼睛的中心到周围环境多个物品可以形成一个向量组,然后可以导出来这个机器人的位置。
第一种是不使用BEV,因为计算量比较大,仅使用环形的或球面的一个空间。
第二种是使用BEV,这样可以和大脑神经位置网格,和视觉建图SLAM很好的符合起来。这种方式在用到机械手的时候,还需要再变换一次坐标,或者是使用两套坐标。
这样来看,计算的代价和内存消耗比较高。
双目融合,两张图片进行匹配,最简单的方法就是固定某个焦距(图片重合滑动距离),然后在焦距之内,不匹配的是距离近,在之外的是距离远。同样是用于透过树丛,栅栏网格或者是透过污渍玻璃,观察。
借鉴nerf
=================2023-10-29===============
机器学习 双模块架构的觉醒网络
底层,CNN或transformer结构的拟合器
顶层,世界模型
经过大量训练,底层可以拟合训练数据
顶层的训练才是具有智慧的关键
双模块可以同时训练,也可以先训练底层,然后将顶层作为规则一致性检查器,检查底层的判断逻辑。
为了方便顶层的检查,底层白盒很重要,应有更好的数据标注,更多的人类词汇嵌入*
从另外一个方面看,做顶层的检查也是人工标注数据,高效的注入信息到网络,这比底层的人工手动将图片进行分割,分类标注,要高效的多,也容易的多。更重要的是,这样的标注更有意义,更便于人们对神经网络的白盒理解,是一个白盒正向的反馈。
从输入层到隐藏的处理层,再到输出层。
顶层世界模型这个白盒层(模块)是信息的旁路(信息的输出)还是信息的必由之路?
* 人类语言词汇的嵌入,不能简单的选取100个词,然后训练,应该选取尽量多(10倍?)的词汇,然后蒸馏这个训练好的大模型,裁剪、剪枝,压缩到100 个词。
=================2023-10-29===============
todo 如何在神经网络中, 用transformer内积同时做双目深度探测和分割
=================2023-10-29===============
海马,丘脑,小脑 是一个信息梯级流位置转移的过程,最终处理在大脑皮层?还是在丘脑中整合并形成意识?在海马中沉淀或联接?
彻底的应用自主学习的方法,但是需要加入各种语意模块,包含位置编码器,世界模型,各种梯级感知结构,梯级预测结构,并且将各级结构耦合起来
=================================================