之前有同事问我,你觉得在自动驾驶里,哪个模块最重要且最有难度?
之前我的回答是规划与控制。我当时想到,就像要减肥,感知到“我需要减肥了”这件事情不难,无非是身体更heavy了、体检时体重或体脂率变高了。已然存在太多科学的或不科学的方法帮助我们“感知”到事情的发生,何况,自动驾驶的感知硬件基础已然丰厚。
难就难在为这件事情规划一个可行的操作路径,并使之能够被执行。知道对和做是两码事,实操一件事情要考虑多种因素,才能降低在实施时失败的概率。比如为减肥制定方法,要考量自变量(意志力、动力、科学的方法等)和因变量(身边影响因素)。很多时候我们做事情也是一样的道理,我想在机器世界里亦是。
但现在我的回答变了。从数据集产品的调研中,我意识到数据的重要性,也意识到真实世界很难通过影子来投射,人工标注等方式只是让这个影子尽可能1:1还原现实,同时数据矫正的速度总是慢于技术发展(的需要)。
被动感知,就像柏拉图寓言中洞穴里的囚徒,它看到的世界可能只是世界的agent。事实上,真实视觉体验是极端、动态的。而想要成为觉醒者,就要走出洞穴,迎接真实的视觉体验。
所以在一切智能的发展中,感知算法都是尤为重要的部分,或者说是自动驾驶领域最重要的部分。我们不能再把目光投射到怎么让人工标注数据更好地成为算法的粮食,而是要关注到另外一个命题:怎么样让算法不再依赖于人工标注数据。更准确一点是,怎么样用技术加速“算法不再依赖于人工标注数据”这一状态的到来。
比如加强感知能力。在自动驾驶领域,未来的趋势大抵是无图化或弱图化的(即无高精地图作为感知的有效补充),同时未来为感知算法工程师服务的训练数据可能是无预定义标签的。
比如根据视觉反馈、LLM输出来调整代码、调用控制模块解算控制轨迹,有如VoxPoser机器人。
之前看过的一本书叫《数据驱动的智能驾驶》,作者殷玮在社交平台上的一句话令我印象深刻,在加入行业的第四个月,我才稍明白了其中的含义:感知先验本一盘棋。