都在搞端到端,但是端到端到底是什么?

Pipedown-avatar

Pipedown

2024-04-23T20:57:56+00:00

感觉很多人理解的端到端就是纯视觉,通过多个摄像头制造的景深,来识别图片里的像素块到底是什么,然后驾驶的策略实际还是人编程的。

但实际上的端到端,好像完全就不是这么回事,AI根本就不能输出像现在很多自驾的那个建模图,他就是个纯黑盒,特斯拉V12那个建模图就是假的,无论是识别还是驾驶的策略都是机器自学的。
学习的素材就是他们挑选出来的评价5星的司机的驾驶视频跟数据,总之都说自己是端到端,但端到端具体是什么算法,怎么操作,天差地别。

这个黑箱怎么跟雷达搭配?你手写一套策略,AI自己一套策略,矛盾了听谁的?

还说雷达就服务个AEB,其他的就黑盒主导?


总之感觉现在吹端到端的都虚的很,真的有人敢就搞个黑盒让AI自己开?出了问题你自己都找不出来。
Oryxs Grandma-avatar

Oryxs Grandma

从2012年开始火的神经网络就是出了问题找不出来啊…这玩意的哲学就是这样。

OpenAI也不知道为什么GPT能力这么强。
bliner-avatar

bliner

也不能算纯黑盒,现在有人提出一个想法,通过视频生成文字不明觉厉
KaoZ-avatar

KaoZ

端到端吹的就是,以前是人教出来一个会驾驶的ai,现在变成人看着一个会自己教自己学自动驾驶的ai自己学会驾驶,反正结果是它学会驾驶了就行,具体有多会,那只能靠测试积累结果

跟视觉不视觉根本没关系,机器视觉也是视觉,所以雷达图对ai来说也是视觉,无非就是雷达图相关的可以让ai自己教自己的工具少,雷达图特性让用雷达图做ai运算成深度数据的实时算力要求高,现阶段办不到而已,不然基本不会有什么撞静态目标,幽灵刹车之类的玩意,说白了是各家看搞不定了才退回去用纯视觉的啊。。。

你玩过ai绘图用过controlnet就知道了,本质是一样的,各家在各种算法工具的基础上二次开发自己的工具,距离靠把原始内容转成深度图来猜,场景识别靠语义分割之类的来猜,诸如此类,一直猜到把原始数据输出成对方向盘电门刹车踏板的操作上就完成辣

那么你敢用吗

反正我是不敢,哪天硬件算力到10个雷神芯片那么多再考虑吧
AyoCeeko-avatar

AyoCeeko

机器学习的本质就是用一些计算公式,让原本需要无限穷举的判断问题只需要比较少的计算就能得出结果。

但这玩应只注重结果符不符合预期,计算的过程很难说对不对,因为你根本不知道他是怎么算的。

这就导致如果有一个问题,如果大部分时候用错误的方法也能得到正确的结论,ai就有可能一直是在以错误的方式运行,直到有一天这个错误的方式算不出来结果了,这个错误才会被发现。

雷达的效果就是给这个学习过程加一些限制,纯视觉是在判断图片,但雷达测出来的距离是准确的,不论ai判断成什么样,物品跟车的距离雷达是测得准的,这就比较好避免白色大卡车的问题。