Transformer为什么这么火?毫末智行工程师一文揭秘

发布时间:2022年07月20日
       该图引用自论文《AnImageisWorth16x16WordsTransformerforImageRecognitionatscale》除了强大的序列建模能力外, Transformer的主要模块Multi-HeadSelf-Attention可以同时感知输入序列的全局信息,

这是Transformer相比CNN的巨大优势。在 CNN 中, 信息只能从局部开始, 随着层数的增加, 可感知的区域逐渐增加。但是Transformer从输入开始, 结构的每一层都可以看到所有的信息并建立基本单元之间的关联, 这也意味着Transformer可以处理更复杂的问题。 Transformer的优化升级目前处于Transformer在视觉上的应用初期。大家使用Transformer的方式主要是指它在NLP方面的应用经验。但是, 如果将 Transformer 直接应用到视觉上, 也存在一些困难。
       首先, 核心模块多头注意力机制(Multi-HeadSelf-Attention)的计算量与块数成正比, 因此视觉中的块数远大于NLP中句子中的词数,

这导致计算量。急剧增加。二、Transformer一点都不错局部关系的学习限制了对局部细节信息的关注。然而, 视觉中的许多任务需要足够详细的信息来做出判断, 例如语义分割。针对上述问题, AI RdSelf-Attention 还可以通过减少子空间的维度和对输入块进行分组来减少计算量, 而不会损失太多的准确性。最后, 通过控制块的粒度, Transformer可以感知不同尺度的信息, 从而实现局部和全局的信息融合。陌陌赤行团队逐渐将上述改进加入到陌陌赤行自己的模型中。未来, 我们将在保证卓越准确性的同时, 不断提升速度, 让Transformer在实际业务中生根发芽。
       该图引自论文“EndtoEndObjectDetectionwithTransformers”。基于 Transformer 的感知算法表现出很强的泛化性和鲁棒性。
       我们坚信, Transformer 的特性极有可能在传统 CNN 算法无法达到的智能驾驶场景中发挥作用。感知能力。有鉴于此, 陌陌行的人工智能团队正在逐步将基于Transformer的感知算法应用于实际的道路感知问题, 如车道线检测、障碍物检测、可行驶区域分割、红绿灯检测与识别、道路交通标志检测、点云检测未来, 等相关的Transformer感知算法更加稳定成熟后, 基于CNN的感知算法将逐渐被取代。变压器技术的进一步应用不仅是视觉算法在各类智能驾驶产品线上的落地, 带来了双倍的效率提升, 也可以让各项视觉性能指标快速达到行业水平。