算力即是权力非也

admin 2023-12-28 16:14:09 举报

算力即是权力非也

计算能力就是力量？黄仁勋和他的自动驾驶计算怪兽|

我想分享新的智慧驱动

为了进一步提升自动驾驶平台的计算能力，这一次我们选择将两个GPU和两个架构相同的GPU集成到一个平台上，计算能力堆积到800W，一举拿下自动驾驶计算平台计算能力之冠。其实上一代平台也用过同样的玩法。两个GPU和两个基于图灵架构的GPU，计算能力和功耗为500W.只是这一次，在功耗增加1.6倍的情况下，英伟达交出了6.25倍的计算能力。老黄的口气也很大。"驾驶自动驾驶系统是应用于全自动驾驶R&D和测试场景的最佳解决方案."3200TOPS击败特斯拉HW3.0？说到自动驾驶芯片，难免会提到红到紫色的特斯拉HW3.0硬件。HW3.0的整个计算模块可以提供144TOPS的计算能力，功耗为200 W，基于单个OrinSOC的计算平台可以提供200TOPS的计算能力，功耗仅为45 W.

仅从数据上看，两年后交付的OrinSoC确实干掉了量产加载半年多的HW3.0。但是只看计算能力合适吗？答案不合适。AI算法不是一般的计算，计算能力不等于全部。算法的效率更重要。我们回到第一章提到的TensorCore。NVDIA给它起的硬核名字背后其实是一个通用的矩阵硬件。其实OrinSoC的核心部分是昨天发布的AmpereGPU嵌入式，AI能力也是TensorCore给的。HW3.0呢？核心是NPU。以TensorCore为代表的一般矩阵计算和HW3.0中NPU的直接卷积计算，是整个行业两个完全不同方向的区别，这里不好展开，需要专门的文章来说明。事实上，NVDIA通过堆叠大量计算单元提供的高计算能力支持是硬件制造商的职责。但是软硬件分离的结果R&D可能经常导致算法效率没有得到最好的实现，这也是为什么特斯拉用自己的AI算法使用NPU的做法并不通用，反而更高效。怎么理解这件事？笔者咨询了一位负责NPU算法的高级工程师，得到了如下回答：“只看TOPS是没有意义的，要看实际的计算结果。比如你的算法好，网络加速快，你只需要1/5的计算能力就能得到结果。如果你的芯片很快，但是得不到结果，那就是浪费精力。现在神经网络芯片没有统一的标准，没有统一的架构，所以不能用统一的top值来衡量计算能力。”当然，作为一个NPU算法工程师，他认为直接执行硬件计算的NPU是配合极度优化的AI算法最有效的方式。所以在经历了NVDIA新硬件的喷血之后，我发现自主驾驶开发的核心要素其实是算法，或者说是软硬件结合的效率。这也是NVDIA在提供安培架构产品时强调与上一代产品通用性的原因。比如PonyAi开发的基于DriveAGXPegasus平台的自动驾驶仪算法，在NVIDA新硬件交付后可以直接无缝迁移到新平台，继续积累之前获得的算法效率经验。在车载芯片领域，英伟达的主要竞争对手是英特尔的子公司Mobileye，它几乎主导了整个ADAS市场。至于自主驾驶的研发，Mobileye是必不可少的。很多厂商甚至选择大杂烩策略，在开发L4系统的时候使用Intel CPU搭配NVIDIA GPU或者SoC。显然，架构的这种混乱状态严重阻碍了代码的重用，也增加了整个行业的工作量。英伟达的卖点之一是开发人员可以使用的通用架构，从最初的基准开发到模拟再到驾驶测试。更重要的是，虽然新的芯片层出不穷，但仍然保持兼容性，所以运行在Xavier或更老平台上的代码可以直接移植到Orin或后续产品上。展望未来的产品线，英伟达将推出OrinADASSoC，它可以与摄像头和雷达一起安装在挡风玻璃外壳上。这款入门级芯片功耗仅为5W，但可以提供10TOPS的性能，足以驱动现有的ADAS功能。此外，马斯克在推特上提到的下一代自动驾驶硬件将需要2-3年时间，自动驾驶领域的头厂商血战即将打响.你期待吗？