为加速AI落地企业IT,英伟达布下一盘超大棋局

发布时间:2022年07月29日
       企业在部署和管理应用时, 普遍面临着运营成本高、开发周期长、开发人员和运维人员技术能力高、易用性高、面临不同工作负载或大规模模型部署等不同场景的问题。系统适应性差等挑战,

严重阻碍了企业基础设施应用落地的速度和效果。为此, Nvidia 宣布在全球推出一套全面的工具和框架软件, 以帮助数千家公司使用它来虚拟化认证系统上的工作。截至目前, 浪潮、3、联想、戴尔科技、源讯等全球领先厂商都在提供针对上层工作负载优化的认证体系。图1:是一家经过认证的端到端套件是戴尔旗下一家提供云计算和虚拟化软件和服务的软件公司, 是NVIDIA在企业端到端平台方面的重要合作伙伴。近年来, 两家公司在广泛的技术水平上实现了兼容。通过使数据中心软件兼容英伟达芯片和软件, 降低了企业级工作负载的应用门槛。一个经过认证、易于部署和操作的端到端企业就绪平台, 早期采用者包括全球数十家汽车、教育、金融、医疗保健、制造和技术公司。但是, 随着越来越普及, 我希望改变只有行业先锋才有机会使用它的现状, 让数十万使用计算虚拟化的中小企业有机会使用最广泛使用的世界上的服务器来开发各种各样的应用程序来部署和扩展数据科学、对话式、计算机视觉、推荐系统等。除了端到端的特性, 可扩展的多节点虚拟化性能是软件平台的另一个亮点。简而言之, 它能够将工作负载扩展到多个节点, 以近乎裸机的性能运行,

并在超过 100 台计算机和数据科学中实现突破性的性能。图 2:提供裸机级性能的虚拟化 这种合作是业界首创, 被誉为开启时代新篇章的变革力量。因为对于企业中的研究人员、数据科学家和开发人员来说, 他们拥有成功交付项目所需的软件;对于企业运营商来说, 他们可以使用他们最熟悉的大型数据中心管理工具来提供支持。可以说, 这种组合加速了应用程序、框架、模型, 并为双方实现了可扩展性、多节点性能和兼容性。企业的福音虽然赞不绝口, 但如果只关注, 就会陷入看不到森林的境地, 而忽略其背后更宏伟的计算加速平台。平台思维之所以能称为平台, 是因为它的基本属性是可复制和可扩展的。但是, 应用场景非常复杂和多样化。不可能关注所有的应用场景, 也不可能构建所有差异化的解决方案。只能根据生态伙伴的需求来构建通用技术。考虑可重复性, 以便合作伙伴可以将平台实现到不同的应用场景中。英伟达中国产品总监王永祥使用计算机视觉应用实例, 为我们分析这个思路。在图 1 套件的架构优化层中, 我们可以看到这是构建在其之上的软件加速库的集合, 包括用于加速深度学习的原语, 用于加速数据科学工作流和机器学习算法,

用于执行的库对图等的高性能分析, 与基于图的应用程序无缝协作, 以加快开发和部署。这样, 无论在零售、智慧城市、医疗、音视频和图像处理等领域有什么样的应用, 用户都可以通过 、 、 、 、 等组成的完整工具链完成至少 6070% 的工作。部署, 剩下的3040%的工作可以用于差异化开发。平台详情 该平台为领先的企业数据中心服务器带来计算和图形加速、高速安全网络和企业级管理, 支持大量加速应用, 为客户提供高性能、高性价比的统一基础, 且可扩展 在架构上运行各种传统和现代应用程序的方式使用户能够立即提高生产效率。同时, 该平台还可以轻松集成到现有的行业标准和框架中, 用于用户管理、部署、运营和监控。下图展示了平台的基本架构, 从底层经过认证的企业服务器和一系列优化硬件, 到裸机、虚拟化、容器编排和管理集成软件, 再到上层通过提供的加速应用生态系统和框架 系统构成一整套解决方案。图 3:平台端到端硬件的基本架构硬件和软件产品组合包括可以在数据中心执行实时语音识别、复杂业务预测和沉浸式图形计算体验的身份验证系统, 以及支持边缘图像识别和传感器融合的节能紧凑系列。融合加速器将性能和技术相结合, 以创建更快、更高效、更安全的数据中心。认证制度是王永祥特别强调的。在实际实施过程中, 为了保证用户无论部署在边缘还是企业数据中心, 都能获得开箱即用的体验, 制定了一系列认证规范、标准和流程, 涉及数据采集、产品性能、功耗、安全性、合规性等方面。他说。图4:由NVIDIA中国高级架构师何平带领的团队, 主要负责支持主流服务器企业的合作和认证, 包括对市场上2台刀片服务器的认证测试, 以加速制造、零售、金融、电信等传统行业, 以及元界、远程协作、专业音视频等新兴领域的落地速度。过去, 这些任务往往由业务部门直接发起, 导致偏离企业管理范围, 无法融入企业数据室, 造成混乱。在谈及和屏协同使用的话题时, 何屏回应称, 用户可以根据实际应用场景进行选择。典型场景有:以5信号处理为代表的超低时延应用;具有独特安全要求的客户, 例如, 系统可能在物理上不安全, 但客户数据仍需要保护并需要数据传输。传输过程中实时加密;而如果企业面临计算与存储分离的超融合架构应用, 则需要独立扩展计算节点和存储节点。但无论选择何种形式, 主要工作负载都在平台中进行了全面测试和验证。人工智能的企业级软件 除了前面讨论的端到端云原生套件外, 这一层还包括一个企业管理集成平台, 该平台使用标准数据中心和工具和框架进行管理, 以及虚拟化服务器和桌面。将管理和安全优势与加速性能优势相结合的虚拟化软件。图5:为什么平台中的容器编排和管理集成功能需要虚拟化?王永祥解释说, 很多研究机构的数据表明, 虚拟化服务器平台在很多企业的基础设施中仍然占据着较高的份额。 2020年, 仅中国市场的市值就高达40亿元。随着面向服务、云原生等新场景的不断涌现, 业界对裸机、云原生等服务和支撑能力提出了更高的要求。虚拟化可以帮助分担服务器负载, 提高应用性能, 适用于更多类型的用户。虚拟也可以在多个虚拟机之间共享和分布, 允许为任何工作流、设备或办公室位置创建软件定义的加速。对于企业来说, 将绩效延伸到所有员工更划算。此外, 它还通过栈顶兼容其他行业领先的混合云平台合作伙伴, 包括和, 所有必要的组件已标准化并自动部署以供应集群。是一种专门构建的托管云服务,

用于在分布式边缘基础设施中安全地部署、管理和扩展应用程序, 提供简化的部署、分层的安全性和对全生命周期管理的详细监控, 用户只需花费几分钟即可实现零基础.众所周知, 加速应用的生态系统在当前企业的数字化和智能化转型中发挥着先锋作用, 从数据中心训练和推理、边缘推理、数据分析和机器学习, 到专业视觉和远程协作。这样。不过, 王永祥指出, 由于各自的情况不同, 每个企业在实际落地过程中都面临着各类挑战。终端解决方案呈现在客户面前。图 6:针对多个行业优化的加速应用和框架 以数据中心训练和推理应用为例, 王永祥表示, 根据自己的实际观察和接触, 发现很多行业客户会首先选择公有云或混合云平台陆试, 但随着大数据业务场景的出现, 考虑到实际数据量的增加和数据安全的保障, 越来越多的用户转向自建服务器场景。让我们再看看边际推理。零售、5、医疗、制造、汽车的结合, 开辟了大量新的应用领域, 但这些传统行业在加速落地方面仍存在种种困难。
       为此, 国内提供了大量的容器镜像软件栈, 用户可以直接下载到鉴权服务器, 快速获取算法框架和应用场景。具体来说, 加速应用程序目录列出了数百个优化的加速应用程序, 这些应用程序可以部署在任何使用的本机、云和边缘系统上。该目录还提供用于编写​​加速代码的库、软件开发工具包和工具包;用于构建加速应用程序的预训练模型和框架;以及用于将应用程序投入生产的基于容器的部署服务。为什么需要平台?各行各业的先驱和精通技术的专业人士正面临着越来越复杂的问题, 因为他们生成更多数据并比以往更快地创建更高质量的内容。随着全球团队继续远程工作, 这些挑战呈指数级增长。数据中心现在必须提供所需的图形和计算能力, 以便专业人员可以在虚拟工作站上处理整个企业的多个视觉计算工作负载, 从渲染和工程模拟到虚拟工作站上的交互式图形等等。为了推动视觉计算工作流程, 专业人士需要具有强大计算能力的解决方案来支持最新技术, 并能够支持来自数据中心的各种应用程序和多种工作负载。随后, 支持这些专业人员的团队需要一个安全、可扩展且易于管理的解决方案, 以提供物理工作站的性能, 实现实时协作, 并提供随时随地工作的灵活性。现代应用现代应用程序的挑战是资源密集型的。训练需要大量的计算周期, 而推理通常需要实时响应。数据分析需要跨多个系统进行大量数据传输。产品设计师比以往任何时候都更需要图形能力。只有商业网点的传统服务器无法提供运行这些应用程序所需的计算能力。
       现代应用程序通常需要云原生架构, 即许多微服务组织成复杂的工作流。这给管理、可扩展性、安全性和可视化带来了挑战。企业通常将这些应用程序部署到一次性、单一用途的集群或云中。这增加了运营开销, 而且这些孤岛并不总是遵守企业的可见性、安全性和治理标准。平台的出现正好解决了上述痛点。例如, 通过在共享资源池上运行现代和传统应用程序, 可以消除计算孤岛并降低系统要求, 从而降低成本;企业可以购买为加速计算优化配置的主流服务器。
       单一架构设计理念可加速处理多种工作负载的现代应用程序。各行各业的开发人员都可以利用框架、优化库、集成编译器、预训练模型、推理优化器和其他软件。快速提高产品开发效率;为边缘提供动力 几乎每个行业都在投资边缘计算以加速工作负载。根据 2020 年边缘支出指南, 未来四年企业在边缘硬件、软件和服务上的支出将以 125% 的复合年增长率快速增长, 预计到2024年将达到2500亿美元。没有公司会对此无动于衷, 黄仁勋的领导也不例外。他今年多次强调边际市场的重要性, 外界普遍将平台视为边际市场的有力工具。众所周知, 散布在零售店、医院、工厂车间等地的数十亿个物联网传感器会生成大量数据, 几乎每个现代企业都希望全天候 24/7 地利用这些数据进行适当的建模、推理和决策制定。然而, 要做到这一点, 边缘计算解决方案需要提供强大的分布式计算、安全简单的远程管理, 以及与行业领先技术的兼容性, 提供低延迟、安全性、可扩展性、远程管理, 而弹性修复在五个方面具有足够的优势.以较低的延迟为例, 这很容易理解。边缘计算在本地而不是在云或数据中心处理数据, 因此它可以显着降低实时反馈和决策的延迟和带宽要求。例如, 嵌入物联网设备中的智能传感器可以处理来自安装在工厂车间的自主机器和摄像头的数据, 并立即提醒工人注意异常、故障等。除了嵌入式设备外, 企业还可以将边缘服务器放置在传感器附近(通常在服务器机房或商店、医院或仓库的机柜中), 以进一步减少延迟。再比如, 由于需要在本地处理海量数据, 企业可以充分利用局域网, 提供比云计算选项更高的带宽能力, 实现更广泛的广泛的基础架构可扩展性还使企业能够避免将大型数据集移入和移出云的耗时过程。此外, 近年来, 随着边缘分布式计算的发展, 安全和数据隐私问题也随之而来, 如何保护本地数据和训练好的模型成为许多企业的头等大事。此时, 具有全栈安全功能的边缘计算平台至关重要, 尤其是在面对传输中的数据和静态数据时, 要密切关注数据加密和防篡改功能。一是利用平台让客户在统一架构上标准化, 轻松管理、部署、操作和监控, 为未来需求做好准备, 同时降低成本;二是使用混合云平台。 , 管理和部署在数以千万计的服务器或边缘设备上。这使部门可以安全地远程管理已部署的大型系统, 而无需花费数周的时间来规划和执行部署计划。在王永祥看来, 目前一些非常流行的应用, 包括5、智能驾驶等, 其核心特征之一就是要面对高速数据的交换和吞吐。更短的服务时间要求。但是, 如果面对一些轻边缘市场, 比如摄像头、传感器、雷达等, 受限于计算能力, 更高层次的数据分析、推理和决策仍然需要在云端实现。所以, 准确的说应该是一家全栈计算加速公司, 我们的解决方案可以从边缘到云端全覆盖终端全场景应用。他补充说, 其实它也在不断的融入到管理框架中, 让530功耗、0530算力的嵌入式设备也能受益于完整的软件栈。可以在所有应用场景中实现云边协同。不过, 据何平观察, 虽然云边协同是大势所趋, 但在实际实施过程中, 很多企业都面临着一些实际问题:如何保证远离数据中心的那些设备的数据安全?设备改造时是否需要派员到现场保护和升级数据?如何实现云边缘设备的统一管理?模型中的知识产权如何不被侵犯或盗用?还有很多。因此, 要想达到更好的实时性、安全性和可扩展性的效果, 就需要获得类似平台的支持。