超级AI计算平台X-MAN 30来袭 英业达服务器助力百度全面落地AI战

发布日期:2019-10-08 12:10   来源:未知   

  日前,在加拿大举办的第32届NeurIPS神经信息处理系统大会上,百度正式发布自主研发的超级AI计算平台X-MAN 3.0。该平台专为AI深度学习场景设计,得益于2000万亿次深度神经网络计算能力,X-MAN3.0可提高AI深度学习模型的训练速度。此次百度X-MAN 3.0的快速落地,得到了英业达(Inventec)等服务器系统厂商的积极参与。

  当前,AI训练对计算平台提出了极大挑战,为了提高AI模型的精准度,训练数据集规模平均增长了300倍以上。数据显示,Google Open Image在2017年末就已经达到了900万标记图片,模型规模高速膨胀,一些互联网公司的AI模型已经达到千亿参数的规模。

  这要求用户不仅需要部署更大规模的GPU计算平台,同时该GPU计算平台应具备更大的纵向扩展能力,以解决日益严峻的GPU之间的通信瓶颈。以AI模型常用的三维快速傅里叶变换算法为例,这种算法在GPU并行环境,每三次运算就需要一次全局性通信,对于GPU间的交互带宽高度依赖。

  而百度X-MAN 3.0便是目前扩展GPU数量最多的计算平台之一。借助NVSwitch技术,X-MAN 3.0可以很好地缓解通信瓶颈问题,为互联网公司的超大规模AI训练带来超出预期的应用价值。

  百度X-MAN产品首次发布于2016年,此后每年更新一代。自第一款发布以来,X-MAN三代产品各自都有着鲜明的设计理念:超高计算密度、高效散热能力、兼容多元化AI加速芯片,正是通过3次架构升级,X-MAN有效攻克了3大技术挑战。

  第三代X-MAN产品X-MAN3.0高度为8U,由两个高度分别为4U的独立AI模组组成,每个模组可支持8颗最新的NVDIA V100,两个AI模组间通过高速互联背板连接。GPU间通过NV Switch实现点对点通信,全局单向通信总带宽为2400GB/秒。一码三中三资料

  此外,X-MAN 3.0特地设计了两级AI加速芯片互联交换体系,CPU与GPU间的逻辑关系可通过软件定义方式任意指定,更灵活的支持不同负载的AI应用,避免了系统瓶颈,此乃X-MAN3.0与其他产品的显著区别处。

  当前AI训练芯片领域竞争激烈,众多方案将在2019年相继落地应用。X-MAN 3.0整体采用模组化设计,能够快速、高效的支持各种AI训练芯片,这为百度快速引入更有竞争力的AI训练芯片方案奠定了关键技术基础。

  超级AI计算平台X-MAN 3.0的快速落地,自然少不了服务器系统厂商的积极支持,作为百度在数据中心领域重要的战略伙伴,不仅是X-MAN 3.0,英业达从第二代X-MAN产品开始便积极与百度联合研发包括X-MAN在类的多种AI专用计算平台。

  如在 X-MAN2.0上,得益于英业达的技术研发及制造能力,X-MAN2.0实现了2大差异化技术特征:液冷散热和灵活的IO支持。一方面,AI加速卡的应用使得服务器功耗增长,散热问题成为制约计算力提升的瓶颈,X-MAN2.0通过冷板式液冷散热技术解决散热难题,同时又避免了浸没式液冷技术带来的运维、部署、成本等问题。

  另一方面,AI加速卡的应用,进一步暴露通信瓶颈,X-MAN2.0通过采用灵活的IO接口,可依据业务场景需要适配不同数量的100G RDMA网卡,既解决多机加速的可扩展性技术挑战,同时有效降低网络系统设计的复杂度和成本。

  除AI专用计算平台外,英业达已与百度进行长达8年ODM定制化服务器合作,是百度All in AI战略的重要服务器硬件伙伴。未来,双方会继续深化合作,英业达服务器将进一步帮助百度AI战略全面落地。