英特尔助力东方超算打造高性能计算一体机

发表日期：2018-08-16 文章编辑：阅读次数：

为了满足科学计算对于高性能计算（High Performance Computing，简称 HPC）系统的苛刻需求，东方超算采用英特尔® 至强® 可扩展处理器，结合专为高性能计算设计的英特尔® Omni-Path（英特尔® OPA）架构，打造了计算性能强、并行效率高、适用性广泛的高性能计算一体机，并在数值天气、工业制造、新材料等领域拥有大量的成功实践。

背景
随着中国经济的崛起与大数据、人工智能等创新技术的快速发展，科研创新持续加速，并催生了大量的新研究方法与工具，科学计算呈现出了井喷式的需求，计算流体力学（Computational Fluid Dynamics，简称 CFD）等应用对于计算系统的性能提出了极高的要求，常规的计算能力远远无法应对复杂的科研任务所带来的挑战。各领域急需计算性能强、并行效率高、适用性广泛的高性能计算集群，以同时满足科学计算、大数据分析和机器学习需求，为科研创新提供加速器和必备条件。
高性能计算一直被视为计算机应用最为璀璨的一颗明珠，在互联网、数值天气、工业制造、新材料等大量的细分领域，高性能计算都起着至关重要的作用。例如，在工业制造领域，便捷高效的工业仿真可大幅加速产品的研发速度，提高产品质量并大幅降低研发费用；在数值天气预报领域，高性能计算显著提升了日常天气、气象灾害和空气质量的预报时效和精度，让更长时间、更精准的天气预报成为可能。而高性能计算系统的性能表现，更成为衡量一个企业乃至国家高新技术研发实力的重要标准。

化解高性能计算的挑战
为打造更高性能、更稳定、适用性更广泛的高性能计算一体机，高性能计算面临以下几大挑战：
1.如何进一步提升高性能计算系统的性能表现
性能特别是浮点计算能力是衡量高性能计算系统的关键标准之一，要提升高性能计算系统的性能，可以采取集群的方式增加服务器的数量，性能提升的效果可以说是 “立竿见影”。但是，服务器节点的增加也会导致高性能计算系统的硬件采购、空间、能耗等方面成本的线性增长，对用户带来不容忽视的成本压力。另外一个可行的方式是高效融合为高性能计算创新和优化的处理器、网络架构、科学计算套件等组件，这个方式成为提升单个计算节点性能表现的优先选择。
2.如何通过网络架构优化应用性能并降低端到端的延迟
对于终端用户来说，要部署高性能计算系统，往往需要解决网络架构的选型问题，专为高性能计算进行优化的网络架构往往具备低延迟、高扩展等优秀能力，能够跨大量节点或核心计数群集进行性能扩展，同时在应用跨群集扩展时保持很低的端到端延迟。另外，在为高性能计算系统选择网络架构的过程中，还需要确保不同网络通信基础设施之间的兼容性，避免对于当前业务以及未来的业务扩展带来影响。

高性能计集群解决方案
为了给用户提供更优秀的高性能计算系统，满足用户科学计算需求，东方超算与英特尔进行紧密合作，推出了高性能计算集群解决方案，其核心的先进性源于英特尔产品与技术。在至关重要的处理器选型过程中，东方超算将目标瞄准了最新的英特尔® 至强® 可扩展处理器。作为最新的 Skylake 架构、14nm 制程以及 6 内存通道的集合，英特尔® 至强® 可扩展处理器拥有重新设计的内存一致性，以及英特尔® 512 位高级向量指令集，每个核心最大支持 2 个 FMA，可大幅提升浮点计算性能，较上一代处理器性能提升显著。
高性能计算一体机的另外一个关键部分是网络架构，需要解决“是选择 EDR InfiniBand，还是 OPA？” 的重要问题。东方超算经过调研和论证，认为英特尔® OPA 采用了先进的无连接设计，提供可扩展更高节点和更多内核数量的性能，使其成为面向高性能计算一体机的理想选择。在验证过程中，英特尔® Omni-Path Switch 和 Host Fabric Interface Adapter 被证明可提供高达 100Gb/s 带宽和极低的通信延迟，从而保障了大规模集群扩展性。
另外，东方超算还使用了搭载英特尔® 至强® 可扩展处理器的英特尔服务器平台以及英特尔® Parallel Studio XE 套件。其中，搭载英特尔® 至强® 可扩展处理器的英特尔服务器平台采用标准19 寸 1U/2U 机架式设计，支持高达 165W TDP，具备科学的散热设计和强大的可扩展性；2U4 节点高密度机架式设计可以有效控制 TCO。英特尔® Parallel Studio XE 套件提供了可帮助C、C ++、Fortran 和 Python* 等软件开发人员利用不断升级的处理器矢量化和并行功能，大幅提高应用程序性能。

表 1. 面向仿真分析领域的东方超算高性能计算一体机配置

在某汽车风洞中心的高性能 CFD 仿真分析集群建设实践中，东方超算为客户建立了涵盖 1276 个英特尔® 至强® 金牌处理器、一套 GPFS 分布式存储（500TB 可用容量），一套基于英特尔® OPA 架构的 100Gb/s 的 2 层胖树无阻塞网络、一套系统管理网络、一套硬件管理网络，详细拓扑如图 1 所示：

图 1. 高性能 CFD 仿真分析集群详细拓扑

高性能计算效果
受益于英特尔专为高性能计算优化的硬件产品与软件工具，以及东方超算在高性能计算领域深厚的技术积淀，东方超算高性能计算一体机的内存带宽与计算性能得到了充分的保证。为此，东方超算以英特尔® 至强® 金牌 6142 处理器、英特尔® 至强® 金牌 6130 处理器和上一代处理器英特尔® 至强® E5-2680 v4 为例，对影响服务器性能的浮点计算和内存带宽进行测试和对比，以验证高性能计算一体机的实际性能，为服务器选型提供参考。
测试平台设置如下：操作系统为 Centos7.5，Linpack 使用英特尔® Math Kernel Library 安装路径下的 Benchmark/mp_linpack 进行 HPL 测试，内存使用至 90%。内存带宽测试使用Stream 基准测试程序，在 BIOS 中将睿频打开。硬件平台配置如表 2 所示：

表 2. 测试平台硬件配置

测试项目如下：
• Linpack 浮点性能测试：通过对参测处理器的 Linpack 性能测试，了解处理器的真实性能；
• 内存带宽测试：对参测的处理器型号在插满内存的情况下进行 Stream 性能测试，测试处理器在内存数量大于等于 12 个的情况下，内存带宽的变化，并测试内存带宽变化后 Linpack性能变化，指导我们优化内存配置，获得最高性能。
结果分析
• 在东方超算的测试配置下，英特尔® 至强® 可扩展处理器较英特尔® 至强® E5-2600 v4 Linpack 性能提升幅度超过 50%，如图 2 所示。

图 2. Linpack 性能提升

• 英特尔® 至强® 可扩展处理器较英特尔® 至强® E5-2600 v4 Stream 性能提升超过 30%。并且在一个内存通道插 2 条内存的情况下内存带宽最高值没有显著变化。

图 3. Stream 性能提升

测试结果表明，东方超算高性能一体机浮点计算和内存访问性能优异，结合 OPA 的双向带宽和单向带宽测试中表现出的良好水平，以及 GPFS 的突出性能，可以帮助用户快速验证和优化包括空气动力学、声学、热力学设计在内的科学计算项目，达到提升科研水平、缩短研发周期、降低研发费用的目的。
除了在性能上表现优异之外，东方超算与英特尔建立的密切合作关系也确保在实际项目的实施过程中，不仅能为用户提供满足实际应用需求的高性能计算解决方案，还能够快速提供产品供货以及技术支持，缩短项目交付周期。在某汽车风洞项目中，东方超算在与用户签订采购合同后 7 天内完成全部设备上架、集群调试和业务负载测试，并交付用户正式使用，获得了用户的高度评价。

文章摘自英特尔精英汇

想购买及了解更多英特尔至强可扩展处理器产品详情，欢迎咨询以下联系方式！

宝通集团联系方式

咨询热线：0755-88603572

宝通官网：atfx7779.com
客户垂询邮箱：cuifang.mo@atfx7779.com

客户垂询QQ：1627678462

地址：深圳市福田区深南大道1006号国际创新中心C座11楼
邮编：518026

南宫28

英特尔助力东方超算打造高性能计算一体机