超算的优势

计算速度快

(3.39亿亿次/秒)

资源规模庞大

(几万个计算节点)

高效资源调度

(Slurm和弹性资源分配)

价格低廉

(几毛/核小时)

超算的案例

轻量算例在HPC平台的表现

提到HPC,大部分人可能会认为仅适用于大规模、重量级的算例。这个想法无可厚非,毕竟这样的算例只有HPC平台能够胜任。那么对于个人机、工作站和HPC平台有交集的轻量算例,HPC平台是否具有优势呢?这是本期案例研究我们将要回答的问题。查看更多>>

HPC 简介

在CFD仿真中,大规模计算能力是衡量一个平台应用能力的重要指标,那么HPC是什么,怎样影响工程设计以及哪些因素又影响着HPC的性能。查看更多>>

OpenFoam HPC 性能研究

OpenFoam 作为开源CFD软件代表之一,具有很多类型求解器和求解格式供用户选择。其支持大型并行计算,本案例研究对其并行能力进行考察,给出参考结论。查看更多>>

Fluent HPC 性能研究

Fluent 是ANSYS 旗下CFD软件之一。本案例研究对其并行能力在工作站和集群上进行了考察,考察的算例包括汽车油泵内流计算,机翼和汽车外流计算。查看更多>>

CFX HPC 性能研究

CFX 是ANSYS 旗下CFD软件之一,在叶轮机械等方面应用广泛,本案例研究对其并行能力在工作站和集群上进行了考察,考察的算例包括汽车油泵内流计算,机翼和汽车外流计算。查看更多>>

Abaqus Explicit HPC 性能研究

Abaqus软件是著名的结构动力学分析软件,广泛应用于强度计算、动力学分析等领域。 Abaqus Standard能够广泛领域的线性和非线性问题,包括静态分析、动态分析,以复杂的非线性耦合物理场分析等。查看更多>>

Abaqus Standard HPC 性能研究

Abaqus软件是著名的结构动力学分析软件,广泛应用于强度计算、动力学分析等领域。 Abaqus Standard能够广泛领域的线性和非线性问题,包括静态分析、动态分析,以复杂的非线性耦合物理场分析等。查看更多>>

轻量算例在HPC平台的表现

摘要:

提到HPC,大部分人可能会认为仅适用于大规模、重量级的算例。这个想法无可厚非,毕竟这样的算例只有HPC平台能够胜任。那么对于个人机、工作站和HPC平台有交集的轻量算例,HPC平台是否具有优势呢?这是本期案例研究我们将要回答的问题。

关键词: 个人机, 工作站,HPC。

计算平台

我们选择三个平台进行了考察:

A平台个人机,选用 Intel I7-4710,共8个核心。

B平台为工作站,选用 Intel E5-2650 处理器,其具有双CPU总共40个核心。

C平台天河2高性能HPC平台,其节点通讯由自行研发的Express2 链接。

表格 1 求解平台
Personal Computer A Intel I7-4710 8 核心 SSD PX-256G硬盘,16G内存
Workstation B Intel E5-2650 20核心 双CPU SSD 850-256G硬盘 64G内存
Cluster C 24 核心/节点 66G内存/节点,节点通讯:Express 2

计算算例

算例介绍

我们选取的算例为NASA 标准算例,ONERA M6 翼型。工况采用0.8马赫,0攻角来流。求解器选用了CFX可压缩稳态求解器。模型如图 1所示。

图 1 无粘ONERM6算例

为了突出算例的轻量化特点,网格的数量我们设定为400000网格。这个量级的网格在个人电脑和工作站上可以轻松完成,因而学术/设计人员一般倾向于在个人电脑/工作站上完成计算,然而,HPC平台用来计算这样级别的算例,会呈现怎样的性能呢?

表格 2 CFX 求解参数设置
时态 流态 流体模型 湍流模型 平均流数值格式 湍流格式 最大步数
稳态 湍流 SST 可压缩RANS 高精度 高精度 100
图 2 算例收敛曲线

计算结果

表格 3 测试算例在天河2上的表现
TianHe2 HPC
核心数 耗时/s 加速比 并行效率
1 1500 1.00 1.00
2 773 1.94 0.97
4 557 2.69 0.67
8 301 4.98 0.62
16 228 6.58 0.41
32 137 10.95 0.34
表格 4 测试算例在40核工作站上的表现
WorkStation
核心数 耗时/s 加速比 并行效率
1 2070 1.00 1.00
2 1070 1.93 0.97
4 883 2.34 0.59
8 577 3.59 0.45
16 424 4.88 0.31
32 425 4.87 0.15
表格 5 测试算例在8核个人机上的表现
Person Computer
核心数 耗时/s 加速比 并行效率
1 1300 1.00 1.00
2 793 1.64 0.82
3 704 1.85 0.62
4 714 1.82 0.46
5 922 1.41 0.28
6 1006 1.29 0.22
图 3 三种平台加速比比较
图 4 三种平台并行效率比较

结论

轻量化算例在HPC平台上并行可扩展性远好于工作站和个人电脑,体现在一下两点:

(1) 轻量算例在HPC平台上能够保持优秀的加速效果,在个人电脑和工作站上加速效果非常有限,分别不超过2和5。因而HPC更省时。

(2) 相同核数下,HPC并行效率高于工作站和个人电脑,因而HPC更具经济性。

HPC 简介

摘要:

在CFD仿真中,大规模计算能力是衡量一个平台应用能力的重要指标,那么HPC是什么,怎样影响工程设计以及哪些因素又影响着HPC的性能。

高性能计算及重要性

此时,你可能思考的一个最基本的问题是:“到底什么是高性能计算呢?”高性能计算,英文名称High Performance Computing,简称HPC。 通常指提供以更高性能的方式聚合计算能力的做法,这些做法提供了比典型台式计算机或工作站更高的性能,以解决科学,工程或业务中的大问题。

CAE仿真技术在过去几十年得到了长足的发展,而HPC服务能力则逐渐变成当代CAE企业核心竞争力。现当代的工业设计对高性能计算的需求体现在:

1) 具有多物理学,多学科方法的复杂几何的高保真度建模的要求需要极大的计算能力。

2) 在设计周期内,这些建模和分析必须在可接受和具有挑战性的时间尺度和精度下完成;并且执行这些模拟的平台可用性方面必须是稳定可靠的。

HPC是唯一能够满足这种高要求的计算资源。波音公司在过去几十年其每一代客机的研制上逐步采用CAE仿真技术,而且这些技术的应用面也逐渐深入——从单纯的无粘气动计算,到粘性RANS计算以及流固耦合等。而在波音最新大型客机波音787的设计上,则将仿真计算融入气动与控制等多物理交叉仿真中。这些进步,依赖于高性能计算能力的提升,是波音等公司不断推陈出新、有效控制市场的核心竞争力之一。而且可以预见的是,随着将来计算能力的进一步提升,更先进的算法如LES、DNS将会在工程设计中逐渐发挥作用,其产生的影响无法估量。

图 1 罗尔斯罗伊斯CAE工作室

HPC 带给工程设计的好处

更逼真

高性能并行计算能够支持高保真(higher-fidelity)模型——包括更多的几何细节,更大的系统和更复杂的物理学,为工程仿真提供了很大的价值。采用精细模拟可以准确的预测在现实世界条件下产品的性能,使工程团队有信心对产品进行创新,有助于确保产品在市场上取得成功。

图 2速度云图:粗糙模型 VS 精细模型

给出了一个粗糙模型和精细模型泵的仿真模拟,两者给出的结果差距显而可见,在最大速度方面误差达到了100%,而质量流量方面的误差也达到了5%—工程设计优化的空间一般也不会这么大。因此,采用粗糙模型进行的仿真结果往往并不可靠。虽然更精细的模型意味着更大的计算量,但是HPC+的方案不会增加仿真时间,而得到的结果是更为可靠。

图 3 质量流量:粗糙模型 VS 精细模型

更全面

HPC可以通过实现更大的仿真吞吐量来增加价值。能够比以往更全面细致的进行工程设计。

参数全面设计:使用HPC资源,工程团队不仅可以分析单一设计思路,而且可以考察很多设计替代方案。通过同时对多个设计思路的模拟,研发团队能够在早期阶段定位突出的设计改进,而不是仅仅局限于设计原型进行改进。参数化优化设计近些年发展比较迅速,而其实用性支撑之一便是强大的计算能力。HPC还可以通过多参数设计实现自动化寻优设计。

工况全面考察:对于某些工程产品,其工作并不是局限于一个点,而是涵盖了一个范围。例如高超音速飞行器,其工况可从低亚音速到高超音速范围,高度可从地面到高空几百公里。对于类似这样的情况,对其模拟就不能在局限于一个点。采用HPC并行,可以同时对多个工况进行计算,得到其任务包线对应的性能。

图 4 HIFIRE-5 高超音速飞行工况涵盖广

更省时

采用HPC 最典型的优点是减少计算时间。越复杂的模型,HPC应对越有优势。现代先进的商业软件有着非常优秀的并行能力,例如fluent的并行效率平均可达80%以上。这意味着一个一年在单核台式机上能够完成的计算,在一个450核的HPC平台上一天之内便能够完成。

图 5 HPC 能够显著减少计算时间

4. 什么样的问题适合HPC

满足以下条件之一,就可以考虑使用HPC

1. 大规模:There is a 3D problem to solve

2. 湍流:There is a need to solve turbulence

3. 复杂流: Flows involve flow recirculation, reversed flows, and gradients

4. 先进格式、算法:There is a need for direct numerical simulation, large eddy simulations(LES), or detached eddy simulations (DES),high accuracy scheme like DG

HPC 平台关键因素

节点连接:

数据通讯速度需要足够快,图 6和图 7给出了对不同节点链接方式OPENFOAM 和 fluent 软件的测试,结果表明,节点连接方式对HPC求解速度有5~20倍的速度影响。常用的以太网连接方式普遍速度较慢,难以适应HPC的要求。而InfiniBand连接,其求解速度则大大增加。蓝威提供的HPC平台采用了更加先进的Express 2连接,其延迟比InfiniBand 还小。

图 6 不同网卡链接造成的计算速度差别比较明显
图 7 不同网卡链接造成的计算速度差别比较明显

内存空间及类型:

内存空间是对程序和动态数据的缓存场所,HPC由于核数的增多,对于单节点内存数量要求反而不是很高。但是内存的工作性能如频率也会影响数据传输速度,进而影响程序效率。

存储空间及类型:

存储空间是对静态结果的储存场所,对于超大算例和非稳态算例,存储空间的要求较高。而硬盘的存储类型则也会影响HPC的求解速度。近年成熟的固态硬盘相比机械硬盘,可以使得求解速度进一步加快数倍。但是大规模部署固态硬盘代价依然比较高。

HPC应用性能评估

在CFD模拟中,并行计算能力是衡量一个平台应用能力的重要指标。可以设想,如果一个案例采用单机单核计算,耗时如果为100天时间(实际工程算例可能往往更长),那么采用并行效率100%(当然实际中,由于通信存在,一般较好只能达到90%)的并行框架,100核心计算则一天之内可以完成相同的计算。这样的仿真速度无疑是工程设计所需要的。在实际的操作过程中,并不是计算能力越强,算例就越快或者越经济。采用高性能计算,尤其是企业用户,需要考虑多方面的因素,其中耗时和耗资是比较关心的两点。对于用户,要注意根据自己的需求平衡好这两点之前的选择。对于HPC 性能,专业的评估包含三个参数

Performance rate

Performance rate表征一个计算配置可以在一天之内重复完成计算的次数,用数学表达式就是:

Performance rate=
24小时
单算例耗时

采用Performance rate,工程人员可以很直观的评估计算大概需要多长时间完成。

加速比

加速比表征一个计算配置相比串行计算加快的程度,属于省时角度的考虑,用数学表达式就是:

加速比=
并行耗时
串行耗时

采用加速比,工程人员可以很直观的评估计算的快慢程度。

并行效率

并行效率表征一个计算配置其经济性,属于省钱角度的考虑,用数学表达式就是:

并行效率=
串行耗时
并行耗时 * 核数

HPC性能评估举例

算例介绍

我们选取的算例为NASA 标准算例,ONERA M6 翼型。工况采用0.8马赫,0攻角来流。求解器选用了fluent可压缩、隐式稳态求解器。模型如图 2所示。

图 8 无粘ONERM6算例

时间-耗资决策:单纯的看加速比,可能并不有益于企业做出最有利的决策。我们以40w网格算例为例,单核计算时需要支付的费用是最少的,我们以此费用为1。当计算核心数较少时,计算耗时会比较大,这时候影响决策的主要是耗时。对于工程设计,需要在可接受的时间内完成仿真计算,以防耽误工程项目进度,所以需要适当的增加费用支出,以换取合适的仿真时间。但是当核心数太多时,这种换算会非常不划算,我们可以看出,对40w网格算里当核数超过150后,进一步增加核数并不能进一步降低仿真耗时,反而,需要支付的仿真费用不断上涨。

图 8 无粘ONERM6算例
图 9 算例云图和流线分布
图 10 40w网格算例表面力残差收敛过程

性能度量

总时间特性度量:由于测试期间可以获取的节点数目为20个,总计480个计算核心,我们只对40w网格的算例测得了能完整反应fluent软件核数和计算能力变化的曲线。如图 5所示,在这个完整的测试中,我们能够看出,在核数较少时,适当增加核数能够带来明显的加速效果,而当核数较多时,其耗时不再变化。这个时间大约为70多秒,大体上反映了fluent并行通信所耗时,这个瓶颈主要决定于超算平台的架构。

图 11 40w网格算例耗时与核数对比

加速比度量:绝对消耗的时间参考意义不大,加速比是一个更能评价并行能力的参数。理想的加速比应该和核数是一样的,但是考虑到通信传输,代码实现等实际情形,加速比很难达到理想。图 6给出了多种网格测试得到的加速比曲线。可以看出,网格数较少的核数能获得的加速比也不高,例如40w网格获得的最大加速比约为30左右。而在测试到的配置下,3000w网格能够达到的加速比为300左右。所以,对于不同的网格数,需要预先估计获得最佳使用核数,太多的核数可能并不能提供进一步的加速,反而会形成资源浪费。但总体来说,对于千万网格级的大规模计算,其加速比会很好,特别适合于在超算平台上进行计算。

图 12 加速比

时间-耗资决策:单纯的看加速比,可能并不有益于企业做出最有利的决策。我们以40w网格算例为例,单核计算时需要支付的费用是最少的,我们以此费用为1。当计算核心数较少时,计算耗时会比较大,这时候影响决策的主要是耗时。对于工程设计,需要在可接受的时间内完成仿真计算,以防耽误工程项目进度,所以需要适当的增加费用支出,以换取合适的仿真时间。但是当核心数太多时,这种换算会非常不划算,我们可以看出,对40w网格算里当核数超过150后,进一步增加核数并不能进一步降低仿真耗时,反而,需要支付的仿真费用不断上涨。

图 13 40w算例资源消耗

图 8 给出了不同网格配置情形下的相对费用消耗情形。可以看出对于网格数越小的算例,相对费用变化越大,而对于网格数较大的算例,相对费用变化较小。其原因在于大型算例在我们测试的核数范围下,保持了较好的加速比,也就意味着很好的并行效率,也就意味着用核数换时间的减少这笔买卖是划算的。因此,在计算大型算例时,正确选择超算规模,是可以实现节资省时的!

图 14 不同网格配置算例相对费用估计

参考

https://www.twinmesh.com/blog/spotlight-on-the-impact-of-mesh-resolution/

Scalability Performance Analysis of OpenFoam on Modern HPC Clustering Technologies

ANSYS Fluent 16.1 Performance Benchmark and Profiling

OpenFoam HPC 性能研究

摘要:

OpenFoam 作为开源CFD软件代表之一,具有很多类型求解器和求解格式供用户选择。其支持大型并行计算,本案例研究对其并行能力进行考察,给出参考结论。

算例参数配置

选用了常用的方腔流动,主要流动参数和求解器参数如表格 1所示。

表格 1 方腔流动参数
参数
雷诺数 1000
动力粘度 0.0001
模型尺度 0.1 x 0.1 x 0.1 m
驱动速度 1m/s
仿真步长 0.0001s
仿真步数 200
压力求解方式 PGC
并行分解方式 简单类型
OpenFoam版本 2.2
2. Fluent 高性能计算能力评估

计算平台配置

采用Silicon Graphics公司的SGI平台。 该型号是具有1404个节点,每个节点都携带两个八核Intel Xeon E5-2670 CPU和32 GB内存。 节点通讯是FDR和FDR-10 Infiniband。 对于较大的网格大算例,网格被拆分为9的倍数,这样有利于工作队列的通讯和分片,使得并行效率能够反应求解问题本身。

网格节点配置

进行的仿真算例如下所示. 2700万网格在单节点上的仿真由于内存不足没有进行. 另一方面,比较小的网格在较多节点上的计算也没有进行,因为这时候通讯时间占据主要时间,对于结论不会产生任何影响。

表格 2 测试算例:核数/网格数指定情况
节点(核数) 100万 340万 800万 1560万 2700万
1N(16 cores) ×
2N(32 cores)
4N(64 cores)
9N(145 cores)
27N(432 cores)
36N(576 cores)
72N(1152 cores)
144N(2304 cores)
288N(4608 cores) × ×

结论

这个案例研究了OpenFoam 的并行可扩展性能,结果通过加速比和效率来反映。加速比主要反映一个问题随着核数的增多,其速度变快的多少,直接反映了用户需要付出的时间。效率则评价了完成计算所需的work(核数x小时数),这直接体现了用户需要支付的费用。有以下几点结论

(1)加速比:对于测试的网格数目,加速比分别在288核、1152核、1152核、2304核、2304核达到最佳。

图 2 OpenFoam 加速比随网格数并行核数的变化

(2) 并行效率:从结果来看,100万网格在64核并行效率最高,340万网格在145核并行效率最高,800万网格在288核效率最高,1560万网格在432核效率最高。

图 3 OpenFoam 效率随网格数并行核数的变化

(3) 用户决策

加速比和效率给出了两种基于不同考虑的选择评判。 加速比单纯的衡量了由核数提升带来的时间减少。但是当核数提升到一定程度,虽然继续增加核数,速度依然会增加,但这时候的代价较大:也就是增加的核数产生的加速效果会逐渐变弱。所以定义效率更加科学的衡量由核数提升带来的总的效益。

加速比=
单核运行时间
多核运行时间
效率=
效率 * 多核运行时间
单核运行时间

而且通过图 2和图 3可以得知,最佳加速比对应的核数远大于最佳效率对应的核数。总而言之, 对于对求解速度看重的用户,应该优先考虑高的加速比,对于看重求解经济性的用户,则应该优先考虑高的效率。为此,我们将OpenFoam 随着网格数不同这两个参数的最佳选择给出,如图 4所示。

图 4 最优加速比,最佳效率VS网格数

Fluent HPC 性能研究

摘要:

Fluent 是ANSYS 旗下CFD软件之一。本案例研究对其并行能力在工作站和集群上进行了考察,考察的算例包括汽车油泵内流计算,机翼和汽车外流计算。

关键词: Fluent17.0、油泵、翼形、汽车、并行、旋转坐标系

计算平台

Cray XC40 超级计算机。Cray XC40是由Cray制造的大规模并行多处理器超级计算机。 它采用英特尔的Haswell Xeon处理器,可选的NVIDIA Tesla或英特尔至强Phi加速器组成,通过Cray专有的"Aries"架构链接,存储在风冷或液冷的机柜中。Intel E5-2695v4 processor, 2.1 GHz, Cray Linux

表格 1 求解平台
平台 Cray XC40
CPU Intel E5-2695v4 processor, 2.1 GHz,
操作系统 Cray Linux
节点通讯 Cray专有的"Aries"架构

案例一:四冲程汽油机喷嘴

表格 2 求解模型及参数
参数
网格 200万, 混合网格
软件 Fluient 17.0
模型 Standard K-e Turbulence, DPM, Species Partially Premixed Combustion, dynamic mesh
求解器 Pressure based segregated solver, Green Gauss node based, unsteady
表格 3 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 183.6344 36.000 100.00%
72 2 329.7710 64.649 89.79%
144 4 488.8260 95.830 66.55%
288 8 702.4390 137.707 47.82%
432 12 815.0943 159.792 36.99%
576 16 857.5682 168.119 29.19%

案例二:离心泵

表格 4 求解模型及参数
参数
网格 200万, 六面体网格
软件 Fluent 17.0
模型 Realizable K-e Turbulence, Mixture Multiphase
求解器 Pressure based coupled solver, Least Squares cell based, steady
表格 5 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 2239.7926 36.000 100.00%
72 2 4494.1482 72.234 100.33%
144 4 9191.4894 147.734 102.59%
288 12 28561.9835 459.074 106.27%
432 12 28561.9835 459.074 106.27%
576 16 38831.4607 624.135 108.36%
864 24 51582.0896 829.075 95.96%
1152 32 61714.2857 991.929 86.10%
1728 48 70530.6122 1133.633 65.60%
2304 64 76800.0000 1234.400 53.58%

案例三:循环流化床

表格 6 求解模型及参数
参数
网格 200万, 混合网格
软件 Fluent 17.0
模型 Laminar, Eulerian Multiphase
求解器 Pressure based segregated solver, Least Squares cell based, unsteady
表格 7 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 1965.8703 36.000 100.00%
72 2 4056.3380 74.282 103.17%
144 4 8287.7698 151.770 105.40%
288 8 15780.8219 288.986 100.34%
432 12 22153.8462 405.692 93.91%
576 16 26790.6977 490.605 85.17%
864 24 34909.0909 639.273 73.99%
1152 32 42666.6667 781.333 67.82%

案例四:飞机外流粗网格

表格 8 求解模型及参数
参数
网格 200万, 六面体网格
软件 Fluent 17.0
模型 realizable k-eps turbulence
求解器 Pressure based coupled solver, Green Gauss Node based, steady
表格 9 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 4529.4889 36.000 100.00%
72 2 8575.6824 68.159 94.67%
144 4 16149.5327 128.355 89.14%
288 8 25411.7647 201.971 70.13%
432 12 31135.1351 247.459 57.28%
576 16 34217.8218 271.960 47.22%
864 24 30052.1739 238.852 27.64%
1152 32 28327.8689 225.148 19.54%

案例五:飞机外流细网格

表格 10 求解模型及参数
参数
网格 1400万,六面体网格
软件 Fluent 17.0
模型 realizable k-eps turbulence
求解器 Pressure based coupled solver, Green Gauss Node based, steady
表格 11 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 473.1654 36.000 100.00%
72 2 954.9599 72.657 100.91%
144 4 1975.9863 150.340 104.40%
288 8 4129.0323 314.151 109.08%
432 12 6193.5484 471.226 109.08%
576 16 8408.7591 639.766 111.07%
864 24 12521.7391 952.696 110.27%
1152 32 16074.4186 1222.995 106.16%
1728 48 23351.3514 1776.649 102.82%
2304 64 30052.1739 2286.470 99.24%
3456 96 40658.8235 3093.459 89.51%
4608 128 46080.0000 3505.920 76.08%

案例六:跨音速轴流压气机

表格 12 求解模型及参数
参数
网格 300万, 六面体网格
软件 Fluent 17.0
模型 SST K-omega Turbulence
求解器 Pressure based coupled solver, Least Squares cell based, pseudo transient, sliding interfaces
表格 13 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 3339.1304 36.000 100.00%
72 2 6620.6897 71.379 99.14%
144 4 12255.3191 132.128 91.76%
288 8 22887.4172 246.755 85.68%
432 12 32603.7736 351.509 81.37%
576 16 42146.3415 454.39 78.89%
864 24 54857.1429 591.429 68.45%

案例七:小客车外流

表格 14 求解模型及参数
参数
网格 400万, 混合网格
软件 Fluent 17.0
模型 Standard K-e Turbulence
求解器 Pressure based coupled solver, Green-Gauss cell based, steady
表格 15 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 2979.3103 36.000 100.00%
72 2 6127.6596 74.043 102.84%
144 4 12847.5836 155.242 107.81%
288 8 25411.7647 307.059 106.62%
432 12 37565.2174 453.913 105.07%
576 16 52363.6364 632.727 109.85%
864 24 73531.9149 888.511 102.84%
1152 32 84292.6829 1018.537 88.41%
1728 48 101647.0588 1228.235 71.08%
2304 64 108000.0000 1305.000 56.64%

案例八:燃烧室通流

表格 16 求解模型及参数
参数
网格 1200万, 多面体网格
软件 Fluent 17.0
模型 Realizable K-e Turbulence, Species Transport
求解器 Pressure based coupled solver, Least Squares cell based, pseudo transient
表格 17 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 138.6115 36.000 100.00%
72 2 278.2609 72.270 100.37%
144 4 551.4600 143.224 99.46%
288 8 1061.4251 275.672 95.72%
432 12 1565.2174 406.516 94.10%
576 16 2063.2836 535.873 93.03%
864 24 2858.5608 742.422 85.93%
1152 32 3720.1292 966.187 83.87%
1728 48 4951.2894 1285.942 74.42%
2304 64 6318.0987 1640.928 71.22%
3456 96 8150.9434 2116.953 61.25%
4608 128 8930.2326 2319.348 50.33%

案例九:燃烧室通流 大涡模拟

表格 18 求解模型及参数
参数
网格 1600万, 六面体网格
软件 Fluent 17.0
模型 LES, Partially Premixed Combustion, PDF
求解器 Pressure based segregated solver, Green Gauss cell based, Unsteady
表格 19 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 264.9982 36.000 100.00%
72 2 537.1130 72.967 101.34%
144 4 1093.3941 148.538 103.15%
288 8 2225.6569 302.355 104.98%
432 12 3356.6434 456.000 105.56%
576 16 4403.6697 598.238 103.86%
864 24 6400.0000 869.440 100.63%
1152 32 8228.5714 1117.851 97.04%
1728 48 11707.3171 1590.439 92.04%
2304 64 14545.4545 1976.000 85.76%
3456 96 18701.2987 2540.571 73.51%
4608 128 21492.5373 2919.761 63.36%

案例十:波音飞机起落架

表格 20 求解模型及参数
参数
网格 200万, 混合网格
软件 Fluent 17.0
模型 LES, Acoustics
求解器 Pressure based coupled solver, Least Squares cell based, Unsteady
表格 21 性能表现
核数 节点数 Performance Rate 加速比 并行效率
36 1 177.4492 36.000 100.00%
72 2 353.5188 71.720 99.61%
144 4 715.2318 145.103 100.77%
288 8 1444.8161 293.117 101.78%
432 12 2181.8182 442.636 102.46%
576 16 2918.9189 592.176 102.81%
864 24 4235.2941 859.235 99.45%
1152 32 5610.3896 1138.208 98.80%
1728 48 8074.7664 1638.168 94.80%
2304 64 10666.6667 2164.000 93.92%
3456 96 13500.0000 2738.812 79.25%
4608 128 14163.9344 2873.508 62.36%

案例十一:汽车空调换气系统

表格 22 求解模型及参数
参数
网格 3300万, 混合网格
软件 Fluent 17.0
模型 SST K-omega Turbulence
求解器 Pressure based coupled solver, Least Squares cell based, steady
表格 23 性能表现
核数 节点数 Performance Rate 加速比 并行效率
72 2 231.6199 72.000 100.00%
144 4 526.0274 163.518 113.55%
288 8 1174.3119 365.040 126.75%
432 12 1874.1866 582.599 134.86%
576 16 2573.3433 799.934 138.88%
864 24 4018.6047 1249.200 144.58%
1152 32 5391.5757 1675.994 145.49%
1728 48 8131.7647 2527.793 146.28%
2304 64 10285.7143 3197.357 138.77%
3456 96 14400.0000 4476.299 129.52%
4608 128 17194.0299 5344.835 115.99%
6912 192 20093.0233 6245.999 90.36%
9216 256 22441.5584 6976.051 75.69%

案例十二:赛车外流

表格 24 求解模型及参数
参数
网格 2.8亿, 六面体核心网格
软件 Fluent 17.0
模型 Realizable K-e Turbulence
求解器 Pressure based coupled solver, cell based, pseudo transient
表格 25 性能表现
核数 节点数 Performance Rate 加速比 并行效率
432 12 265.5398 432.000 100.00%
576 16 354.4615 576.664 100.12%
864 24 524.9886 854.091 98.85%
1152 32 692.8629 1127.201 97.85%
1728 48 1020.9749 1660.998 96.12%
2304 64 1374.7017 2236.468 97.07%
3456 96 2031.7460 3305.396 95.64%
4608 128 2664.6106 4334.988 94.08%
6912 192 3936.2187 6403.735 92.65%
9216 256 5150.5216 8379.254 90.92%
11520 320 6272.2323 10204.136 88.58%
13824 384 7464.3629 12143.584 87.84%
18432 512 8816.3265 14343.059 77.82%

结论

(1) 对于各种案例情形,大范围网格数测试表明,fluent普遍并行效率能够在60%~70%以上,采用过多核计算小算例会造成效率下降,而计算大规模算例并行效率可达100%。

(2) 越大型的算例,能达到的加速比越大,更加适合采用更多核数的配置进行计算。

(3) 对于百万级别的算例,fluent能达到几十~几百的加速比效果,对于千万级别网格,fluent能达到几百~几千量级加速比,对于上亿级别的网格,fluent能达到上万量级的加速比。

(4) 前三个算例对比,动网格非稳态涉及到更多物理过程,并行效果更差一些。并行效率随着核数下降快。

(5) 以上算例在相似的计算情形下具有参考性,可用来选择合适的并行规模。

参考:

Using HPC For Computational Fluid Dynamics A Guide To High Performance Computing For CFD Engineers

ANSYS HPC Benchmark

CFX HPC 性能研究

摘要:

CFX 是ANSYS 旗下CFD软件之一,在叶轮机械等方面应用广泛,本案例研究对其并行能力在工作站和集群上进行了考察,考察的算例包括汽车油泵内流计算,机翼和汽车外流计算。

关键词: CFX、油泵、翼形、汽车、并行、旋转坐标系

计算平台

算例的在四个平台上进行了考察:

A平台为工作站,选用 Intel Sandy Bridge架构E5 2680 处理器,其具有双CPU总共16个核心。

B平台为工作站,选用 Intel Gulftown架构Intel X5650 处理器,其具有双CPU总共12个核心。

C平台为四台A工作站通过FDR Infiniband 链接的集群。

D平台为八台B工作站通过FDR Infiniband 链接的集群。

表格 1 求解平台
Workstation A Sandy Bridge 16核心 双CPU
Workstation B Gulftown 12核心 双CPU
Cluster C 4 x Sandy Bridge 16核心 双CPU 节点通讯:FDR Infiniband
Cluster D 8 x Gulftown 12核心 双CPU 节点通讯:FDR Infiniband

案例一:油泵-60万网格

选择的案例之一为用于汽车的油泵,模型的网格数量为60万。采用CFX14.0 k-epsilon 密度基可压缩求解器进行求解,具体参数如表格 2所示。

表格 2 求解模型及参数
参数
网格数 600000
软件 CFX 14.0
粘性模型 k-epsilon
求解器 密度基可压缩求解器
求解类型 非惯性系求解
求解案例

案例二:汽车-180万网格

案例二为赛车模型,模型的网格数量为100万。采用CFX14.0 k-epsilon 密度基可压缩求解器进行求解,具体参数如表格 3所示。

表格 3 求解模型及参数
参数
网格数 1000000
软件 CFX 14.0
粘性模型 k-epsilon
求解器 密度基可压缩求解器
求解类型 性系求解
求解案例

案例三:飞机外流1000万网格

案例三为亚音速翼型绕流,模型的网格数量为1000万。采用CFX14.0 SST密度基可压缩求解器进行求解,具体参数如表格 4所示。

表格 4 求解模型及参数
参数
网格数 1000万
软件 CFX 14.0
粘性模型 SST
求解器 密度基可压缩求解器
求解类型 平动惯性系求解
求解案例

案例四:飞机外流3000万网格

案例四为亚音速翼型绕流,模型的网格数量为5000万。采用CFX14.0 SST 密度基可压缩求解器进行求解,具体参数如表格 5所示。

表格 5 求解模型及参数
参数
网格数 5000万
软件 CFX 14.0
粘性模型 SST
求解器 密度基可压缩求解器
求解类型 平动惯性系求解
求解案例

结论

(1)对于大型算例,例如网格数量在千万级别的,工作站应对存在本质困难,集群计算是唯一选择。

(2)越大型的算例,能达到的加速比越大,越适合采用更多核数的配置进行计算。

(3)对于百万级别的算例,CFX能达到10一级的加速比效果,推荐采用10核左右的计算资源。

(4)对于千万级别的计算,CFX能达到100一级的加速比效果,推荐采用100核左右的计算资源。

(5)CFX普遍并行效率能够在60%以上,采用过多核计算小算例会造成效率下降,而计算大规模算例并行效率可达100%。

参考

Using HPC For Computational Fluid Dynamics A Guide To High Performance Computing For CFD Engineers

ANSYS HPC Benchmark

Abaqus Explicit HPC 性能研究

摘要:

Abaqus 软件是著名的结构动力学分析软件,广泛应用于强度计算、动力学分析等领域。 Abaqus Standard能够广泛领域的线性和非线性问题,包括静态分析、动态分析,以复杂的非线性耦合物理场分析等。它采用隐式求解方法。在每个求解增量步中,隐式地求解方程组。Abaqus Explicit 适用于求解非线性动力学问题和准静态问题,特别是用于模拟短暂、瞬时的动态事件,如冲击和爆炸问题。此外,它对处理接触条件变化的高度非线性问题也非常有效(例如模拟成形问题),可以进行显示动态分析。在时间域中以很小的时间增量步向前推出结果,而无需在每个增量步求解耦合的方程系统或者生成总体刚度矩阵。

本期案例研究通过一些典型算例研究Abaqus Explicit在高性能计算平台上的性能表现。

关键词: Abaqus Explicit、HPC

计算平台

计算平台采用了惠普 SGI ICE 8400 高性能计算平台。该平台共有128个节点,每个节点采用两个Intel Xeon X5680 6-core@3.33 GHz 处理器,配有24GB内存,节点通讯采用QDR InfiniBand架构。操作系统为SUSE11 LINUX

表格 1 求解平台
平台 SGI ICE 8400
CPU Intel Xeon X5680 6-core@3.33 GHz
内存 ECC Registered DIMMs,24GB/节点
节点 128 x 2CPU
操作系统 SUSE11 LINUX
节点通讯 QDR InfiniBand

案例一:汽车碰撞

该基准由客车撞击刚性壁组成。汽车网格主要类型S3RS和S4RS, 采用各向同性行为米塞斯壳单元。这辆汽车的各种部件连接采用多点约束和连接单元。许多的悬挂和传动部件视为刚体。汽车、路面和墙壁被放置在一个普通的接触区域内,汽车的初始速度为每小时25英里。自由度为27万,迭代6.3万次。

表格 2 性能表现
核数 节点数 加速比
1 1 1
12 1 6.79
24 2 12.2
36 3 16.89
48 4 20.06
60 5 22.42
96 8 24.89

案例二:手机跌落

这个基准由一个简化的手机模型碰撞固定的刚性地板。手机部件啮合,采用的网格类型包括C3D8R,c3d10m,和S4R。材料行为是采用线弹性、各向同性硬化米塞斯的可塑性和弹性模型。模型基于表面的网状结构组装而成,并放置在包括地板的一般接触区域内。手机的初始速度和方向设定为能够发生严重的斜碰撞。自由度为4.5万,迭代8.7万步。

表格 3 性能表现
核数 节点数 加速比
1 1 1
12 1 7.09
24 2 12.47
36 3 15.04
48 4 18.49
60 5 20.24
96 8 22.9

案例三:板料成型

这个基准由冲压成形金属板件组成。可变形的金属片与型壳采用S4R单元网格,使用各向同性硬化米塞斯塑性材料。分析序列由两个步骤组成:在第一步骤中,坯料夹在粘合剂和模具之间,然后在第二步骤中,冲头移位形成零件。由于该过程基本上是准静态的,计算在足够长的时间段内执行,以使惯性效应可以忽略不计。这种分析的性能直接影响到三维接触算法的性能。自由度为3.45万,迭代3.17万次。

表格 4 性能表现
核数 节点数 加速比
1 1 1
12 1 6.49
24 2 13.17
36 3 18.87
48 4 23.43
60 5 25.32
96 8 24.87

案例四:子弹穿透

这个基准由一个弹丸以斜角穿透钢板。子弹和钢板采用六面体单元C3D8R型。该板的边缘保持固定,并指定弹丸的初速,使弹丸完全通过该板。自由度为23.7万,迭代1.24万次。

表格 5 性能表现
核数 节点数 加速比
1 1 1
12 1 4.48
24 2 5.83
36 3 6.2
48 4 6.55
60 5 6.78
96 8 6.27

案例五:平板冲击加载

该基准由一个高强度爆炸载荷作用下的加筋钢板组成。板啮合使用型S4R壳单元和使用各向同性硬化米塞斯塑性材料模型。自由度为5万,迭代8.17万次。

表格 6 性能表现
核数 节点数 加速比
1 1 1
12 1 7.36
24 2 13.97
36 3 20.61
48 4 26.31
60 5 30.16
96 8 31.71

案例六:同心球

这个基准由大量同心球体组成,每个球体之间有间隙。球体采用六面体单元C3D8R啮合型和使用各向同性硬化米塞斯塑性材料模型。所有的球体都被放置在一个普通的接触区域内,外层受到剧烈的震动,这就导致了球体之间复杂的接触相互作用。自由度为24.4万,迭代2.32万次。

表格 7 性能表现
核数 节点数 加速比
1 1 1
12 1 5.74
24 2 9.85
36 3 12.52
48 4 16.38
60 5 18.14
96 8 23.7

结论

(1)各种算例测试表明,在核数比较少时,Abaqus Explicit有比较好的并行扩展性,但是在核数达到50左右以后会达到瓶颈,加速比难以提升。

(2)于CFD类软件相比(具体请参考fluent,cfx,openfoam的评估),Abaqus Explicit并行效率不超过60%,这主要于求解问题的可并行性相关,CFD一般采用有限体积法,是局部依赖的求解,特别适合并行,而FEA采用有限单元法,是全局依赖的求解,并行算法难以实现。

(3)网格数多,迭代次数多,或者简单的说计算量大的案例,展现出的并行效果更好。

(4)以上算例在相似的计算情形下具有参考性,可用来选择合适的并行规模。

参考

【1】《ABAQUS有限元实例详解》石亦平等

【2】Abaqus HPC Benchmark

Abaqus Standard HPC 性能研究

摘要:

Abaqus 软件是著名的结构动力学分析软件,广泛应用于强度计算、动力学分析等领域。 Abaqus Standard能够广泛领域的线性和非线性问题,包括静态分析、动态分析,以复杂的非线性耦合物理场分析等。它采用隐式求解方法。在每个求解增量步中,隐式地求解方程组。Abaqus Explicit 适用于求解非线性动力学问题和准静态问题,特别是用于模拟短暂、瞬时的动态事件,如冲击和爆炸问题。此外,它对处理接触条件变化的高度非线性问题也非常有效(例如模拟成形问题),可以进行显示动态分析。在时间域中以很小的时间增量步向前推出结果,而无需在每个增量步求解耦合的方程系统或者生成总体刚度矩阵。

本期案例研究通过一些典型算例研究Abaqus Standard 在高性能计算平台上的性能表现。

关键词: Abaqus Explicit、HPC

计算平台

计算平台采用了惠普 SGI ICE 8400 高性能计算平台。该平台共有128个节点,每个节点采用两个Intel Xeon X5680 6-core@3.33 GHz 处理器,配有24GB内存,节点通讯采用QDR InfiniBand架构。操作系统为SUSE11 LINUX

表格 1 求解平台
平台 SGI ICE 8400
CPU Intel Xeon X5680 6-core@3.33 GHz
内存 ECC Registered DIMMs,24GB/节点
节点 128 x 2CPU
操作系统 SUSE11 LINUX
节点通讯 QDR InfiniBand

案例一:重力平板

这个案例分析的是平板在受重力时的变形问题,自由度为108万,迭代1次。

表格 2 性能表现
核数 节点数 加速比
1 1 1
12 1 1.61
24 2 1.61
36 3 1.77
48 4 1.96
60 5 1.96

案例二:离心飞轮

这个案例分析的是飞轮在受离心力时的变形问题,采用一阶六面体单元C3D8R,使用使用各向同性硬化米塞斯塑性材料模型。自由度为47万。

表格 3 性能表现
核数 节点数 加速比
1 1 1
12 1 8.19
24 2 11.67
36 3 15.08
48 4 17.07
60 5 18.84

案例三:发动机缸体

这个案例分析的是发动机钢铁受力变形问题,自由度为523万,迭代5次。

表格 4 性能表现
核数 节点数 加速比
1 1 1
12 1 6.75
24 2 8.7
36 3 10.29
48 4 12.8
60 5 13.54

案例四:支架扩张

这个案例是一个强非线性静态分析,模拟医疗支架装置的扩展。支架是用六面体单元网格划分,采用C3D8型线性弹性材料模型。自由度为18万,迭代91次。

表格 5 性能表现
核数 节点数 加速比
1 1 1
12 1 4.33
24 2 4.52
36 3 5.34
48 4 6.43
60 5 7.47

案例五:轮胎

这个案例是一个强非线性静态分析,决定了汽车轮胎的足迹。轮胎是单元为C3D8,C3D6H和C3D8H六面体单元网格划分。分析序列由三个步骤组成。在第一步骤中,轮胎被安装到车轮上,在第二步骤中,轮胎膨胀,然后在第三步骤中向车轮施加垂直载荷。自由度为73万,迭代177次。

表格 6 性能表现
核数 节点数 加速比
1 1 1
12 1 3.81
24 2 4.49
36 3 5.38
48 4 6.31
60 5 6.96

结论

(1)各种算例测试表明,在核数比较少时,Abaqus Standard有比较好的并行扩展性,但是在核数达到20左右以后会不同程度达到瓶颈,加速比难以提升。

(2)与CFD类软件相比(具体请参考fluent,cfx,openfoam的评估),Abaqus Standard并行效率不超过70%,这主要于求解问题的可并行性相关,CFD一般采用有限体积法,是局部依赖的求解,特别适合并行,而FEA采用有限单元法,是全局依赖的求解,并行算法难以实现。

(3)网格数多,迭代次数多,或者简单的说计算量大的案例,展现出的并行效果更好。

(4)以上算例在相似的计算情形下具有参考性,可用来选择合适的并行规模。

参考

【1】《ABAQUS有限元实例详解》石亦平等

【2】Abaqus HPC Benchmark

X