英特尔第三代至强可扩展CPU提供16位FPU处理

2020-06-29 11:38:47 编辑：来源：

导读英特尔今天宣布了其第三代至强可扩展处理器(分别是金牌和白金牌)处理器以及新一代的Optane持久存储器(阅读：极低延迟，高耐久性SSD)和Strat

英特尔今天宣布了其第三代至强可扩展处理器(分别是金牌和白金牌)处理器以及新一代的Optane持久存储器(阅读：极低延迟，高耐久性SSD)和Stratix AI FPGA产品。

除了硬件加速的AI 之外，AMD目前几乎在所有可能的性能指标上都击败了英特尔，这并不是新闻。对于英特尔而言，这显然也不是什么新闻，因为该公司对至强可扩展处理器的性能与竞争对手的Epyc Rome处理器没有任何要求。更有趣的是，英特尔根本没有提到通用计算工作负载。

要找到所示的唯一非AI代代改进的解释，需要跳过多个脚注。有了足够的决心，我们最终发现概述幻灯片中提到的“ 1.9倍平均性能提升”是指“估计的或模拟的” SPECrate 2017基准，将四路铂金8380H系统与已有五年历史的四路铂金系统进行了比较E7-8890 v3。

公平地说，英特尔似乎确实在AI领域引入了一些非同寻常的令人印象深刻的创新。以前只是为AVX-512指令集打上商标的“深度学习增强”现在也包含了全新的16位浮点数据类型。

借助较早的Xeon可扩展级处理器，英特尔率先并大力推动使用8位INT8整数(通过其OpenVINO库进行推理处理)。对于推理工作负载，英特尔认为，INT8在大多数情况下，较低的精度是可以接受的，同时可以极大地加速推理流程。但是，对于培训而言，大多数应用程序仍需要更高的FP3232位浮点处理精度。

新一代增加了16位浮点处理器支持，英特尔称之为bfloat16。将FP32 模型的位宽减半可加快处理速度，但更重要的是，将模型保留在内存中所需的RAM减少了一半。对于程序员和使用FP32 模型的代码库，利用新数据类型也比转换为整数更简单。

英特尔还深思熟虑地提供了一个围绕BF16数据类型的效率的游戏。我们不建议将它作为游戏或教育工具使用。

Optane储存加速

英特尔还宣布了新一代的Optane“持久内存” SSD，速度提高了25%，可用于大大加速AI和其他存储管道。Optane SSD使用3D Xpoint技术而不是典型的SSD进行NAND闪存操作。3D Xpoint具有比NAND更高的写入耐久性和更低的延迟。较低的延迟和更大的写入耐力使其成为一种快速缓存技术，尤其具有吸引力，该技术甚至可以加速所有固态阵列。

此处最大的收获是，Optane极低的延迟可通过提供对大型而无法完全存储在RAM中的模型的快速访问来加速AI管道(这常常是存储的瓶颈)的加速。对于涉及快速大量写入的管线，Optane高速缓存层还可以通过减少实际必须执行的写入总数来显着提高其下的NAND主存储的预期寿命。

延迟与IOPS，读/写工作负载为70/30。橙色和绿色线是数据中心级的传统NAND SSD。蓝线是Optane。

放大 /延迟与IOPS的对比，读/写工

标签：英特尔