英特尔ARM英伟达力推规范草案，想统一AI数据交换格式-流畅下载站手机版

当地时间周三，芯片公司英特尔、ARM和英伟达共同发布了一项所谓人工智能通用交换格式的规范草案，目的是使机器处理人工智能的过程速度更快、更高效。英特尔、ARM和英伟达在草案中推荐人工智能系统使用8位的FP8浮点处理格式。他们表示，FP8浮点处理格式有可能优化硬件内存使用率，从而加速人工智能的发展。这种格式同时适用于人工智能训练和推理，有助于开发速度更快、更高效的人工智能系统。

图 1 - 语言模型 AI 训练（来自：NVIDIA）

在开发人工智能系统时，数据科学家面临的关键问题不仅是收集大量数据来训练系统。此外还需要选择一种格式来表达系统权重，权重是人工智能从训练数据中学习到影响系统预测效果的重要因素。权重使得GPT-3这样的人工智能系统能够从一个长句子提示自动生成整个段落，还能让DALL-E 2人工智能基于某个特定标题生成逼真的肖像画。

人工智能系统权重常用的格式有半精度浮点数FP16和单精度浮点数FP32，前者使用16位数据表示系统权重，后者则使用32位。半精度浮点数以及更低精度浮点数能减少了训练和运行人工智能系统所需的内存空间，同时还加快计算速度，甚至减少占用的带宽资源和耗电量。但因为位数较单精度浮点数更少，准确性会有所降低。

然而，包括英特尔、ARM和英伟达在内的许多行内公司都将8位的FP8浮点处理格式作为最佳选择。英伟达产品营销总监萨沙·纳拉西姆汉（Shar Narasimhan）在一篇博客文章中指出，FP8浮点处理格式在计算机视觉和图像生成系统等用例中的精度与半精度浮点数相当，同时有“明显”加速。

图 2 - 语言模型 AI 推理

英伟达、ARM和英特尔表示，他们将让FP8浮点处理格式成为一种开放标准，其他公司无需许可证即可使用。三家公司在一份白皮书对FP8进行了详细描述。纳拉西姆汉表示，这些规范都将提交给技术标准化组织IEEE，看FP8格式能否成为人工智能行业的通用标准。

纳拉西姆汉说：“我们相信，一个通用的交换格式将带来硬件和软件平台的快速进步，提高互操作性，从而推进人工智能计算的进步。”

当然，三家公司之所以不遗余力推动FP8格式成为通用交换格式也是出于自身研究的考虑。英伟达的GH100 Hopper架构已经实现对FP8格式的支持，英特尔的Gaudi2人工智能训练芯片组也支持FP8格式。

但通用的FP8格式也会使SambaNova、AMD、Groq、IBM、Graphcore和Cerebras等竞争对手受益，这些公司都曾在开发人工智能系统时试验或采用FP8格式。人工智能系统开发商Graphcore联合创始人兼首席技术官西蒙·诺尔斯（Simon Knowles）在今年7月份的一篇博客文章中写道，“8位浮点数的出现在处理性能和效率方面为人工智能计算带来了巨大优势”。诺尔斯还称，这是行业确定“单一开放标准”的“一个机会”，比采取多种格式相互竞争要好得多。