公布计划：全新芯片将支持亿参数大模型

科技 2024年08月11日 14:41 908 admin

7月15日消息，AMD近日在美国洛杉矶举行的技术日活动中公布了“NorthStar”（北极星）计划，未来推出的RyzenAIPC芯片将可支持以每秒100个Token的速度在本地运行300亿个参数的大型语言模型（LLM），实现3000的语义长度，并且首个Token生成的延迟要低于100毫秒。

但是，要实现AMD提出的这个目标并不容易，这需要硬件和软件性能上的巨大提升。要知道AMD最新推出的代号为“StrixPoint”的AIPC芯片RyzenAI300系列在以4bit精度运行70亿参数的大语言模型，每秒只能生成20个Token，并且首个Token的生成延迟高达1-4秒。

如果要本地支持以每秒生成100个Token的速度运行300亿参数的大模型，“NorthStar”不仅需要逻辑面积更大、性能更强的NPU，这对于提升TOPS或FLOPS肯定会有所帮助——尤其是在首次令牌延迟方面，但是在本地运行大型语言模型时，所需要的内存容量和带宽也极为重要。

在这方面，AMD的StrixPoint的大语言模型性能在很大程度上受到其128位内存总线的限制——当选择采用LPDDR5x配对时，其带宽在一般120-135GBps左右，公布计划：全新芯片将支持亿参数大模型具体取决于内存的速度。

理论上来说，一个真正的300亿参数模型，量化为4bit，将消耗大约15GB的内存，并且需要超过1.5TBps的带宽才能达到每秒100个令牌的目标。作为参考，这与配备HBM2的40GBNvidiaA100PCIe卡的带宽大致相同，但功率要大得多。

这意味着，如果不进行优化以降低模型的要求（比如采用内存压缩技术），AMD未来的SoC将需要更快、更高容量的LPDDR来达到芯片设计者的目标。

人工智能的发展速度快于芯片

AMD从事SoC开发的高级研究员和芯片设计工程师MaheshSubramony对于这些挑战表示，“我们知道如何到达那里，虽然有可能设计出能够实现AMD今天目标的部件，但如果没有人能负担得起使用它，或者没有任何东西可以利用它，那就没有多大意义了。”

“如果一开始就说每个人都必须拥有一辆法拉利，那么汽车就不会激增。你必须首先说每个人都有一台很棒的机器，然后你首先展示你可以负责任地用它做什么，“他解释道。

“我们必须建立一个满足95%人需求的SKU，”他继续说道。“我宁愿拥有一台价值1,300美元的笔记本电脑，然后通过云端来运行我的300亿参数模型。今天这还是便宜的。”

在展示AIPC的价值方面，AMD非常依赖其软件合作伙伴。对于像StrixPoint这样的产品，这在很大程度上意味着需要微软的支持。“当StrixPoint最初开始时，我们与微软的这种深度合作在某种程度上真正推动了我们的边界，”他回忆道。

但是，虽然软件可以帮助指导新硬件的发展方向，但开发和提升新芯片可能需要数年时间，Subramony解释说。“GenAI和AI用例的发展速度远快。”

自ChatGPT首次亮相以来，已经有两年的时间来持续演变，Subramony表示AMD现在对计算需求的发展方向有了更好的了解——这无疑是AMD制定这一目标的部分原因。

克服瓶颈

有几种方法可以解决内存带宽挑战。例如，LPDDR5可以换成高带宽内存——但正如Subramony所指出的那样，这样做并不完全有利，因为它会大大增加成本并降低SoC的功耗。

“如果我们无法获得300亿个参数的模型，我们需要能够获得提供相同保真度的东西。这意味着在训练中需要进行改进，以尝试首先使这些更小的模型，“Subramony解释说。

好消息是，有很多方法可以做到这一点——这取决于你是想优先考虑内存带宽还是容量。

一种可能的方法是按照MistralAI的Mixtral使用混合专家（MoE）模型。这些MoE本质上是一组相互协同工作的较小模型。通常，完整的MoE会被加载到内存中，但由于只有一个子模型处于活动状态，因此与同等大小的单片模型架构相比，内存带宽需求大大降低。

由六个50亿参数模型组成的MoE只需要略高于250GBps的带宽即可实现每秒100个Token的目标——至少精度为4bit。

另一种方法是使用推测解码——一个小型轻量级模型生成草稿的过程，然后将其传递给更大的模型以纠正任何不准确之处。AMD表示，这种方法在性能上有相当大的改进，但它并不一定能解决大语言模型需要大量内存的事实。

如今，大多数模型都是在Float16或FP16数据类型中训练的，它们每个参数消耗两个字节。这意味着一个300亿参数的模型需要60GB的内存才能以原始精度运行。

但是，由于这对绝大多数用户来说可能并不实用，因此将模型量化为8bit或4bit精度的情况并不少见。这牺牲了准确性并增加了AI幻觉的可能性，但将您的内存需求减少到四分之一。这也是AMD现有AIPC芯片如何以每秒20个Token的速度运行70亿个参数模型的关键。

新形式的加速可以提供帮助

作为一种折衷方案，从StrixPoint开始，AMD的XDNA2NPU将支持新的BlockFP16数据类型。因为传统的INT8应对目前的需求似乎已经有点力不从心，但是使用FP32又太过于浪费浪费，相对而言，采用FP16可以实现更高的算力，并且精度也足够使用，但是依然会占据不小的带宽。于是，AMD选择将FP16以及INT8融合打造成为BlockFP16数据类型，结合了16bit数据的高精度和8bit位数据的高性能，它只需要每个参数9bit——它能够通过取8个浮点值并使用一个共享指数来做到这一点。根据AMD的说法，BlockFP16能够达到与原生FP16几乎无法区分的精度，同时仅比Int8占用略多的空间。

更重要的是，AMD称该BlockFP16数据类型不需要重新训练模型来利用它们——现有的BF16和FP16模型无需量化步骤即可工作。

但是，除非普通笔记本电脑开始配备48GB或更多的内存，否则AMD仍然需要找到更好的方法来缩小模型的占用空间。

虽然没有明确提及，但不难想象AMD未来的NPU和/或集成显卡会增加对MXFP6或MXFP4等较小的浮点格式的支持。目前AMD的CDNA数据中心GPU也将支持FP8，而CDNA4将支持FP4。

无论如何，随着大语言模型开始向边缘部署，PC硬件似乎将在未来几年发生巨大变化。

编辑：芯智讯-浪客剑部分资料来源：Theregister

标签：公布计划全新芯片将支持亿参数大模型