首页 科技文章正文

公布计划:全新芯片将支持亿参数大模型

科技 2024年08月11日 14:41 908 admin

7月15日消息,AMD近日在美国洛杉矶举行的技术日活动中公布了“NorthStar”(北极星)计划,未来推出的RyzenAIPC芯片将可支持以每秒100个Token的速度在本地运行300亿个参数的大型语言模型(LLM),实现3000的语义长度,并且首个Token生成的延迟要低于100毫秒。

但是,要实现AMD提出的这个目标并不容易,这需要硬件和软件性能上的巨大提升。要知道AMD最新推出的代号为“StrixPoint”的AIPC芯片RyzenAI300系列在以4bit精度运行70亿参数的大语言模型,每秒只能生成20个Token,并且首个Token的生成延迟高达1-4秒。

如果要本地支持以每秒生成100个Token的速度运行300亿参数的大模型,“NorthStar”不仅需要逻辑面积更大、性能更强的NPU,这对于提升TOPS或FLOPS肯定会有所帮助——尤其是在首次令牌延迟方面,但是在本地运行大型语言模型时,所需要的内存容量和带宽也极为重要。

在这方面,AMD的StrixPoint的大语言模型性能在很大程度上受到其128位内存总线的限制——当选择采用LPDDR5x配对时,其带宽在一般120-135GBps左右,公布计划:全新芯片将支持亿参数大模型具体取决于内存的速度。

理论上来说,一个真正的300亿参数模型,量化为4bit,将消耗大约15GB的内存,并且需要超过1.5TBps的带宽才能达到每秒100个令牌的目标。作为参考,这与配备HBM2的40GBNvidiaA100PCIe卡的带宽大致相同,但功率要大得多。

这意味着,如果不进行优化以降低模型的要求(比如采用内存压缩技术),AMD未来的SoC将需要更快、更高容量的LPDDR来达到芯片设计者的目标。

人工智能的发展速度快于芯片

AMD从事SoC开发的高级研究员和芯片设计工程师MaheshSubramony对于这些挑战表示,“我们知道如何到达那里,虽然有可能设计出能够实现AMD今天目标的部件,但如果没有人能负担得起使用它,或者没有任何东西可以利用它,那就没有多大意义了。”

“如果一开始就说每个人都必须拥有一辆法拉利,那么汽车就不会激增。你必须首先说每个人都有一台很棒的机器,然后你首先展示你可以负责任地用它做什么,“他解释道。

“我们必须建立一个满足95%人需求的SKU,”他继续说道。“我宁愿拥有一台价值1,300美元的笔记本电脑,然后通过云端来运行我的300亿参数模型。今天这还是便宜的。”

在展示AIPC的价值方面,AMD非常依赖其软件合作伙伴。对于像StrixPoint这样的产品,这在很大程度上意味着需要微软的支持。“当StrixPoint最初开始时,我们与微软的这种深度合作在某种程度上真正推动了我们的边界,”他回忆道。

但是,虽然软件可以帮助指导新硬件的发展方向,但开发和提升新芯片可能需要数年时间,Subramony解释说。“GenAI和AI用例的发展速度远快。”

自ChatGPT首次亮相以来,已经有两年的时间来持续演变,Subramony表示AMD现在对计算需求的发展方向有了更好的了解——这无疑是AMD制定这一目标的部分原因。

克服瓶颈

有几种方法可以解决内存带宽挑战。例如,LPDDR5可以换成高带宽内存——但正如Subramony所指出的那样,这样做并不完全有利,因为它会大大增加成本并降低SoC的功耗。

“如果我们无法获得300亿个参数的模型,我们需要能够获得提供相同保真度的东西。这意味着在训练中需要进行改进,以尝试首先使这些更小的模型,“Subramony解释说。

好消息是,有很多方法可以做到这一点——这取决于你是想优先考虑内存带宽还是容量。

一种可能的方法是按照MistralAI的Mixtral使用混合专家(MoE)模型。这些MoE本质上是一组相互协同工作的较小模型。通常,完整的MoE会被加载到内存中,但由于只有一个子模型处于活动状态,因此与同等大小的单片模型架构相比,内存带宽需求大大降低。

由六个50亿参数模型组成的MoE只需要略高于250GBps的带宽即可实现每秒100个Token的目标——至少精度为4bit。

另一种方法是使用推测解码——一个小型轻量级模型生成草稿的过程,然后将其传递给更大的模型以纠正任何不准确之处。AMD表示,这种方法在性能上有相当大的改进,但它并不一定能解决大语言模型需要大量内存的事实。

如今,大多数模型都是在Float16或FP16数据类型中训练的,它们每个参数消耗两个字节。这意味着一个300亿参数的模型需要60GB的内存才能以原始精度运行。

但是,由于这对绝大多数用户来说可能并不实用,因此将模型量化为8bit或4bit精度的情况并不少见。这牺牲了准确性并增加了AI幻觉的可能性,但将您的内存需求减少到四分之一。这也是AMD现有AIPC芯片如何以每秒20个Token的速度运行70亿个参数模型的关键。

新形式的加速可以提供帮助

作为一种折衷方案,从StrixPoint开始,AMD的XDNA2NPU将支持新的BlockFP16数据类型。因为传统的INT8应对目前的需求似乎已经有点力不从心,但是使用FP32又太过于浪费浪费,相对而言,采用FP16可以实现更高的算力,并且精度也足够使用,但是依然会占据不小的带宽。于是,AMD选择将FP16以及INT8融合打造成为BlockFP16数据类型,结合了16bit数据的高精度和8bit位数据的高性能,它只需要每个参数9bit——它能够通过取8个浮点值并使用一个共享指数来做到这一点。根据AMD的说法,BlockFP16能够达到与原生FP16几乎无法区分的精度,同时仅比Int8占用略多的空间。

更重要的是,AMD称该BlockFP16数据类型不需要重新训练模型来利用它们——现有的BF16和FP16模型无需量化步骤即可工作。

但是,除非普通笔记本电脑开始配备48GB或更多的内存,否则AMD仍然需要找到更好的方法来缩小模型的占用空间。

虽然没有明确提及,但不难想象AMD未来的NPU和/或集成显卡会增加对MXFP6或MXFP4等较小的浮点格式的支持。目前AMD的CDNA数据中心GPU也将支持FP8,而CDNA4将支持FP4。

无论如何,随着大语言模型开始向边缘部署,PC硬件似乎将在未来几年发生巨大变化。

编辑:芯智讯-浪客剑部分资料来源:Theregister

标签: 公布计划全新芯片将支持亿参数大模型

卓越科技网 网站地图 免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052 版权所有:卓越科技网 沪ICP备2023023636号-5