随着季节的更迭,大自然总是以它独特的方式向我们传递着季节的讯息,就在这个金秋时节,一场较强的冷空气如约而至,为这个季节增添了一抹别样的色彩,本文将围绕...
2024-09-20 8
7月15日消息,AMD近日在美国洛杉矶举行的技术日活动中公布了“NorthStar”(北极星)计划,未来推出的RyzenAIPC芯片将可支持以每秒100个Token的速度在本地运行300亿个参数的大型语言模型(LLM),实现3000的语义长度,并且首个Token生成的延迟要低于100毫秒。
但是,要实现AMD提出的这个目标并不容易,这需要硬件和软件性能上的巨大提升。要知道AMD最新推出的代号为“StrixPoint”的AIPC芯片RyzenAI300系列在以4bit精度运行70亿参数的大语言模型,每秒只能生成20个Token,并且首个Token的生成延迟高达1-4秒。
如果要本地支持以每秒生成100个Token的速度运行300亿参数的大模型,“NorthStar”不仅需要逻辑面积更大、性能更强的NPU,这对于提升TOPS或FLOPS肯定会有所帮助——尤其是在首次令牌延迟方面,但是在本地运行大型语言模型时,所需要的内存容量和带宽也极为重要。
在这方面,AMD的StrixPoint的大语言模型性能在很大程度上受到其128位内存总线的限制——当选择采用LPDDR5x配对时,其带宽在一般120-135GBps左右,公布计划:全新芯片将支持亿参数大模型具体取决于内存的速度。
理论上来说,一个真正的300亿参数模型,量化为4bit,将消耗大约15GB的内存,并且需要超过1.5TBps的带宽才能达到每秒100个令牌的目标。作为参考,这与配备HBM2的40GBNvidiaA100PCIe卡的带宽大致相同,但功率要大得多。
这意味着,如果不进行优化以降低模型的要求(比如采用内存压缩技术),AMD未来的SoC将需要更快、更高容量的LPDDR来达到芯片设计者的目标。
人工智能的发展速度快于芯片
AMD从事SoC开发的高级研究员和芯片设计工程师MaheshSubramony对于这些挑战表示,“我们知道如何到达那里,虽然有可能设计出能够实现AMD今天目标的部件,但如果没有人能负担得起使用它,或者没有任何东西可以利用它,那就没有多大意义了。”
“如果一开始就说每个人都必须拥有一辆法拉利,那么汽车就不会激增。你必须首先说每个人都有一台很棒的机器,然后你首先展示你可以负责任地用它做什么,“他解释道。
“我们必须建立一个满足95%人需求的SKU,”他继续说道。“我宁愿拥有一台价值1,300美元的笔记本电脑,然后通过云端来运行我的300亿参数模型。今天这还是便宜的。”
在展示AIPC的价值方面,AMD非常依赖其软件合作伙伴。对于像StrixPoint这样的产品,这在很大程度上意味着需要微软的支持。“当StrixPoint最初开始时,我们与微软的这种深度合作在某种程度上真正推动了我们的边界,”他回忆道。
但是,虽然软件可以帮助指导新硬件的发展方向,但开发和提升新芯片可能需要数年时间,Subramony解释说。“GenAI和AI用例的发展速度远快。”
自ChatGPT首次亮相以来,已经有两年的时间来持续演变,Subramony表示AMD现在对计算需求的发展方向有了更好的了解——这无疑是AMD制定这一目标的部分原因。
克服瓶颈
有几种方法可以解决内存带宽挑战。例如,LPDDR5可以换成高带宽内存——但正如Subramony所指出的那样,这样做并不完全有利,因为它会大大增加成本并降低SoC的功耗。
“如果我们无法获得300亿个参数的模型,我们需要能够获得提供相同保真度的东西。这意味着在训练中需要进行改进,以尝试首先使这些更小的模型,“Subramony解释说。
好消息是,有很多方法可以做到这一点——这取决于你是想优先考虑内存带宽还是容量。
一种可能的方法是按照MistralAI的Mixtral使用混合专家(MoE)模型。这些MoE本质上是一组相互协同工作的较小模型。通常,完整的MoE会被加载到内存中,但由于只有一个子模型处于活动状态,因此与同等大小的单片模型架构相比,内存带宽需求大大降低。
由六个50亿参数模型组成的MoE只需要略高于250GBps的带宽即可实现每秒100个Token的目标——至少精度为4bit。
另一种方法是使用推测解码——一个小型轻量级模型生成草稿的过程,然后将其传递给更大的模型以纠正任何不准确之处。AMD表示,这种方法在性能上有相当大的改进,但它并不一定能解决大语言模型需要大量内存的事实。
如今,大多数模型都是在Float16或FP16数据类型中训练的,它们每个参数消耗两个字节。这意味着一个300亿参数的模型需要60GB的内存才能以原始精度运行。
但是,由于这对绝大多数用户来说可能并不实用,因此将模型量化为8bit或4bit精度的情况并不少见。这牺牲了准确性并增加了AI幻觉的可能性,但将您的内存需求减少到四分之一。这也是AMD现有AIPC芯片如何以每秒20个Token的速度运行70亿个参数模型的关键。
新形式的加速可以提供帮助
作为一种折衷方案,从StrixPoint开始,AMD的XDNA2NPU将支持新的BlockFP16数据类型。因为传统的INT8应对目前的需求似乎已经有点力不从心,但是使用FP32又太过于浪费浪费,相对而言,采用FP16可以实现更高的算力,并且精度也足够使用,但是依然会占据不小的带宽。于是,AMD选择将FP16以及INT8融合打造成为BlockFP16数据类型,结合了16bit数据的高精度和8bit位数据的高性能,它只需要每个参数9bit——它能够通过取8个浮点值并使用一个共享指数来做到这一点。根据AMD的说法,BlockFP16能够达到与原生FP16几乎无法区分的精度,同时仅比Int8占用略多的空间。
更重要的是,AMD称该BlockFP16数据类型不需要重新训练模型来利用它们——现有的BF16和FP16模型无需量化步骤即可工作。
但是,除非普通笔记本电脑开始配备48GB或更多的内存,否则AMD仍然需要找到更好的方法来缩小模型的占用空间。
虽然没有明确提及,但不难想象AMD未来的NPU和/或集成显卡会增加对MXFP6或MXFP4等较小的浮点格式的支持。目前AMD的CDNA数据中心GPU也将支持FP8,而CDNA4将支持FP4。
无论如何,随着大语言模型开始向边缘部署,PC硬件似乎将在未来几年发生巨大变化。
编辑:芯智讯-浪客剑部分资料来源:Theregister
相关文章
随着季节的更迭,大自然总是以它独特的方式向我们传递着季节的讯息,就在这个金秋时节,一场较强的冷空气如约而至,为这个季节增添了一抹别样的色彩,本文将围绕...
2024-09-20 8
随着2020年的结束,我们回顾过去一年里发布的众多智能手机中,哪些机型真正脱颖而出,成为用户和科技爱好者的首选,这一年的智能手机市场见证了技术创新的巨...
2024-09-20 4
在当今世界,安全与情报的重要性日益凸显,斯诺登,这位因揭露美国国家安全局监控项目而闻名全球的情报专家,其见解和观点往往能引起公众的广泛关注,本文将围绕...
2024-09-20 6
随着技术的不断革新,微软已经推出了多个新版本的操作系统,如Windows 10和Windows 11,但不可否认的是,Windows 7至今仍然拥有大...
2024-09-20 7
一则关于湖南某小学因招不到学生而关闭的消息在网络上引起了广泛关注,这所小学的命运究竟如何?校长又是如何回应的呢?本文将为您详细揭秘这一事件,事件背景随...
2024-09-20 7
在生活的每一个角落,我们都会遇到各种各样的挑战和困难,其中一些甚至是我们从未听说过的罕见疾病,我们将讲述一个令人心痛的案例,那就是一个四岁男孩患上皮肤...
2024-09-20 5
苹果8 Plus自发布以来,凭借其强大的性能、精致的设计以及卓越的用户体验,一直受到众多消费者的青睐,关于这款手机的价格,一直是大家关注的焦点,根据苹...
2024-09-20 8
话说,这几天,关于美团的各种消息那可是层出不穷,一会有人说,美团骑手月收入不足1000元,一会又有人说,爱马,美团的骑手有5100万,还有人说美团骑手...
2024-09-20 309 被误解的美团被小学数学题给坑了