技术评论 FPGA加速器支撑ChatGPT类大语言模型创新

探索FPGA加速语言模型如何通过更快的推理、更低的延迟和更好的语言理解来重塑生成式人工智能


(资料图片)

简介:大语言模型

近年来,大型语言模型(Large Language Models,LLM)彻底改变了自然语言处理领域,使机器能够生成类似人类的文本并进行有意义的对话。这些模型,例如OpenAI的GPT,拥有惊人的语言理解和生成能力。它们可以被用于广泛的自然语言处理任务,包括文本生成、翻译、自动摘要、情绪分析等。

大语言模型通常是基于深度学习技术来构建,特别是广泛使用了transformer架构。Transformer是一类神经网络模型,擅长捕捉语言序列中的远关联关系,这使得它们非常适合于语言理解和生成任务。训练一种大语言模型的方法是将模型暴露给大量文本数据中,这些文本数据通常来源于书籍、网站和其它文本资源。该模型学会了预测句子中的下一个单词,或者根据它所看到的上下文填充缺失的单词。通过这个过程,它获得了关于语法、句法的知识,甚至是一定程度的世界知识。

与大语言模型相关的主要挑战之一是其巨大的计算和内存需求。这些模型由数十亿个参数组成,需要强大的硬件和大量的计算资源来有效地训练和部署它们,正如Nishant Thakur在2023年3月于领英发布的文章《ChatGPT背后令人难以置信的处理能力和成本:构建终极AI聊天机器人需要什么?》中所讨论的。资源有限的组织机构和研究人员在充分利用这些模型的潜力方面经常遇到瓶颈,因为云端需要大量的处理能力或资金。此外,在生成响应时,为创建适当的符号、单词或单词子部分,上下文长度会急剧增长,对内存和计算资源产生更多的需求。

这些计算挑战导致更高的延迟,这使得大语言模型的采用变得更加困难,并且不是实时的,因此不那么自然。在这篇博客中,我们将深入研究大语言模型遇到的困难,并探索潜在的解决方案,这些解决方案可以为其增强的可用性和可靠性铺平道路。

大语言模型的加速

大语言模型的构建通常需要一个大规模的系统来执行该模型,这个模型会持续变大,在其发展到一定程度后,仅靠在CPU上的运行就不再具有成本、功耗或延迟的优势了。使用GPU或FPGA这样的加速器可显著提高计算能效、大幅降低系统延迟,并以更小的规模实现更高的计算水平。虽然GPU无疑正在成为硬件加速的标准选择,主要是因为它具有的可访问性和易于编程特性;实际上,在低延迟方面,FPGA架构比GPU有更卓越的性能。

由于本质上GPU是采用扭曲锁定(warp-locked)架构,跨多个内核并行执行超过32个SIMT线程,因此它们通常也需要批量处理大量数据,以尝试和偏移warp-locked架构并保持流水线被充满。这等同于更大的延迟和更多系统内存的需求。同时,FPGA可构建自定义数据路径来同时在多个数据模块上执行多个不同的指令,这意味着它可以非常有效地运行,一直到批量大小为1,这是实时的,延迟要低得多,同时最大限度地减少外部存储器需求。因此,与其他竞争性架构相比,FPGA能够显著提高其TOPs的利用率——随着系统规模扩展到ChatGPT系统大小时,这种性能差距只会继续增加。

当系统规模扩展到需要超过8个处理器件时(GPT3的训练需要使用10,000个GPU),用Achronix的FPGA来执行大语言模型可在吞吐量和延迟方面胜过GPU。如果模型可以使用INT8精度,那么使用GPT-20B作为参考的Achronix FPGA则具有更大的优势,如下表所示。这些数据说明使用FPGA是有优势的,因为GPU需要较长的交付时间(高端GPU超过一年)、得到的用户支持可能也很少,并且比FPGA贵得多(每块GPU的成本可能超过10,000美元)。

Speedster7t FPGA芯片与GPU的性能比较

将大语言模型映射到Achronix的FPGA加速器上

Achronix的Speedster7t FPGA具有一个独特的架构,使其非常适合这些类型的模型。首先,它有一个硬二维片上网络(2D NoC),解决了整个器件的数据传输以及输入输出。此外,它使用了带有紧耦合RAM的机器学习处理器(MLP),以便在计算之间实现高效的结果重用。最后,与GPU类似但与其他FPGA不同,Achronix的Speedster7t FPGA具有八组高效的GDDR6存储器IP,可支持更高的带宽,并且能够以4 Tbps的速度加载参数。

由于这些系统需要可扩展性,FPGA可以实现各种标准接口,以将加速卡互连在一起,并可实现卡之间无缝地传输数据。Achronix的Speedster7t AC7t1500器件具有32个100 Gbps的SerDes通道,不需要诸如NVLink这样的专有且成本高昂的解决方案。

大语言模型的未来:升级为增强型语言理解方案及领域特定方案

由于这些大语言模型需要巨大的规模才能以最小的延迟影响来执行训练和推理,模型的复杂性将继续增加,这将使得不断发展的语言理解、生成,甚至预测能力具有令人难以置信的准确性。虽然目前许多GPT类模型都是通用的,很可能接下来会出现针对某些领域,如医学、法律、工程或金融等而训练的专用模型。总之,在很长一段时间内,这些系统将协助人类专家处理由人工智能系统处理的更多平凡的任务,并为提供解决方案建议或协助完成创造性的任务。

联系Achronix,了解我们如何帮助您加速这些大语言模型系统。

在即将于9月14-15日在深圳市深圳湾万丽酒店举办的“2023全球AI芯片峰会”(第10号展位)上,Achronix将展出其最新的自动语音识别(Accelerated Automatic Speech Recognition, ASR)加速方案。它具有领先的超低延迟、大并发实时处理的特性,运行在VectorPath加速卡上的Speedster7t FPGA中。作为一种带有外接主机API的完整解决方案,其应用不需要具备RTL或FPGA知识。

Achronix还将介绍针对高带宽、计算密集型和实时处理应用的最新的FPGA和eFPGA IP解决方案,包括Speedster®7t系列FPGA芯片、Speedcore™ eFPGA IP和VectorPath®加速卡。

标签:

最近更新

技术评论 FPGA加速器支撑ChatGPT类大语言模型创新
2023-08-30 18:05:36
12306回应下铺使用权:硬卧下铺使用权仅限购票者
2023-08-30 16:50:38
国务院任免国家工作人员:徐守本任国务院副秘书长
2023-08-30 15:54:12
厦门光动时代:影视区的蜕变与迭代
2023-08-30 14:17:51
苹果手机怎么合成照片 怎么合成照片
2023-08-30 13:04:45
芝士是什么东西啊(芝士是什么东西)
2023-08-30 12:01:10
王者荣耀契约之战是什么模式 王者中契约之战怎么玩
2023-08-30 10:24:10
据传一位经典的漫威角色将于2024年在乐高套装中亮相
2023-08-30 09:25:34
小松:超越力量和灵活性--WA475-10大型轮式装载机
2023-08-30 08:29:39
“很荣幸成为1/31” 这是属于大运会火炬手们的一段闪亮的记忆
2023-07-29 15:41:23
不差钱!拜仁对马内标价3200万欧 利雅得胜利出价3700万欧 搞定
2023-07-29 14:41:40
【川网观大运】大运会特许商品超级店落成 !你想要的蓉宝这都有
2023-07-29 13:26:04
台风“杜苏芮”已造成江西1.9万人受灾
2023-07-29 12:19:14
王霜“杀气十足”,水庆霞变脸!中国女足103分钟改写命运:解气
2023-07-29 11:13:28
越南电动汽车制造商VinFast计划于8月在美国上市
2023-07-29 10:53:21
A股不相信爱情!证监会对“离婚式减持”出手:不得以离婚规避减持限制
2023-07-29 09:53:41
暴雨橙色预警!鹤壁最新调整!
2023-07-29 08:58:53
嫩三丝黄瓜卷(关于嫩三丝黄瓜卷简述)
2023-07-29 08:07:54
日本经济复苏步履维艰
2023-07-29 07:01:40
新消费日报 | 交个朋友控股上半年实现扭亏为盈;东方甄选店铺关闭原因曝光;SHEIN上半年盈利创新高……
2023-07-29 05:49:16
杨幂素颜装来啦,绿色制服,学院风十足
2023-07-29 03:54:59
老年人乘公交车没绿码怎么办(浅秋自信柑桔:老人坐公交不刷卡掌掴女司机)
2023-07-29 01:02:05
文学滋养童心 “《小溪流》45年精品典藏书系”首发
2023-07-28 22:40:35
单人“跑分”最高超2亿元!53人涉境外网络赌博受审
2023-07-28 21:50:31
著名作家曹文轩全国书博会上分享“我的文学和我的故事”
2023-07-28 21:08:03
新产业、新业态、新商业的“三新”经济增加值超21万亿
2023-07-28 20:37:57
智信精密:截至2023年4月30日,公司在手订单超过6亿元,较上年同期增长了74.83%
2023-07-28 19:54:52
中国科学院:“力箭”首飞一周年 “创新X科学航班”启航
2023-07-28 18:54:32
深圳市宝安区拾悦小学招生范围
2023-07-28 18:33:08
进击的汉字真假老婆找出所有不对劲的地方攻略
2023-07-28 17:54:02