放弃GPU,开发自己的LPU!文本生成速度比眨眼快!-股票-壹米财经

行情频道：行情 / 知识 / 新股 / 要闻 / 基金 /

放弃GPU,开发自己的LPU!文本生成速度比眨眼快!

2024-02-24 18:53:04 收藏

a股今日行情中国a股行情走势

　　本博评论：当今科技的发展以人工智能为主，令人眼花缭乱。一旦脱离世界潮流，就像北韩比大A...以下摘自网络

　　Groq一夜爆红，自研LPU速度碾压英伟达GPU

　　英伟达的挑战者Groq出现了！放弃GPU，开发自己的LPU！文本生成速度比眨眼快！推理场景比英伟达GPU快10倍，但价格和功耗只有后者的十分之一。

　　一觉醒来，AI圈又变天了。

　　在消化了Sora带来的冲击之前，另一家硅谷初创公司以历史上最快的大模型和自主研发的芯片LPU占据了热门搜索。

　　就在昨天，人工智能芯片制造商Groq（不是马斯克的Gork）开放了自己产品的免费试用。与其他人工智能聊天机器人相比，Groq闪电响应速度迅速引爆了互联网讨论。经过网民测试，Groq每秒生成近500 tok/s，碾压GPT-4的40 tok/s。

　　有网友震惊地说：

　　它的回复速度比我眨眼快。

　　但需要强调的是，Groq并没有开发出新的模型，它只是一个模型启动器，开源模型Mixtral运行在主页上 8x7B-32k，Llama 270B-4k。

　　来自驱动模型的硬件Groq并没有使用英伟达的GPU，而是开发了一种新型的AI芯片--LPU(Language Processing Units)。

　　每秒500 tokens，写论文比眨眼快

　　LPU最突出的特点是速度快。

　　Groq根据2024年1月的测试结果 LPU驱动Meta Llama 2模型，推理性能遥遥领先，是顶级云计算供应商的18倍。

　　前一篇文章提到，Groq LPU搭配Meta Llama 2 70B可以在7分钟内生成与莎士比亚《哈姆雷特》相同数量的单词，比普通人打字速度快75倍。

　　一些推特网友问了一个与营销相关的专业问题，Groq在四秒钟内输出了成千上万个单词。

　　LPU，英伟达GPU的挑战者

　　Groq还没有开发出新的模型，它只是使用了不同的芯片。

　　根据Groq官网的介绍，LPU是专门为AI推理设计的芯片。GPU驱动，包括GPT等主流大型模型，是一种图形渲染并行处理器，有数百个核心，LPU架构不同于GPUSIMD（单指令、多数据），该设计可以使芯片更有效地利用每个时钟周期，确保一致的延迟和吞吐量，也减少了对复杂调度硬件的需求：

　　GroqLPU推理引擎不是一个普通的处理单元；它是一个端到端系统，为需要大量计算和连续处理的应用程序（如LLM）提供最快的推理。LPU推理引擎的性能比传统GPU高出几个数量级，以消除外部内存瓶颈。

　　简单地说，对用户来说，最直观的体验是'快'。

　　使用过GPT的读者必须知道等待大模型一个接一个地吐出字符是多么痛苦，而LPU驱动的大模型基本上可以实时响应。

　　问GroqLPU和GPU的区别，Groq生成这个答案需要不到3秒的时间，完全不像GPT、Gemini有明显的延迟。如果用英语提问，生成速度会更快。

　　Groq的官方介绍还显示，创新的芯片架构可以使多个张量流处理器(Tensor Streaming Processor，TSP连接在一起，没有GPU集群中的传统瓶颈，因此具有很高的可扩展性，简化了大规模人工智能模型的硬件要求。

　　能效也是LPU的另一个亮点。LPU每瓦特可以通过降低管理多线程的成本，避免内核利用率不足来提供更多的计算能力。

　　Groq创始人兼首席执行官Jonathan 在采访中，Ross永远不会忘记给英伟达眼药。

　　此前，他告诉媒体，在大模型推理场景中，Groq LPU芯片比英伟达GPU快10倍，但价格和功耗仅为后者的十分之一。

　　实时推理是通过人工智能模型运行数据的计算过程，提供人工智能应用的即时结果，实现流畅的最终用户体验。随着人工智能模型的发展，对实时推理的需求激增。

　　Ross认为，推理成本正成为产品中使用人工智能的公司的问题，因为随着使用这些产品的客户数量的增加，运营模型的成本也在迅速增加。与英伟达GPU相比，Groq LPU集群将为大型模型推理提供更高的吞吐量、更低的延迟和更低的成本。

　　他还强调，由于技术路径不同，Groq芯片的供应比英伟达更充足，不会被台积电或SK海力士等供应商卡住:

　　GroqChip LPU的独特之处在于，它不依赖于三星或SK海力士的HBM，也不依赖于将外部HBM焊接到芯片上的CoWoS包装技术。

　　然而，一些人工智能专家在社交媒体上表示，Groq芯片的实际成本并不低。

　　如人工智能专家贾扬清分析，Groq的综合成本相当于英伟达GPU的30倍以上。

　　考虑到每个Groq芯片的内存容量为230MB，实际运行模型需要572个芯片，总成本高达1144万美元。

　　相比之下，8个H100系统的性能相当于Groq系统，但硬件成本仅为30万美元，年电费约为2.4万美元。Groq系统的运行成本远高于H100系统，

　　此外，更重要的是，LPU目前仅用于推广。去年8月，Groq还宣布了与三星的合作计划，称其下一代芯片将在德克萨斯州三星芯片厂生产4纳米芯片，预计量产时间为24年下半年。

　　展望下一代LPU，Ross认为Groqchip的能效将提高15到20倍，可以在相同的功率范围内为设备增加更多的矩阵计算和SRAM存储器。

　　要训练大模型，还需要购买英伟达GPU。

上一篇：LPU(Language Processing Unit)初

下一篇：英伟达、微软、亚马逊等科技巨头正在投资人形机器人初创科技企业

相关阅读

多措并举活跃并购重组市场：上交所再次举办券商座谈会，努力打通政策落地“最后一公里”

10月10日，上交所再次举行券商座谈会，现场宣讲并购重组最新政策精神，并就进一步活跃并购重组市场、打通政策落地“最后一公里”听取意见建议。中信证券、中金公司、中信建投、华泰联合、国泰君安、国信证券、东方证券、广...

2024-10-10 22:29:32
红利、高股息板块爆发，发生了什么？

来源：券商中国作者：时谦今天早盘，A股市场波动较大，但经过一段下挫之后，很快就被多头拉起。而从盘面来看，以代码601开头的大盘蓝筹股（亦是高股息板块）今天表现非常突发，红利ETF大多涨幅在4%左右水平。那么，究竟又是何逻辑呢？分析...

2024-10-10 14:29:27
A股走势分化，全市场超3000股上涨！

中字头及红利资产全天保持强势，沪深两市交易量连续第4日突破2万亿元！市场对后续政策的期待仍在升温。今日（10月10日），A股三大股指走势分化，截至收盘，上证指数涨1.32%，深证成指跌0.82%，创业板指跌2.95%。全市场个股涨多跌少，超30...

2024-10-10 16:29:44
控股股东高质押率遭质疑，通化东宝：下半年营收将逐季恢复|直击业绩会

要点1通化东宝控股股东所持股份质押率高遭质疑，公司董事长李佳鸿称，系东宝集团投资项目周期长造成；要点2业绩方面，李佳鸿预计称下半年公司营收将逐季恢复；要点3公司还对新产品销售情况做了介绍。财联社10月10日讯（记者何凡...

2024-10-10 18:29:38
海外市场需求持续旺盛赛轮轮胎预计前三季度业绩同比增约六成|财报解读

要点1海外市场需求持续旺盛，赛轮轮胎预计公司前三季度业绩同比增约六成；要点2天然橡胶、炭黑、合成橡胶等生产原材料均有涨价，为应对成本压力，多家轮胎公司宣布产品涨价。财联社10月10日讯（记者肖良华）海外市场需求持续旺...

2024-10-10 20:29:15

本文“放弃GPU,开发自己的LPU!文本生成速度比眨眼快!”由壹米财经整理发布，欢迎转载收藏，转载请带上本文链接。
免责声明：【壹米财经】发布的所有信息，并不代表本站赞同其观点和对其真实性负责，投资者据此操作，风险请自担。部分内容文章及图片来自互联网或自媒体，版权归属于原作者，不保证该信息（包括但不限于文字、图片、图表及数据）的准确性、真实性、完整性、有效性、及时性、原创性等，如有问题，请联系我们！分享到：新浪微博微信

股票全球7x24小时资讯

查看更多新闻

ID:3

股票独家原创视频

股票点击排行

放弃GPU,开发自己的LPU!文本生成速度比眨眼快!

多措并举活跃并购重组市场：上交所再次举办券商座谈会，努力打通政策落地“最后一公里”

红利、高股息板块爆发，发生了什么？

A股走势分化，全市场超3000股上涨！

控股股东高质押率遭质疑，通化东宝：下半年营收将逐季恢复|直击业绩会

海外市场需求持续旺盛 赛轮轮胎预计前三季度业绩同比增约六成|财报解读

海外市场需求持续旺盛赛轮轮胎预计前三季度业绩同比增约六成|财报解读