4QunnEqkwiC finance.huanqiu.comarticle谷歌一篇尚未发布的论文引发存储芯片股恐慌 华尔街称市场误读/e3pmh1hmp/e3pmh28kq【环球网财经综合报道】一篇尚未正式发表的学术论文,在3月26日引发全球存储芯片板块剧烈震荡。据测算,全球主要内存巨头市值单日蒸发超900亿美元。这场波动的导火索,是谷歌研究院即将在国际学习表征会议(ICLR 2026)上正式亮相的论文“TurboQuant”。 通常来说,当用户与AI对话时,模型需要记住历史上下文,这部分临时存储的数据随上下文窗口膨胀而指数级增长。谷歌团队通过两项创新技术PolarQuant(极坐标量化)和QJL(量化JL变换),实现了在“零损失”前提下将KV Cache压缩至3-bit精度,内存占用缩小至少6倍。在英伟达H100 GPU上,4-bit TurboQuant的注意力计算速度比32-bit未量化版本快8倍。Cloudflare首席执行官将这一突破称为谷歌的“DeepSeek时刻”,认为其有望像DeepSeek一样,通过极致效率大幅拉低AI运行成本。面对科技圈的狂热与二级市场的抛售,华尔街投行表现出明显冷静。摩根士丹利在最新研报中明确表示,市场存在误读。该技术仅作用于推理阶段的键值缓存,不影响模型权重所占用的高带宽内存(HBM),也与AI训练任务无关。分析师强调,所谓“6倍压缩”并非存储总需求的减少,而是通过效率提升增加单GPU的吞吐量。Lynx Equity Strategies分析师KC Rajkumar指出,媒体报道存在夸大成分。当前推理模型早已广泛采用4-bit量化数据,谷歌所谓的“8倍性能提升”是建立在与老旧32位模型对比的基础之上。摩根士丹利援引经济学中的“杰文斯悖论”解释长期影响:技术效率提升虽降低单位成本,但往往因使用门槛下降而带动整体需求扩张。富国银行分析师Andrew Rocha指出,压缩算法的存在从未从根本上改变硬件采购的整体规模。通过大幅降低单次查询的服务成本,这类技术能让原本只能在昂贵云端集群上运行的模型迁移至本地,有效降低AI规模化部署的门槛。从供应链视角看,2026年服务器DRAM需求预计增长39%,HBM需求年增58%。TurboQuant的优化效果或将被行业增长浪潮淹没。截至发稿,谷歌尚未公布TurboQuant在Gemini等自研模型中的具体部署时间表。关于该技术的讨论将在4月的ICLR 2026会议上继续发酵。(陈十一)1774580057041环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:陈超环球网177458005704111[]//img.huanqiucdn.cn/dp/api/files/imageDir/9c7d9568b5a942e83331083a97837517.png{"email":"chenchao@huanqiu.com","name":"陈超"}
【环球网财经综合报道】一篇尚未正式发表的学术论文,在3月26日引发全球存储芯片板块剧烈震荡。据测算,全球主要内存巨头市值单日蒸发超900亿美元。这场波动的导火索,是谷歌研究院即将在国际学习表征会议(ICLR 2026)上正式亮相的论文“TurboQuant”。 通常来说,当用户与AI对话时,模型需要记住历史上下文,这部分临时存储的数据随上下文窗口膨胀而指数级增长。谷歌团队通过两项创新技术PolarQuant(极坐标量化)和QJL(量化JL变换),实现了在“零损失”前提下将KV Cache压缩至3-bit精度,内存占用缩小至少6倍。在英伟达H100 GPU上,4-bit TurboQuant的注意力计算速度比32-bit未量化版本快8倍。Cloudflare首席执行官将这一突破称为谷歌的“DeepSeek时刻”,认为其有望像DeepSeek一样,通过极致效率大幅拉低AI运行成本。面对科技圈的狂热与二级市场的抛售,华尔街投行表现出明显冷静。摩根士丹利在最新研报中明确表示,市场存在误读。该技术仅作用于推理阶段的键值缓存,不影响模型权重所占用的高带宽内存(HBM),也与AI训练任务无关。分析师强调,所谓“6倍压缩”并非存储总需求的减少,而是通过效率提升增加单GPU的吞吐量。Lynx Equity Strategies分析师KC Rajkumar指出,媒体报道存在夸大成分。当前推理模型早已广泛采用4-bit量化数据,谷歌所谓的“8倍性能提升”是建立在与老旧32位模型对比的基础之上。摩根士丹利援引经济学中的“杰文斯悖论”解释长期影响:技术效率提升虽降低单位成本,但往往因使用门槛下降而带动整体需求扩张。富国银行分析师Andrew Rocha指出,压缩算法的存在从未从根本上改变硬件采购的整体规模。通过大幅降低单次查询的服务成本,这类技术能让原本只能在昂贵云端集群上运行的模型迁移至本地,有效降低AI规模化部署的门槛。从供应链视角看,2026年服务器DRAM需求预计增长39%,HBM需求年增58%。TurboQuant的优化效果或将被行业增长浪潮淹没。截至发稿,谷歌尚未公布TurboQuant在Gemini等自研模型中的具体部署时间表。关于该技术的讨论将在4月的ICLR 2026会议上继续发酵。(陈十一)