谷歌一篇尚未发布的论文引发存储芯片股恐慌华尔街称市场误读

7003383

7005136

7005137

<article><section data-type="rtext">【环球网财经综合报道】一篇尚未正式发表的学术论文，在3月26日引发全球存储芯片板块剧烈震荡。据测算，全球主要内存巨头市值单日蒸发超900亿美元。<img data-alt="" src="//img.huanqiucdn.cn/dp/api/files/imageDir/c99a36b28b56e8ab45579ad5d714a7d9.png?imageView2/2/w/1260" />这场波动的导火索，是谷歌研究院即将在国际学习表征会议（ICLR 2026）上正式亮相的论文“TurboQuant”。
 <adv-loader __attr__inner="7004636" __attr__style="width: auto;position: relative;float: left;border: 1px solid #ebebeb; padding: 20px;overflow: hidden;margin: 10px 30px 40px 0;"></adv-loader>
 通常来说，当用户与AI对话时，模型需要记住历史上下文，这部分临时存储的数据随上下文窗口膨胀而指数级增长。谷歌团队通过两项创新技术PolarQuant（极坐标量化）和QJL（量化JL变换），实现了在“零损失”前提下将KV Cache压缩至3-bit精度，内存占用缩小至少6倍。在英伟达H100 GPU上，4-bit TurboQuant的注意力计算速度比32-bit未量化版本快8倍。Cloudflare首席执行官将这一突破称为谷歌的“DeepSeek时刻”，认为其有望像DeepSeek一样，通过极致效率大幅拉低AI运行成本。面对科技圈的狂热与二级市场的抛售，华尔街投行表现出明显冷静。摩根士丹利在最新研报中明确表示，市场存在误读。该技术仅作用于推理阶段的键值缓存，不影响模型权重所占用的高带宽内存（HBM），也与AI训练任务无关。分析师强调，所谓“6倍压缩”并非存储总需求的减少，而是通过效率提升增加单GPU的吞吐量。Lynx Equity Strategies分析师KC Rajkumar指出，媒体报道存在夸大成分。当前推理模型早已广泛采用4-bit量化数据，谷歌所谓的“8倍性能提升”是建立在与老旧32位模型对比的基础之上。摩根士丹利援引经济学中的“杰文斯悖论”解释长期影响：技术效率提升虽降低单位成本，但往往因使用门槛下降而带动整体需求扩张。富国银行分析师Andrew Rocha指出，压缩算法的存在从未从根本上改变硬件采购的整体规模。通过大幅降低单次查询的服务成本，这类技术能让原本只能在昂贵云端集群上运行的模型迁移至本地，有效降低AI规模化部署的门槛。从供应链视角看，2026年服务器DRAM需求预计增长39%，HBM需求年增58%。TurboQuant的优化效果或将被行业增长浪潮淹没。截至发稿，谷歌尚未公布TurboQuant在Gemini等自研模型中的具体部署时间表。关于该技术的讨论将在4月的ICLR 2026会议上继续发酵。（陈十一）</section></article>

7003385

7003386

7003387

7003388

7004638

7004639

7004637

7003389