91%。
这是《纽约时报》与AI初创公司Oumi联合分析给出的最新数据:谷歌AI概览(AI Overviews)在实际准确性上达到了91%。相比去年10月Gemini 2模型的85%,半年内提升了6个百分点。

但下一个数字是:每小时超过5700万条。
这是基于谷歌每年超过5万亿次搜索量,9%错误率所换算出的错误答案规模,相当于每分钟近100万条错误信息在产生。91%的准确率,在搜索引擎的巨量规模面前,呈现出了完全不同的面貌。
准确率提升,为何可信度反而在下降?
从85%到91%,谷歌AI的进步是量化的。但另一组对比数字揭示了更深的矛盾:
- 2025年10月(Gemini 2):37%的正确答案被标记为 “缺乏依据” ,即答案正确,但引用的网页链接无法支撑该结论。
- 2026年2月(Gemini 3):这一比例飙升至 56%。
这意味着,超过一半的正确回答,其“参考文献”是无效或错误的。AI的准确性在提升,但其答案的可验证性、可信度却在恶化。麻省理工学院的研究指出,AI搜索倾向于引用Reddit、维基百科等高流量平台,而忽视专业长尾内容,形成了“赢家通吃”的引用机制。
这种“准确但不可信”的矛盾,是争议的核心。用户看到的答案可能是对的,但支撑它的来源可能是Facebook的旧帖、旅游博客,甚至是已被证伪的维基百科词条。

错误答案长什么样,影响有多大?
争议中的错误并非深奥难辨,而是直接的实际矛盾:
- 在回答“Bob Marley故居何时成为博物馆”时,面对维基百科上1986和1987两个矛盾年份,AI自信地选择了错误的1987年。
- 查询摔跤手Hulk Hogan的死讯时,AI回复“没有可信报告显示霍根已去世”,但下方引用的文章标题却是“霍根之死谜团加深”,形成自相矛盾。
- 更令人担忧的是其易被操控性:一名BBC记者在个人博客发布编造的错误信息,次日便发现谷歌AI概览直接引用了该内容。
这些错误在每分钟近100万条的规模下,被专家称为 “工业级规模的幻觉” ,正在系统性污染互联网信息生态。随着用户习惯直接采信AI摘要而非点击链接核实,传统的信息“三角验证”机制正在失效,错误传播的风险被成倍放大。
91%的争议,测试方法到底谁有理?
面对质疑,谷歌的回应直指测试方法本身。谷歌发言人内德·阿德里安斯(Ned Adriance)批评该研究存在 “严重漏洞” ,认为其使用的SimpleQA基准测试“不能反映人们在谷歌上的实际搜索情况”。
谷歌的核心论点在于评估标准:
- 外部测试:使用公开的SimpleQA基准,包含4326个问题。
- 谷歌内部标准:采用更严格的 SimpleQA Verified 数据集,这是一个经过更彻底审查的较小问题集。
谷歌强调,其AI概览功能结合了复杂的搜索排名和安全系统,且界面始终包含“AI可能会犯错”的免责声明。内部数据显示,Gemini 3单独运行时“幻觉率”约为28%,但结合搜索后的AI Overviews准确率显著提升。
行业领先,为何仍难解规模困境?
横向对比,谷歌的AI模型在技术上并非落后。在被誉为“人类最后的考试”的极端专业领域测试中,Gemini 3.1 Pro与Claude Opus 4.6 同处第一梯队,准确率在40%-50%之间,而GPT-4o仅得2.7%。在第三方综合排名中,Gemini 3.1 Pro也位居前列。
不过,技术优势无法抵消规模效应带来的挑战。争议的本质,是搜索行业AI转型的阵痛:在追求回答速度和覆盖范围(91%的准确率、5万亿的年搜索量)的同时,如何确保每一条信息的可验证性(56%的答案缺乏可靠依据)。
凤凰网科技的评论尖锐地指出:“它不是在思考,它只是在猜。而且猜错的时候,比猜对时更自信。” 当AI的“概率拼接”以工业级规模运行时,一个91%的高分,背后是无法忽视的、以千万为单位的错误洪流。





