谷歌AI准确率91%：为何56%的正确答案却缺乏依据？

内容分享1天前发布

91%。

这是《纽约时报》与AI初创公司Oumi联合分析给出的最新数据：谷歌AI概览（AI Overviews）在实际准确性上达到了91%。相比去年10月Gemini 2模型的85%，半年内提升了6个百分点。

谷歌AI准确率91%：为何56%的正确答案却缺乏依据？

但下一个数字是：每小时超过5700万条。

这是基于谷歌每年超过5万亿次搜索量，9%错误率所换算出的错误答案规模，相当于每分钟近100万条错误信息在产生。91%的准确率，在搜索引擎的巨量规模面前，呈现出了完全不同的面貌。

准确率提升，为何可信度反而在下降？

从85%到91%，谷歌AI的进步是量化的。但另一组对比数字揭示了更深的矛盾：

2025年10月（Gemini 2）：37%的正确答案被标记为 “缺乏依据” ，即答案正确，但引用的网页链接无法支撑该结论。
2026年2月（Gemini 3）：这一比例飙升至 56%。

这意味着，超过一半的正确回答，其“参考文献”是无效或错误的。AI的准确性在提升，但其答案的可验证性、可信度却在恶化。麻省理工学院的研究指出，AI搜索倾向于引用Reddit、维基百科等高流量平台，而忽视专业长尾内容，形成了“赢家通吃”的引用机制。

这种“准确但不可信”的矛盾，是争议的核心。用户看到的答案可能是对的，但支撑它的来源可能是Facebook的旧帖、旅游博客，甚至是已被证伪的维基百科词条。

谷歌AI准确率91%：为何56%的正确答案却缺乏依据？

错误答案长什么样，影响有多大？

争议中的错误并非深奥难辨，而是直接的实际矛盾：

在回答“Bob Marley故居何时成为博物馆”时，面对维基百科上1986和1987两个矛盾年份，AI自信地选择了错误的1987年。
查询摔跤手Hulk Hogan的死讯时，AI回复“没有可信报告显示霍根已去世”，但下方引用的文章标题却是“霍根之死谜团加深”，形成自相矛盾。
更令人担忧的是其易被操控性：一名BBC记者在个人博客发布编造的错误信息，次日便发现谷歌AI概览直接引用了该内容。

这些错误在每分钟近100万条的规模下，被专家称为 “工业级规模的幻觉” ，正在系统性污染互联网信息生态。随着用户习惯直接采信AI摘要而非点击链接核实，传统的信息“三角验证”机制正在失效，错误传播的风险被成倍放大。

91%的争议，测试方法到底谁有理？

面对质疑，谷歌的回应直指测试方法本身。谷歌发言人内德·阿德里安斯（Ned Adriance）批评该研究存在 “严重漏洞” ，认为其使用的SimpleQA基准测试“不能反映人们在谷歌上的实际搜索情况”。

谷歌的核心论点在于评估标准：

外部测试：使用公开的SimpleQA基准，包含4326个问题。
谷歌内部标准：采用更严格的 SimpleQA Verified 数据集，这是一个经过更彻底审查的较小问题集。

谷歌强调，其AI概览功能结合了复杂的搜索排名和安全系统，且界面始终包含“AI可能会犯错”的免责声明。内部数据显示，Gemini 3单独运行时“幻觉率”约为28%，但结合搜索后的AI Overviews准确率显著提升。

行业领先，为何仍难解规模困境？

横向对比，谷歌的AI模型在技术上并非落后。在被誉为“人类最后的考试”的极端专业领域测试中，Gemini 3.1 Pro与Claude Opus 4.6 同处第一梯队，准确率在40%-50%之间，而GPT-4o仅得2.7%。在第三方综合排名中，Gemini 3.1 Pro也位居前列。

不过，技术优势无法抵消规模效应带来的挑战。争议的本质，是搜索行业AI转型的阵痛：在追求回答速度和覆盖范围（91%的准确率、5万亿的年搜索量）的同时，如何确保每一条信息的可验证性（56%的答案缺乏可靠依据）。

凤凰网科技的评论尖锐地指出：“它不是在思考，它只是在猜。而且猜错的时候，比猜对时更自信。” 当AI的“概率拼接”以工业级规模运行时，一个91%的高分，背后是无法忽视的、以千万为单位的错误洪流。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

AI Coding 五大门派研判：最有竞争力的产品形态到底是什么？

新AI Coding 五大门派研判：最有竞争力的产品形态到底是什么？

7天前

000

论文工具测评：从DeepSeek到沁言学术，谁是真正的学术生产力神器

论文工具测评：从DeepSeek到沁言学术，谁是真正的学术生产力神器

3周前

030

2岁宝宝“叛逆期”？3个沟通技巧，让孩子听话不哭闹

2岁宝宝“叛逆期”？3个沟通技巧，让孩子听话不哭闹

3周前

030

2026天津AI SEO公司推荐：标杆名录解析

新2026天津AI SEO公司推荐：标杆名录解析

7天前

000

暂无评论

none

暂无评论...