值得信赖的区块链资讯!
准确率91%的AI搜索,每小时却产生数千万条错误——Google的“幻觉”生意
作者:深潮 TechFlow
原标题:每小时数千万条错误,调查揭露 Google AI 搜索的「准确率幻觉」
导读:
《纽约时报》联合 AI 初创公司 Oumi 的最新测试显示,Google 搜索的 AI 摘要功能(AI Overviews)准确率约为 91%,但以 Google 年处理 5 万亿次搜索的体量换算,这意味着每小时产生数千万条错误答案。更棘手的是,即便答案正确,超过半数的引用链接也无法支撑其结论。

Google 正在以前所未有的规模向用户输送错误信息,而大多数人毫不知情。
据《纽约时报》报道,AI 初创公司 Oumi 受其委托,使用 OpenAI 开发的行业标准测试 SimpleQA 对 Google 的 AI Overviews 功能进行了准确性评估。测试覆盖 4326 次搜索查询,分别在去年 10 月(Gemini 2 驱动)和今年 2 月(升级至 Gemini 3 后)各进行一轮。结果显示,Gemini 2 的准确率约为 85%,Gemini 3 提升至 91%。
91%听起来不错,但放到 Google 的体量上就是另一回事。Google 每年处理约 5 万亿次搜索查询,按 9%的错误率计算,AI Overviews 每小时产生超过 5700 万条不准确的答案,每分钟接近 100 万条。
Oumi 的数据显示,Gemini 2 时代,37%的正确回答存在「无根据引用」问题,即 AI 摘要所附链接并不支持其给出的信息。升级到 Gemini 3 后,这一比例不降反升,跳增至 56%。换言之,模型在给出正确答案的同时,越来越不会「交作业」。
Oumi CEO Manos Koukoumidis 的质疑直指要害:「即便答案是对的,你怎么知道它是对的?你怎么去验证?」
AI Overviews 大量引用低质量来源加剧了这一问题。Oumi 发现,Facebook 和 Reddit 分别是 AI Overviews 第二和第四大引用来源。在不准确的回答中,Facebook 被引用的频率达到 7%,高于准确回答中的 5%。
BBC 记者一篇假文章,24 小时内「投毒」成功
AI Overviews 的另一个严重缺陷是极易被操纵。
一名 BBC 记者用一篇刻意编造的虚假文章进行测试,不到 24 小时,Google 的 AI 摘要便将其中的虚假信息作为事实呈现给用户。
这意味着任何了解系统运作机制的人,都可能通过发布虚假内容并推高其流量来「投毒」AI 搜索结果。Google 发言人 Ned Adriance 对此的回应是,搜索 AI 功能建立在与屏蔽垃圾信息相同的排名和安全机制上,并称测试中的「大多数例子都是人们实际不会搜索的不切实际的查询」。
Google 反驳:测试本身就有问题
Google 对 Oumi 的研究提出了多项质疑。Google 发言人称该研究「存在严重漏洞」,理由包括:SimpleQA 基准测试本身包含不准确信息;Oumi 使用自家 AI 模型 HallOumi 来评判另一个 AI 的表现,可能引入额外误差;测试内容不反映用户的真实搜索行为。
Google 内部测试也显示,Gemini 3 在脱离 Google 搜索框架独立运行时,产生虚假输出的比例高达 28%。但 Google 强调,AI Overviews 借助搜索排名系统来提升准确性,表现优于模型本身。
不过,正如 PCMag 评论所指出的逻辑悖论:如果你的辩护理由是「指出我们 AI 不准确的报告本身也用了可能不准确的 AI」,这恐怕并不能增强用户对你产品准确性的信心。
Twitter:https://twitter.com/BitpushNewsCN
比推 TG 交流群:https://t.me/BitPushCommunity
比推 TG 订阅: https://t.me/bitpush
比推快讯
更多 >>- 伊朗军方:若再次遭袭,将以“新武器、新战法和新战场”回应
- 韩国国税厅首次试点将扣押虚拟资产委托民间托管机构管理
- Bitget 首期 IPO preSPAX 24 小时涨幅 13%
- 韩国加密资产收益开始流入房地产市场,30 多岁购房者占比超 70%
- 巨鲸 Loracle.hl 加仓 5323 万美元 HYPE 空单,累计利润接近 3700 万美元
- Santiment:以太坊链上 USDT 本周五录得近三个月最大交易所净流出
- 数据:当前加密恐慌贪婪指数为 48,处于中性状态
- 下周宏观展望:美伊、俄乌或迎和谈重要窗口,沃什正式接任美联储主席
- Polymarket:已识别并封禁多个“幽灵成交”账户集群并将加强封禁机制
- 爱沙尼亚监管机构因违反 MiCA 白皮书披露规定对 Zondacrypto 发出警告
- RootData:ERA 将于一周后解锁价值约 272 万美元的代币
- 卢旺达议会通过虚拟资产监管法案,未授权运营最高罚款 1 亿卢郎
- SEC 委员 Peirce 警示投机性金融产品风险,预测市场 ETF 或将获批上市
- 某鲸鱼买入 335,899 枚 sato,曾亏损 60% 后扭亏为盈,浮盈 13 万美元
- 数据:Hyperliquid 平台鲸鱼当前持仓 43.26 亿美元,多空持仓比为 0.94
- 分析师:多个协议从 LayerZero 迁移至 Chainlink CCIP,合计 TVL 逾 20 亿美元
- RWA 协议 LienFi 在 Base 网络上完成美国房地产税留置权代币化
- 芝商所将推出比特币波动率期货
- CZ:请求赦免过程中曾遭美国竞争对手游说反对
- 特朗普媒体集团 Q1 财报,BTC 等加密资产投资浮亏约 4 亿美元
- 七家大型比特币矿池加入 Stratum V2 工作组,共同制定开放矿池通信标准
- 巨鲸斥资 1700 万美元买入 7284 枚 ETH,并已转入 Lido 质押
- WorldCoin 团队向 BitGo 托管钱包转入 3000 万枚 WLD,价值约 817 万美元
- 蚂蚁矿池、F2Pool 等七大矿池加入 Stratum V2 工作组,推动矿工自主选择区块交易
- CFTC 与 SEC 正加强预测市场监管协作,或将扩大执法范围
- SHIT 市值突破 500 万美元,日内涨超 150%
- 曾亏损 2.3 亿美元的巨鲸 3 天内向币安充值超 8.2 亿美元 ETH
- 伊官员:伊朗将继续行使自卫权 警惕美方敌对行动
- The ETF Store 总裁:预测市场 ETF 或将很快推出
- 韩国比特币溢价重回 2%,创美伊冲突以来新高
- 以军空袭黎南部致死 15 人
- 英国央行行长贝利:稳定币监管或引发美国与国际监管机构较量
- USDC Treasury 在 Solana 链上新增铸造 2.5 亿枚 USDC
- Strategy CEO:仅会在支付股息或税务优化等特定情况下出售比特币
- 美国 4 月 CPI 预计环比大涨 0.6%,消费者信心跌至历史新低
- BTC 突破 81000 USDT,24H 涨幅 0.94%
- 数据:ETH 当前全网 8 小时平均资金费率为 0.0056%
- 瑞士推动央行配置比特币储备提案失败,联署签名未达公投门槛
- Binance:2026 年新兴市场用户占比升至 77%,加密交易平台正被当作“影子银行”使用
- Linux 爆出高危漏洞,可 10 行代码提权至 Root,加密行业基础设施面临潜在风险
- 韩国拟于明年 1 月起对超过 250 万韩元的虚拟资产收益征收 22%税款
- 以太坊 OG 地址沉寂 3 年后转移 52,170 枚 ETH
- 港交所:前四个月 IPO 集资金额为 1514 亿港元,同比上升 604%
- Garrett Jin 向币安存入 10.8 万枚 ETH,价值 2.5 亿美元
- Andre Cronje:Sonic 上 USDC 收益率达 5.11%,DeFi 远未到顶峰
- 某巨鲸向币安转入价值 1.8 亿美元 ETH
- 比特币储备公司 4 月狂买超 6.4 万枚 BTC,Strategy STRC ATM 融资单月创 33 亿美元纪录
- 数据:监测到 2 亿 USDT 转入 Binance
- 数据:Strategy MSTR 4 月比特币购买量达其他上市公司总和 28 倍
- 机构:伊朗战争正以前所未有的速度消耗全球石油缓冲库存
比推专栏
更多 >>观点
比推热门文章
- 伊朗军方:若再次遭袭,将以“新武器、新战法和新战场”回应
- 韩国国税厅首次试点将扣押虚拟资产委托民间托管机构管理
- Bitget 首期 IPO preSPAX 24 小时涨幅 13%
- 韩国加密资产收益开始流入房地产市场,30 多岁购房者占比超 70%
- 巨鲸 Loracle.hl 加仓 5323 万美元 HYPE 空单,累计利润接近 3700 万美元
- Santiment:以太坊链上 USDT 本周五录得近三个月最大交易所净流出
- 数据:当前加密恐慌贪婪指数为 48,处于中性状态
- 下周宏观展望:美伊、俄乌或迎和谈重要窗口,沃什正式接任美联储主席
- Polymarket:已识别并封禁多个“幽灵成交”账户集群并将加强封禁机制
- 爱沙尼亚监管机构因违反 MiCA 白皮书披露规定对 Zondacrypto 发出警告
比推 APP


