6.9 C
Shanghai
2026. 03. 04 星期三

Google 将扑克引入 AI 基准测试:ChatGPT 在首轮对战中拔得头筹

长期以来,国际象棋一直是人工智能能力的代名词。规则清晰、信息完全、结果可计算,使它成为测试机器智能的理想环境。但正如 Google 近期给出的判断那样——这恰恰也是问题所在

现实世界并不提供“完全信息”。

正因如此,Google 旗下 DeepMind 正式将**扑克(Poker)**纳入其 AI 基准测试体系,并在 Kaggle 的 Game Arena 中举办了首次 AI 扑克对战。结果出人意料:在首轮扑克测试中,OpenAI 的 ChatGPT 5.2 击败所有对手,排名第一


从国际象棋到扑克:为什么 Google 要换题目

Game Arena 项目由 Google DeepMindKaggle 于去年联合推出,最初仅支持国际象棋,用于测试 AI 在规划、推理和长期策略上的能力。

但国际象棋有一个根本前提:

所有信息在开局时就已经完全可见。

这使得它非常适合算法,却并不完全贴近真实决策环境。

因此,在 2026 年初,Google 正式为 Game Arena 新增两种“非完全信息博弈”

  • 扑克(Heads-Up No-Limit Texas Hold’em)
  • 狼人杀(Werewolf)

Google 给出的理由很直接:
扑克是风险管理、不确定性判断、动态决策的理想样本。


首次 AI 扑克基准测试是怎么打的?

在 Kaggle 上进行的首轮 AI 扑克实验,采用了**单挑无限注德州扑克(Heads-Up NLHE)**作为统一测试环境,具体规则相当严谨:

  • 总样本量约 90 万手
  • 使用“重复扑克(Duplicate Poker)”机制
    • 10,000 手唯一牌局
    • 正反顺序各打一次,以降低运气影响
  • 每个 AI 必须最大化期望值(EV)
  • 不得使用外部工具(如赔率计算器、Solver)
  • 不会事先给出合法行动列表
  • 若出现非法行动,仅允许一次重试
  • 每个决策最长 60 分钟

这是一个高度受控、极度偏向“推理能力”的测试环境


结果:ChatGPT 在扑克项目中领先

在这一轮测试中,出现了一个非常有意思的分化结果:

  • 国际象棋 / 狼人杀
    • Google 自家的 Gemini 3 Pro 表现最佳
  • 扑克
    • ChatGPT 5.2 第一
    • OpenAI 的 o3 第二
    • 第三名才轮到 xAI 的 Grok 4

换句话说:

扑克项目的决赛,是一场“OpenAI 内战”。

这一结果,也与 PokerScout 之前的小样本测试高度一致:在“给出建议的连贯性与可执行性”方面,ChatGPT 的表现明显优于其他模型。


参赛的 10 个 AI 模型包括谁?

本次扑克基准测试共邀请了 10 个主流大模型,分别来自:

  • OpenAI:GPT-5.2、o3、GPT-5 mini
  • Google:Gemini 3 Pro Preview、Gemini 3 Flash Preview
  • Anthropic:Claude Opus 4.5、Claude Sonnet 4.5
  • xAI:Grok 4、Grok 4.1 Fast Reasoning
  • DeepSeek:DeepSeek V3.2

值得注意的是,尽管 Kaggle 属于 Google 体系,但 Game Arena 项目是独立运行的,并非“主场保护”。


但别误会:AI 依然“不会打扑克”

尽管 ChatGPT 在排行榜上排名第一,但 Google 与 DeepMind 并没有因此给 AI 的扑克能力下定论。

相反,公开的部分手牌记录暴露了明显的策略缺陷
例如,o3 曾在以下情况下全下:

  • 手牌:J-10
  • 公共牌:8-7-2-2
  • 声称自己拥有“开放式顺子听牌 + 高张

这在扑克理论上显然是错误判断

这说明一个关键事实:

当前大模型在扑克中,更多是在“语言化地解释决策”,而非真正理解牌局结构。


为什么扑克是 AI 的“极限测试”

DeepMind CEO Demis Hassabis 在官方博客中明确指出:

扑克和狼人杀之所以重要,是因为它们迫使 AI 在信息不完整的情况下进行规划、沟通和决策。

这也是为什么扑克在 AI 研究史上具有特殊地位:

  • 2015 年:CMU 的 Claudico 被人类险胜
  • 2017 年:Libratus 横扫职业玩家
  • 2019 年:Pluribus 在 6 人桌击败顶级人类

但这些模型:

  • 依赖超级计算机
  • 由专业研究团队定制
  • 并非“通用模型”

而 Kaggle Game Arena 的意义在于:
👉 测试“现成的大模型”,在不确定环境中的真实表现


对扑克玩家来说,这意味着什么?

从 PokerProGo 的角度看,这件事有三个现实意义:

第一,扑克正在成为“认知复杂度”的标尺
它不再只是赌博游戏,而是决策科学、风险管理和不确定性推理的实验场。

第二,AI 仍然无法替代玩家的判断
即便在单挑环境中,AI 仍会犯基础策略错误。

第三,未来的“AI + 扑克”不是代打,而是辅助理解
目前最有价值的,并不是“让 AI 帮你打”,而是让 AI 帮你解释思路、暴露漏洞、训练认知


PokerProGo 结语

国际象棋教 AI 如何计算,
而扑克,正在逼 AI 学会在不确定中做选择

ChatGPT 在首轮测试中的领先,更多说明它更擅长构建连贯的决策叙事,而不是已经“精通扑克”。
真正的拐点,或许还在未来的多人大桌、长周期博弈中。

对人类玩家而言,这是个好消息:
至少现在,真正理解对手、情绪与风险的能力,依然属于人类。

spot_img

最新文章

留下一个答复

请输入你的评论!
请在这里输入你的名字

精选必读

spot_img

相关文章

spot_img