Google 将扑克引入 AI 基准测试：ChatGPT 在首轮对战中拔得头筹

长期以来，国际象棋一直是人工智能能力的代名词。规则清晰、信息完全、结果可计算，使它成为测试机器智能的理想环境。但正如 Google 近期给出的判断那样——这恰恰也是问题所在。

现实世界并不提供“完全信息”。

正因如此，Google 旗下 DeepMind 正式将**扑克（Poker）**纳入其 AI 基准测试体系，并在 Kaggle 的 Game Arena 中举办了首次 AI 扑克对战。结果出人意料：在首轮扑克测试中，OpenAI 的 ChatGPT 5.2 击败所有对手，排名第一。

内容隐藏

1 从国际象棋到扑克：为什么 Google 要换题目

2 首次 AI 扑克基准测试是怎么打的？

3 结果：ChatGPT 在扑克项目中领先

从国际象棋到扑克：为什么 Google 要换题目

Game Arena 项目由 Google DeepMind 与 Kaggle 于去年联合推出，最初仅支持国际象棋，用于测试 AI 在规划、推理和长期策略上的能力。

但国际象棋有一个根本前提：

所有信息在开局时就已经完全可见。

这使得它非常适合算法，却并不完全贴近真实决策环境。

因此，在 2026 年初，Google 正式为 Game Arena 新增两种“非完全信息博弈”：

扑克（Heads-Up No-Limit Texas Hold’em）
狼人杀（Werewolf）

Google 给出的理由很直接：
扑克是风险管理、不确定性判断、动态决策的理想样本。

首次 AI 扑克基准测试是怎么打的？

在 Kaggle 上进行的首轮 AI 扑克实验，采用了**单挑无限注德州扑克（Heads-Up NLHE）**作为统一测试环境，具体规则相当严谨：

总样本量约 90 万手
使用“重复扑克（Duplicate Poker）”机制
- 10,000 手唯一牌局
- 正反顺序各打一次，以降低运气影响
每个 AI 必须最大化期望值（EV）
不得使用外部工具（如赔率计算器、Solver）
不会事先给出合法行动列表
若出现非法行动，仅允许一次重试
每个决策最长 60 分钟

这是一个高度受控、极度偏向“推理能力”的测试环境。

结果：ChatGPT 在扑克项目中领先

在这一轮测试中，出现了一个非常有意思的分化结果：

国际象棋 / 狼人杀
- Google 自家的 Gemini 3 Pro 表现最佳
扑克
- ChatGPT 5.2 第一
- OpenAI 的 o3 第二
- 第三名才轮到 xAI 的 Grok 4

换句话说：

扑克项目的决赛，是一场“OpenAI 内战”。

这一结果，也与 PokerScout 之前的小样本测试高度一致：在“给出建议的连贯性与可执行性”方面，ChatGPT 的表现明显优于其他模型。

参赛的 10 个 AI 模型包括谁？

本次扑克基准测试共邀请了 10 个主流大模型，分别来自：

OpenAI：GPT-5.2、o3、GPT-5 mini
Google：Gemini 3 Pro Preview、Gemini 3 Flash Preview
Anthropic：Claude Opus 4.5、Claude Sonnet 4.5
xAI：Grok 4、Grok 4.1 Fast Reasoning
DeepSeek：DeepSeek V3.2

值得注意的是，尽管 Kaggle 属于 Google 体系，但 Game Arena 项目是独立运行的，并非“主场保护”。

但别误会：AI 依然“不会打扑克”

尽管 ChatGPT 在排行榜上排名第一，但 Google 与 DeepMind 并没有因此给 AI 的扑克能力下定论。

相反，公开的部分手牌记录暴露了明显的策略缺陷。
例如，o3 曾在以下情况下全下：

手牌：J-10
公共牌：8-7-2-2
声称自己拥有“开放式顺子听牌 + 高张”

这在扑克理论上显然是错误判断。

这说明一个关键事实：

当前大模型在扑克中，更多是在“语言化地解释决策”，而非真正理解牌局结构。

为什么扑克是 AI 的“极限测试”

DeepMind CEO Demis Hassabis 在官方博客中明确指出：

扑克和狼人杀之所以重要，是因为它们迫使 AI 在信息不完整的情况下进行规划、沟通和决策。

这也是为什么扑克在 AI 研究史上具有特殊地位：

2015 年：CMU 的 Claudico 被人类险胜
2017 年：Libratus 横扫职业玩家
2019 年：Pluribus 在 6 人桌击败顶级人类

但这些模型：

依赖超级计算机
由专业研究团队定制
并非“通用模型”

而 Kaggle Game Arena 的意义在于：
👉 测试“现成的大模型”，在不确定环境中的真实表现

对扑克玩家来说，这意味着什么？

从 PokerProGo 的角度看，这件事有三个现实意义：

第一，扑克正在成为“认知复杂度”的标尺
它不再只是赌博游戏，而是决策科学、风险管理和不确定性推理的实验场。

第二，AI 仍然无法替代玩家的判断
即便在单挑环境中，AI 仍会犯基础策略错误。

第三，未来的“AI + 扑克”不是代打，而是辅助理解
目前最有价值的，并不是“让 AI 帮你打”，而是让 AI 帮你解释思路、暴露漏洞、训练认知。

PokerProGo 结语

国际象棋教 AI 如何计算，
而扑克，正在逼 AI 学会在不确定中做选择。

ChatGPT 在首轮测试中的领先，更多说明它更擅长构建连贯的决策叙事，而不是已经“精通扑克”。
真正的拐点，或许还在未来的多人大桌、长周期博弈中。

对人类玩家而言，这是个好消息：
至少现在，真正理解对手、情绪与风险的能力，依然属于人类。

Google 将扑克引入 AI 基准测试：ChatGPT 在首轮对战中拔得头筹

从国际象棋到扑克：为什么 Google 要换题目

首次 AI 扑克基准测试是怎么打的？

结果：ChatGPT 在扑克项目中领先

参赛的 10 个 AI 模型包括谁？

但别误会：AI 依然“不会打扑克”

为什么扑克是 AI 的“极限测试”

对扑克玩家来说，这意味着什么？

PokerProGo 结语

最新文章

GGPoker世界锦标赛赛事中三位玩家成为百万富翁

Martin Tsvetanov赢得PokerStars Open Namur超级豪客赛

Seth Davies 和 Lukas Robinson 与 CoinPoker 达成合作

Dimitar Danchev在2026年WSOP夺得2.5万美元单挑锦标赛冠军

留下一个答复取消回复

精选必读

GGPoker世界锦标赛赛事中三位玩家成为百万富翁

Martin Tsvetanov赢得PokerStars Open Namur超级豪客赛

Seth Davies 和 Lukas Robinson 与 CoinPoker 达成合作

Dimitar Danchev在2026年WSOP夺得2.5万美元单挑锦标赛冠军

意大利人在周末横扫了 SPT Malta 2026

相关文章

About Us

Popular Category

Editor Picks

GGPoker世界锦标赛赛事中三位玩家成为百万富翁

Martin Tsvetanov赢得PokerStars Open Namur超级豪客赛

Seth Davies 和 Lukas Robinson 与 CoinPoker 达成合作

Dimitar Danchev在2026年WSOP夺得2.5万美元单挑锦标赛冠军

Google 将扑克引入 AI 基准测试：ChatGPT 在首轮对战中拔得头筹

从国际象棋到扑克：为什么 Google 要换题目

首次 AI 扑克基准测试是怎么打的？

结果：ChatGPT 在扑克项目中领先

参赛的 10 个 AI 模型包括谁？

但别误会：AI 依然“不会打扑克”

为什么扑克是 AI 的“极限测试”

对扑克玩家来说，这意味着什么？

PokerProGo 结语

最新文章

留下一个答复 取消回复

精选必读

相关文章

About Us

Popular Category

Editor Picks

留下一个答复取消回复