四份汇报 · 自动质检 × 自治治理 · 同一种科学诚实 · 2026

让 AI 真的把活干对。而不是装模作样地点点点。

三条"让 AI 自动找 bug"的产品线，一座"让 AI 自己运转的无人软件工厂"，再加一套"用 AI 模拟民意、再拿预测市场验证"的预测系统。主题不同，却共享同一种底色——不夸大、敢于推翻自己。

共同主线 · 三条线撞上同一堵墙

不约而同收敛到三条共同认知

认知 01

先确认你在量对的东西

三条线都先发现"尺子坏了"——要么程序 bug 把分数悄悄清零，要么"标准答案"本身就不完整、会过期。修尺子，是一切优化的地基。

认知 02

不能拿"有 bug 的产品"当参照

AI 读到带 bug 的代码，会把"bug 的样子"当成"正确的样子"。靠"和错误答案对比"永远发现不了错误，必须引入独立的常识参照。

认知 03

AI 出题、机器判分

让 AI 只负责它擅长的"指出哪里该一致、注入哪个故障"，把最终判定交给确定性程序——判分环节天然免疫污染与臆断。

五份汇报 · 点击任意一张进入

三条"找 bug"线、一座"无人工厂"、一套"预测系统"

线 01 / ContractQA

契约式 + 常识先验

让 AI 自己列规则、跑浏览器、机器判分，把"找 bug"全自动化。

1 → 4 / 7

真实检测，并能迁移到新产品

查看完整汇报

线 02 / 代码生成

codegen + 反证法

同一个模型，换工作方式做到又快又省；并锁定唯一突破口——反证法。

2× / 4×

找 bug 综合分翻倍、算力省四倍

查看完整汇报

线 03 / 变异分析

清单 · 检测 · 变异分析

最高杠杆的"强化列清单"实质提升，并亲手造一把不靠标准答案的新尺子。

2.8×

真实找 bug 综合分

查看完整汇报

线 04 / 无人工厂

智能体驱动的工厂

AI 自己接活、写码、互审；真正的创新是给它配一套可信的管理制度。

5.5 / 6

建设阶段 · 208/208 测试全过

查看完整汇报

线 05 / AI 模拟调查

半合成民意预测

用 AI 模拟民意，再拿 Polymarket 已结算市场当"真实答案"验证，并给出误差。

17–28%

真实数据锚定可降的误差

查看完整汇报

线 01 · ContractQA · 契约式 + 常识先验

从"看起来在测、其实抓不到 bug"，到真的能自动抓到

我们让一个 AI 测试员进化出真正的找 bug 能力，而且这种能力可以迁移到没见过的新产品上。

是什么 · 一句话讲清楚

一个会自己干活的 AI 质检员

STEP 1

读懂网站

自己摸索这个网站在做什么

→

STEP 2

列出规则

写一批"应满足的契约"

→

STEP 3

真实浏览器跑

一条条去点、去填、去验

→

STEP 4

机器判分

被违反 = 抓到 bug

就像招了一个不知疲倦的实习质检员：让他自己摸产品、自己列检查清单、自己去验。这两周做的，是把他从"装模作样点点点"训练成"真的能挑出毛病"。

撞墙 · 最重要的发现

旧尺子说"能发现 50%"——是假的

50%→0%

旧尺子只看"有没有把测试瞄准 bug"，从不真跑。真实执行级检测 = 0%

10 个网站上植入的 bug 总数，旧尺子全数高估

核心教训

考试要求"证明这道题"，旧尺子只看你"有没有在题下写字"，写满就给分——"瞄准了" ≠ "打中了"。先确认你在量对的东西，再谈优化。

怎么破 · 翻墙

让 AI 去断言普世常识，违反常识就是 bug

常识先验

放之四海皆准、与代码无关的规则

金额/人数不能为负 · 日期不能在未来 · 点链接就该跳转

跨信号一致

同一个数字在两个地方必须对得上

页面写"剩 500 张票"，加号点到第 10 张就点不动——矛盾就是 bug

通用不变量

任何网站都该成立的基本规律

"查看详情"点了 URL 必须变 · 页面不能冒报错 · 不能出现 500

关键巧思——AI 出题、机器判分：AI 只负责指出"哪两个信号该一致"，最终判定交给确定性程序机械执行。判分环节天然免疫那堵墙。

结果 · 以一个"婚礼策划"网站为例（7 个植入 bug）

真实检测 1 → 4/7，而且能迁移到新产品

1→4/7

负数预算、负数人数、过去日期、按钮不跳转——全部自动抓到

3/7

手工核查发现运行时根本不出问题（数据集标错），对盲测不可抓

≈ 满

在真正可抓的子集上已接近打满

能泛化

在从没见过的"记账"产品上盲测抓到了"负数金额"——同一套机制、源码它从没读过；在本就做了正确校验的产品上则正确通过、不误伤好人。证明学到的是通用机制，不是死记硬背。

线 02 · WebTestBench · 代码生成 + 反证法

同一个模型、换种工作方式做到"又快又省"

用严谨、诚实、可复现的方法，彻底摸清"AI 能不能自动找 bug"的真实难点，锁定唯一突破口——反证法。

最稳的硬收益 · 两种工作方式，同一个 AI 模型

换种工作方式，就"又快又省"

≈ 2×

找 bug 综合分 F1：0.133 → ~0.255

≈ 4×

算力消耗：约 79 万 → 18.6 万 token / 条

1/0

极端用例：230 万 token 省到 1/96

最容易对外讲

两边用的是同一个 AI 模型。所以这个差距来自架构与工作方式，不是"换了个更强的模型"——这是整段工作里最稳的一条收益。

触底 · 我们撞上一堵根本性的"墙"

"被动观察"存在结构性上限

AI 靠"观察/读取"判断功能对不对，但测试用的网站本身就有 bug——它把"bug 的样子"当成了"正确的样子"。三种检测方式全部试到底，真实检出惊人地一致：

≈ 0

静态断言（写脚本断言"应该是这样"）

≈ 0

现场观察（像人一样点 45 分钟、49 轮，全标"正常"）

≈ 0

读源码对照需求（甚至明告"这里有 bug"也找不出）

换更强、更贵、更慢的模型也一样 ≈ 0。结论：这堵墙是任务本身的根本难度，不是某个模型或方法不行。

突破口 · 从"被动观察"转向"主动反证"

故意做不允许的事，看 App 拦不拦

什么是反证法

与其判断"功能是否正常"（很难），不如故意做一件规则明确不允许的事，看 App 会不会拦住。拦住 = 正常；放行 = 抓到 bug。规则来自需求说明，独立于 bug 代码——正好绕开那堵墙。

全量普查：可被反证的 bug = 153/448，远超 15% 立项门槛

"约束类" bug 可检出上限 106/128——最甜的楔子

主动可测面合计；真正难的仅 24.1%

诚实复盘 · 最值得讲

把自己的"首个战果"也送去最严格的审查

推翻自己

流水线一度报告"项目首个真实 bug 检出"，precision = 1.00。但在扩大战果前，两轮独立审查 + 源码实测，亲手把它推翻了——那是个假阳：测试失败和 bug 毫无关系，在修好的网站上照样会误报。

1→0/6

经完整流程的真实忠实检出：推翻头条后诚实归零

118→202

单元测试全绿，全程 TDD、可复现

在调参的世界里，能主动否定自己的"战果"，比多刷几个点珍贵得多。

线 03 · WebTestBench · 清单 · 检测 · 变异分析

连"标准答案"本身都不可信，于是亲手造一把新尺子

能稳定多抓一截真缺陷；更重要的是发现打分用的"标准答案"自己就不可信，正在造一把不依赖它的新尺子——变异分析。

撞墙 · 最重要的发现

我们用错了尺子——而且两层都坏

第一层

程序 bug：分数被"悄悄清零"

报告格式稍跑偏，打分程序就把整份当"全部通过"——抓到 bug 的报告被记成"什么都没抓到"

第二层

更深：标准答案不完整、会过期

放手找 bug 揪出 5 个真 bug，没一个在标准答案里；2025 标的 gold 到 2026 全变"已过期"，正确检测反被判误报

核心教训

一个不可信的标准答案，会让"刷高 benchmark 分"变成优化一把本身就歪的尺子——看起来在进步，其实在迎合错误。

结果 · 最高杠杆的一招——强化"列清单"（严格 A/B）

覆盖率与找 bug 能力双双实质提升

53→67%

总 bug 覆盖率 +13pp；"铁定漏报"的 bug 数 −29%

0×

完整流水线真实综合分 F1：0.167 → 0.463

清单外对抗探索额外揪出 5 个真 bug，全不在标准答案里

这 5 个真 bug 恰恰证明：质检员能找到难 bug，是标准答案在拖后腿，而不是它能力不行。

新尺子 · 当前核心战线

变异分析：自己埋雷、自己掌握答案

怎么做

拿一个判"全部正常"的健康网站 → 亲手往里悄悄塞一个【已知的】bug（如偷偷删掉一个校验）→ 让质检员完整重测 → 看它抓不抓得到。因为 bug 是我们自己埋的，答案 100% 由我们掌握。

意义：建成之前，"我们把质检员变强了"这句话没法被证明；建成之后，这第一次变成一句可被验证、可被复现的话。它天然免疫"不完整、会过期"两个硬伤。

核心引擎已开发完成通过冒烟验证正进入实测阶段

线 04 · 不同主题 · 自治 × 治理

一座会自己运转、又敢于被信任的"无人软件工厂"

别人在研究"怎么让 AI 多干活"，我们在研究"怎么让一个 AI 自治的组织，既高效、又值得信任"。

是什么 · 一句话讲清楚

创新不在"让 AI 干活"，在"管好这群 AI"

工厂里的"员工"是 AI 智能体：自己接活、写代码、互相审查、出问题自己求助——这部分今天的 AI 已经能做到。真正的创新，是给它们配了一套"公平、克制、安全"的管理制度：

绩效考核

不打小报告、不搞排名淘汰

用红绿灯代替排行榜，系统里根本不存在"总分"

健康监测

只会诊断、绝不擅自开除人

只"说哪里不对"，永远不"动手"

安全机制

证明自己靠谱前，不许扩张、不许私存记忆

用自我体检代替无限放权，给整个系统踩刹车

怎么运转 · 像一家公司的三个部门

业务部 + 审计部 + 风控部

执行面

业务部

AI 员工干活：拆任务 → 写码 → 处理请求，每个动作留痕

↓

测量面

审计部

只读地看：贴标签、记账本、亮健康灯。只诊断，绝不裁决

↓

治理面

风控部

给系统加刹车和油门：控制扩张/记忆/容量，永不碰"人事"

贯穿三层的铁律

诊断 ≠ 裁决。审计部只能"看和说"，不能"动手"。开除一个人，永远是一个有名有姓的人类看完证据后做的决定，系统绝不自动执行。

亮点设计 · 对人宽容、对恶化敏感

用"红绿灯"代替"排行榜"

绿灯 · 在线上一切正常

黄灯 · 连续 2 天踩线中性提示"你卡在哪了？"——不记账、不惩罚

橙灯 · 连续 1 周建议换个方向或换个角色

红灯 · 连续 2 周写一份带完整证据的报告交人类决策——系统绝不动手

只要有一天回到线上就立刻清零重计。偶尔波动不会触红灯，只有"持续恶化"才会——这是有意为之的、对人宽容的设计。另设"自我体检才放行"：想扩张/存记忆，先证明能预测自己会在哪儿出错。

背书与可信度 · 建立在坚实基石上

双层对抗式严审 + 学术与标准背书

上游蓝图本身就是"对抗式核查报告"：抓 26 个信源、提取 122 条可证伪声明、三方对抗投票

融合设计又经三轮独立 AI 对抗式审核，累计 18+ 条发现全部落地或显式标注

合同网协议 CNP · 1980 MCP A2A（Linux 基金会 · 100+ 公司） OpenFGA · CNCF CSA / Unit 42 / Red Hat 安全研究

最硬核的可信度来源

上游蓝图被核查过一遍（26 信源），融合设计又被对抗审核三遍（18+ 发现）。这种"双层对抗式严审"的开发流程，是本项目最罕见的可信度来源。

进度 · 每一步都能独立验证

6 个建设阶段，已完成 5.5 个

0/6

执行面 / 测量面 / 判断账本 / 四角色健康图 / 自我体检已上线，治理闭环实现中

0/208

自动化测试全部通过

v0.4

平台 Anthropic Claude Code，全程 TDD 可复现

电梯陈述

我们造的不只是"会写代码的 AI"，而是一套让它既高效、又值得信任的制度。用红绿灯代替排行榜，用自我体检代替无限放权，用诊断代替裁决——AI 负责干活，人始终握着最后的方向盘。

线 05 · AI 模拟调查 × Polymarket · 半合成预测

用 AI 模拟民意，再用"赌对了才算数"的市场来验证

我们不吹"AI 能替代民调"。我们做的是一件更扎实的事：真实数据当锚 + AI 合成放大 + 用可结算的预测市场回测对账，并诚实标出每一次的误差。

▶ 进入预测系统polis-beta.vercel.app →

是什么 · 一句话讲清楚

可行，但唯一稳的路是"半合成"——绝不是纯模拟

想象一下：要预测一场选举，传统做法是花大钱、花时间去问几千个真人。我们让 AI 扮演成千上万个"虚拟受访者"来回答——又快又便宜。但这里有个**诚实的前提**：纯靠 AI 模拟会系统性出错，所以必须用少量真实数据"校准"，再用 AI"放大"，最后用已经有答案的真实事件来打分。

为什么是 Polymarket

Polymarket 是一个真金白银的预测市场——人们押注"某事会不会发生"。事件一旦尘埃落定，对错是客观结算的、没法抵赖。我们正是拿这些"已揭晓答案"的事件，来检验 AI 的模拟到底准不准。

诚实底线 · 先承认纯 AI 模拟会在哪儿翻车

"总体看着准"是一种幸存者偏差幻觉

立项前我们先把"坏消息"摆上桌——这些都是同行评审论文里的硬证据。纯 LLM 模拟在群体平均值上看着能用，但往细里看就崩：

合成数据里 48% 的回归关系显著偏离真值，其中 32% 连正负号都反了

>10pp

总体准、但具体到子人群（如某年龄/族裔）误差超 10 个百分点

11.3pp

给 AI 喂更多信息（投票史+态度）反而更差，移民态度误差仍 11.3pp

关键认知：只看总体均值，一定会高估准确率。方差被压扁、少数派意见被抹平、子群系统性失真——这些才是真正的坑。把坑先讲清楚，是这个产品可信的起点。

怎么破 · 已被论文验证"真能降误差"的方法

每一招都有同行评审背书，不是我们拍脑袋

降误差 17–28%

用"真实群体信号"给 AI 当锚

给 AI 看人类中位数预测后，预测误差（Brier）显著下降——预测市场价格正好能充当这个锚 · Science Advances 2024

≈ 925 人

多个 AI 投票聚合，达到人群水平

12 个 LLM 聚合后的预测，统计上与约 925 人的人类群体无显著差异 · Science Advances 2024

83–86%

用真人访谈塑造"有血有肉"的虚拟人

两小时访谈构建的 agent，达到受访者本人前后作答一致性的 83–86%，远超只靠人口属性的 74% · Stanford/DeepMind 2024, n=1,052

提问降偏

把问题措辞改中性，少踩"社会期许"陷阱

中性化 + 第三人称问法，是最有效的提示级降偏；分歧度 0.103→0.068 · arXiv 2025

核心创新 · 一个没人填过的学术空白

"一个 AI 顶多少个真实受访者？"——把误差量化出来

我们的方法地基来自一篇论文（arXiv:2502.17773）：它能算出"当前这套 AI 配置 ≈ 多少个真实受访者"。AI 跟真实答案差得越远，这个数就越小、给出的不确定区间就越宽——误差被明明白白地暴露出来，而不是藏起来。把它的"校准集"换成 Polymarket 已结算市场，目前学术界还没人验证过——这既是我们的原创点，也是最硬的卖点。

为什么必须用市场做锚

PNAS 2025 的研究敲响警钟：一个 AI 机器人能在 6000 次注意力检查中 99.8% 蒙混过关；只要往一份民调注入 10–52 条假回答（约 0.05 美元/条）就能翻转表面领先者。在线民调正在被合成数据污染——而预测市场的结算结果难以注水，这正是它当"真实答案"的最强理由。

怎么运转 · 半合成预测管线