硅基团队 S1E09: 不让 AI 变好，让坏后果变小

硅基团队 S1E09

前 8 集各解决了一个具体问题——测试不可信、架构太硬、记忆会丢失。但如果你退后一步看，会发现所有解决方案背后都是同一个设计原则。本集把这个原则讲透。

Gate 是底线，不是来源

前几集反复出现同一个原则。到了第九集，可以更精确地表述它：

Gate 不是质量的来源，Gate 是质量的底线。

质量的来源——AI 的能力、prompt 的精确度、训练数据——都不在你的控制范围内。 你能控制的是另一端：当 AI 犯错时，错误不会通过。“让 AI 更好”是一条没有终点的路；“让坏后果通不过”是可验证的——要么 gate 拦住了，要么没拦住。Gate 数数，不做判断。

AI 能评价什么

在 EP01 里，我们发现了一个教训：AI 不能评价产品值多少钱。让 5 个虚拟买家给出「愿意付多少钱」的数字，结果只是在 prompt 给的价格区间里随机采样。

这不是 AI 的 bug，而是一个根本性的能力边界。

AI 能做的判断（ordinal，排序型——只比较，不定量）：

「这个比那个好」——相对比较
「这里有一个 broken link」——模式识别
「loading feedback 缺失」——对照 checklist 检查

AI 不能做的判断（cardinal，定量型——需要给出绝对数值）：

「这个值 $50」——绝对估价
「用户愿意为这个付费」——购买决策
「这个 bug 会导致多少用户流失」——经济影响

区别在于：ordinal 判断只需要比较两个东西，AI 很擅长这个。Cardinal 判断需要一个锚点——而这个锚点来自真实世界的约束（预算、市场、竞品），AI 没有。

OPC 的设计严格遵守这个边界。它让 AI 找 red flag（模式识别），让 AI 比较两个版本哪个更好（相对判断），让 AI 检查 acceptance criteria 有没有满足（checklist 对照）。但它绝不让 AI 给出绝对评价——没有总分，没有「这个产品好不好」，没有「值不值得发布」。

Gate 的判决不是 AI 做的。Gate 数数。

当评分失效

这个边界在实际运行中被验证过。

在做封面图 review 时，我随手抽查了几个 reviewer 的评分。其中一个 reviewer 给了封面 8.5/10——“色彩搭配和谐，排版清晰”。我打开封面一看：标题被裁进了安全区域外，在手机端根本看不完整。如果让我打分，最多 4/10。

这不是个例。多轮 review 记录里反复出现类似的偏差：有的 reviewer 倾向于打高分（rubber stamp），有的会指出实际不存在的问题然后给低分。AI reviewer 给出的绝对分数——cardinal 判断——系统性地不准。

但如果你只让它做 ordinal 判断——“这个版本比上个版本好还是差”——准确率高得多。它能看出标题缩了、头像变小了、视觉效果消失了。它只是不能准确地告诉你”这有多严重”。

AI 的能力边界：能做相对判断，不能做绝对估价

这就是为什么 OPC 的 gate 不用评分，用计数。Red flag 有没有？有几个？哪些是 blocking 级别的？这些都是 ordinal 判断。Gate 不问”这个产出好不好”——它问”这个产出有没有已知的问题”。问题的数量和类型决定 pass 还是 fail，不是分数。

一个原则

回到标题：不让 AI 变好，让坏后果变小。

这不是一句口号，是一个可执行的设计原则。它告诉你在面对每一个设计决策时该怎么选：

选 mechanical gate（确定性检查）还是 LLM gate（AI 判断）？选 mechanical。
让 reviewer 打分还是找 red flag？找 red flag。
花时间优化 prompt 还是加一条 enforcement rule？加 rule。

每一次你选择”让 AI 更好”，你在赌 AI 的能力上限。每一次你选择”让坏后果变小”，你在加固确定性的底线。前者的收益不可预测，后者的收益可以验证。

但这个原则有一个前提：你得在场。Gate 拦得住已知的错误模式，拦不住方向性的偏差。当 AI 在错误的方向上高效执行——gate 全绿，产出物解决了错误的问题——这时候需要人。

下一集讲的就是这个：把 OPC 放到 125 小时的 autonomous loop 里跑，什么时候人该介入？

硅基团队 S1: AI 能写代码，凭什么信它？ ← S1E08: AI 跑了 8 小时后忘了自己是谁 | S1E10: 人什么时候该介入 →

硅基团队 S1E09: 不让 AI 变好，让坏后果变小

Gate 是底线，不是来源

AI 能评价什么

当评分失效

一个原则

留言