
前 8 集各解决了一个具体问题——测试不可信、架构太硬、记忆会丢失。但如果你退后一步看,会发现所有解决方案背后都是同一个设计原则。本集把这个原则讲透。
Gate 是底线,不是来源
前几集反复出现同一个原则。到了第九集,可以更精确地表述它:
Gate 不是质量的来源,Gate 是质量的底线。
质量的来源——AI 的能力、prompt 的精确度、训练数据——都不在你的控制范围内。 你能控制的是另一端:当 AI 犯错时,错误不会通过。“让 AI 更好”是一条没有终点的路;“让坏后果通不过”是可验证的——要么 gate 拦住了,要么没拦住。Gate 数数,不做判断。
AI 能评价什么
在 EP01 里,我们发现了一个教训:AI 不能评价产品值多少钱。让 5 个虚拟买家给出「愿意付多少钱」的数字,结果只是在 prompt 给的价格区间里随机采样。
这不是 AI 的 bug,而是一个根本性的能力边界。
AI 能做的判断(ordinal,排序型——只比较,不定量):
- 「这个比那个好」——相对比较
- 「这里有一个 broken link」——模式识别
- 「loading feedback 缺失」——对照 checklist 检查
AI 不能做的判断(cardinal,定量型——需要给出绝对数值):
- 「这个值 $50」——绝对估价
- 「用户愿意为这个付费」——购买决策
- 「这个 bug 会导致多少用户流失」——经济影响
区别在于:ordinal 判断只需要比较两个东西,AI 很擅长这个。Cardinal 判断需要一个锚点——而这个锚点来自真实世界的约束(预算、市场、竞品),AI 没有。
OPC 的设计严格遵守这个边界。它让 AI 找 red flag(模式识别),让 AI 比较两个版本哪个更好(相对判断),让 AI 检查 acceptance criteria 有没有满足(checklist 对照)。但它绝不让 AI 给出绝对评价——没有总分,没有「这个产品好不好」,没有「值不值得发布」。
Gate 的判决不是 AI 做的。Gate 数数。
当评分失效
这个边界在实际运行中被验证过。
在做封面图 review 时,我随手抽查了几个 reviewer 的评分。其中一个 reviewer 给了封面 8.5/10——“色彩搭配和谐,排版清晰”。我打开封面一看:标题被裁进了安全区域外,在手机端根本看不完整。如果让我打分,最多 4/10。
这不是个例。多轮 review 记录里反复出现类似的偏差:有的 reviewer 倾向于打高分(rubber stamp),有的会指出实际不存在的问题然后给低分。AI reviewer 给出的绝对分数——cardinal 判断——系统性地不准。
但如果你只让它做 ordinal 判断——“这个版本比上个版本好还是差”——准确率高得多。它能看出标题缩了、头像变小了、视觉效果消失了。它只是不能准确地告诉你”这有多严重”。

这就是为什么 OPC 的 gate 不用评分,用计数。Red flag 有没有?有几个?哪些是 blocking 级别的?这些都是 ordinal 判断。Gate 不问”这个产出好不好”——它问”这个产出有没有已知的问题”。问题的数量和类型决定 pass 还是 fail,不是分数。
一个原则
回到标题:不让 AI 变好,让坏后果变小。
这不是一句口号,是一个可执行的设计原则。它告诉你在面对每一个设计决策时该怎么选:
- 选 mechanical gate(确定性检查)还是 LLM gate(AI 判断)?选 mechanical。
- 让 reviewer 打分还是找 red flag?找 red flag。
- 花时间优化 prompt 还是加一条 enforcement rule?加 rule。
每一次你选择”让 AI 更好”,你在赌 AI 的能力上限。每一次你选择”让坏后果变小”,你在加固确定性的底线。前者的收益不可预测,后者的收益可以验证。
但这个原则有一个前提:你得在场。Gate 拦得住已知的错误模式,拦不住方向性的偏差。当 AI 在错误的方向上高效执行——gate 全绿,产出物解决了错误的问题——这时候需要人。
下一集讲的就是这个:把 OPC 放到 125 小时的 autonomous loop 里跑,什么时候人该介入?
硅基团队 S1: AI 能写代码,凭什么信它? ← S1E08: AI 跑了 8 小时后忘了自己是谁 | S1E10: 人什么时候该介入 →