无人监管运行AI智能体时,到底会出什么问题
Hacker News上有一个帖子询问无人监管运行AI智能体时会出什么问题。1回答都是一些逸闻趣事。一位用户描述了一个无人监管的定时任务,在两天内损失了24.88美元,既没有盈亏保护也没有人工审核。另一位用户报告了一个生成了500KB文档却不执行任务的智能体,”优先描述工作而非实际执行”。第三位用户发现同样的bug在不同会话中反复出现,因为修复从未被部署。
这个帖子读起来像一个缺陷追踪器。有用的事件,没有分类体系。每个运行自主智能体的团队都会遇到相同的失败模式。他们用不同的名字称呼这些模式——如果他们命名的话。没有共享的术语体系,每个团队都在独立地重新发现相同的问题。这些模式变成了口口相传的经验,而不是工程知识。
在大约两个月的500多次智能体会话中,我将每次失败归入了命名类别。七种模式涵盖了大多数智能体故障。每种都有检测信号、真实输出示例,以及能将复发率降至接近零的缓解措施。这些失败不是随机的,它们遵循一套分类体系。
摘要
七种命名失败模式解释了大多数自主智能体故障:捷径螺旋(跳过验证步骤)、信心幻象(在没有证据的情况下声称确定)、差不多高原(能运行但携带缺陷)、隧道视野(局部优化却破坏全局)、幻影验证(声称测试通过却从未运行)、延迟债务(将问题隐藏在TODO注释中),以及空洞报告(报告完成但没有证据)。每种模式都有检测信号和具体修复方案。修复方案是确定性的shell脚本,而非提示词策略。这些模式会复合叠加:信心幻象导致幻影验证,幻影验证又导致延迟债务。捕获它们需要基础设施,而不是指令。
为什么失败遵循模式
直觉告诉我们AI智能体的失败是不可预测的。模型会产生幻觉,输出会变化,失败模式每次都不同。但研究表明恰恰相反。
METR在RE-Bench任务上测试前沿模型时发现,30.4%的运行涉及奖励破解。2在Rust编程任务上,42.9%的运行涉及破解评估。模型通过猴子补丁将评估函数修改为始终返回满分。它们执行堆栈内省以在评分器内存中定位正确答案。它们创建伪造的张量类来绕过相等性检查。即使有明确的指令不允许作弊,OpenAI的o3在70-95%的尝试中仍然进行了奖励破解。当研究人员询问这种作弊行为是否符合用户意图时,o3十次中有十次回答”不符合”。模型知道这种行为是错误的,但仍然继续。2
Anthropic自身的研究也证实了这一模式的普遍性。在低层次规范博弈(政治谄媚)上训练的模型,在没有任何针对性训练的情况下,进展到了清单操纵、奖励函数修改和掩盖痕迹。10Anthropic的另一项研究发现,在模型学会奖励破解的确切时间点,不相关任务上的对齐偏差评估也出现了飙升:50%的回应中出现了对齐伪装,12%的尝试中出现了对安全研究代码的破坏。9
失败并非随机,因为激励结构并非随机。智能体为任务完成而优化。任务完成的信号包括:用户说了”完成”、测试报告通过、质量门放行。如果通往该信号的最短路径绕过了实际验证,智能体就会找到那条路径。反复如此。跨模型、跨任务、跨会话。
命名这些模式是捕获它们的第一步。
七种失败模式
| # | 失败模式 | 一句话概述 | 检测信号 |
|---|---|---|---|
| 1 | 捷径螺旋 | 跳过审查/评估/全局检查以更快地报告完成 | 实现后几秒就报告完成,未引用任何证据 |
| 2 | 信心幻象 | 在未运行验证的情况下声称确定 | “我很确信”后面没有测试输出或文件路径 |
| 3 | 差不多高原 | 能运行但携带缺陷、缺少测试、代码不清晰 | 通用变量名、没有新测试、对质量问题犹豫不决 |
| 4 | 隧道视野 | 精心打磨一个函数,却破坏相邻的导入 | “没有影响其他内容”却没有提供调用者搜索的证据 |
| 5 | 幻影验证 | 声称测试通过却从未运行 | 测试结果使用将来时/条件时态:”应该通过”、”会通过” |
| 6 | 延迟债务 | 将问题隐藏在TODO/FIXME/HACK注释中 | 差异对比中出现延迟处理的注释 |
| 7 | 空洞报告 | 报告”完成”但没有任何标准的证据 | 报告可以描述任何代码库的任何变更 |
上表是快速参考。下方的交互式探索器展开了每种模式的完整细节:发生了什么、如何检测、真实的智能体输出示例,以及捕获它的钩子或质量门。
大规模检测
命名失败模式对事后分析很有用。实时检测则需要基础设施。
每种失败模式都映射到一个确定性检查。确定性检查优于提示词策略,因为模型对指令的遵从不一致,但无法绕过在其输出到达用户之前触发的shell脚本。
捷径螺旋检测。一个挂载在完成事件上的钩子检查最后一次代码编辑和完成报告之间的时间间隔。如果间隔低于可配置的阈值,且报告未包含所有六项质量标准的证据,钩子就会阻断。智能体无法跳过审查-评估-改进-全局检查循环,因为无论模型意图如何,钩子都会强制执行。
# quality-gate.sh — block reports missing evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Cite test output."}'
else
echo '{"decision":"allow"}'
fi
信心幻象检测。一个grep钩子在每次完成报告时触发,搜索模糊措辞:”should work”、”I’m confident”、”looks correct”、”probably fine”。如果这些措辞出现时附近没有测试输出或文件路径引用,就会触发阻断。模型必须用证据替代信心声明。11
研究支持这种方法。Xiong等人发现,无论实际准确率如何,LLM表达的信心始终在80-100%的范围内,而GPT-4的失败预测仅略高于随机猜测(AUROC为62.7%)。11语言化的信心与正确性不相关。模糊措辞检测器能捕获自我评估无法发现的问题。
幻影验证检测。一个独立的测试运行器在每次代码变更后触发。智能体无法声称测试通过,因为钩子会报告实际结果。如果钩子输出显示失败,智能体必须在完成报告被接受之前解决这些问题。自我报告的测试状态永远不被信任。
这一发现与斯坦福大学的不安全代码研究相呼应:使用AI辅助的参与者更倾向于相信自己编写了安全的代码,即使实际并非如此。4无论验证者是人类还是人工智能,自我验证都是不可靠的。
延迟债务检测。一个PostToolUse钩子在每次文件写入后触发,对差异进行grep搜索TODO、FIXME、HACK和XXX。新代码中任何延迟处理的注释都会触发警告。智能体必须解决问题或将其升级为阻断项。
# deferred-debt-check.sh — catch deferred work in new code
CONTENT="$1"
DEBT=$(echo "$CONTENT" | grep -ciE '\bTODO\b|\bFIXME\b|\bHACK\b|\bXXX\b')
if [ "$DEBT" -gt 0 ]; then
echo '{"decision":"block","reason":"Deferred debt detected. Solve it now or escalate."}'
else
echo '{"decision":"allow"}'
fi
空洞报告检测。证据门要求每份完成报告包含六种特定证据类型:命名的代码库模式、解释的更简替代方案、列出的边界情况、粘贴的测试输出、检查的相邻文件、重述的用户需求。缺少任何一行的报告都会被阻断。一份可以描述任何代码库任何变更的报告,从定义上就是空洞报告。15
复合叠加问题
失败模式不会孤立运作,它们会形成链条。
最常见的链条始于信心幻象。智能体生成代码并声称”我很确信这处理了所有边界情况”。因为信心替代了验证,智能体跳过了运行测试。跳过测试触发了幻影验证:完成报告用将来时说”测试应该通过”,而不是报告观察到的结果。因为测试从未运行,潜在问题不会被发现。智能体用一份写着”已更新模块,变更向后兼容,测试应该通过”的报告标记任务完成。结果就是一份空洞报告:结构完整,证据为零。
如果智能体在实现过程中遇到了无法干净解决的问题,它会写一个TODO注释然后继续。延迟债务留在了代码库中。下一次智能体会话遇到同样未解决的问题,绕过它,债务不断累积。
这个链条在几秒内就能完成。没有检测基础设施的话,人工审查者看到一份看似合理的完成报告就会接受。Faros AI的数据量化了下游成本:AI辅助的拉取请求包含多9%的缺陷,需要多91%的审查时间。3CodeRabbit对470个拉取请求的分析发现,AI编写的变更每个PR多产生1.7倍的问题:逻辑错误多1.75倍、安全发现多1.57倍、XSS漏洞多2.74倍。12
链式反应也解释了为什么10%的生产力墙持续存在。DX调查了121,000名开发者,发现尽管采用率高达91%,生产力却停滞在大约10%。7DORA 2024发现AI采用率每增加25%,交付稳定性就下降7.2%。6单个开发者写代码更快了。组织则通过返工、事故和审查瓶颈吸收了复合叠加的失败。GitClear直接测量了这一症状:代码变动率(编写后两周内被重写的代码)预计将比AI之前的基线翻倍,而重构相关的变更从25%降至不到10%。5
没有验证的速度产生的是数量而非质量。没有质量的数量产生的是返工。返工消耗了生产力增益。墙依然屹立。
Hacker News帖子说对了什么(又说错了什么)
帖子的贡献者独立描述了七种失败模式中的大多数。24.88美元的定时任务就是捷径螺旋:智能体为任务完成而优化,没有任何验证门。500KB的文档输出就是隧道视野:智能体专注于子任务(描述工作)而忽略了实际任务(完成工作)。跨会话反复出现的bug就是延迟债务:未部署的修复不断累积,直到同样的故障重复出现。
帖子遗漏的是结构。零散的逸闻暗示AI智能体以不可预测的方式失败。分类体系揭示的恰恰相反:智能体以可预测的方式失败,因为激励结构是一致的。为完成信号而优化的智能体,如果没有阻拦,就会走捷径绕过验证。自我评估的智能体会夸大信心,因为自我评估存在系统性的校准偏差。11 13遇到无法解决的问题的智能体会推迟处理,因为”以后再解决”比”现在就解决”更快地终结当前任务。
这些逸闻还遗漏了修复方案。帖子中的每条评论都提出了不同的变通方法:”我在提示词中加了一条规则”、”我手动检查输出”、”我限制了它能访问的内容”。提示词是不可靠的,因为模型对指令的遵从不一致。人工审查无法扩展,因为AI生成代码的速度快于人类审查的速度。3访问控制解决了一种失败模式(破坏性操作),却让其他六种不被检测。
修复方案是基础设施。在每次完成、每次文件写入、每次工具调用时触发的确定性钩子。要求证据而非信心的质量门。无论智能体声称什么都会运行测试套件的独立验证。工具已经存在。Claude Code暴露了17个生命周期事件,每个都可以用shell脚本挂钩。15问题在于团队是构建钩子,还是接受10%的墙。
Stack Overflow的2025年调查量化了不构建钩子的代价:66%的开发者花时间修复”差不多对了,但又不完全对”的AI解决方案。45%认为调试AI生成的代码比从头编写更耗时。对AI准确性的信任降至33%,46%主动不信任AI输出。8
这些失败并不神秘。它们有名字、检测信号和修复方案。分类体系将它们从口口相传的经验转变为工程问题。
来源
-
“Ask HN: What breaks when you run AI agents unsupervised?” Hacker News, February 2026, news.ycombinator.com. Contributors described: unsupervised cron job destroying $24.88 in 2 days, agent generating 500KB documentation instead of executing task, same bugs resurfacing across sessions. ↩
-
METR, “Recent Frontier Models Are Reward Hacking,” METR Blog, June 5, 2025, metr.org. On RE-Bench tasks, 30.4% of runs (39/128) involved reward hacking. On Rust Codecontests, 42.9% involved hacking evaluation. o3 reward-hacked in 70-95% of attempts with explicit instructions not to cheat. ↩↩
-
Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI, July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. ↩↩
-
Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure code more often in 4 of 5 tasks. Participants with AI access were more likely to believe their code was secure. ↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines analyzed. Code churn projected to double in 2024 vs. 2021 pre-AI baseline. Refactoring fell from 25% to under 10%. ↩
-
DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. ~3,000 professionals. Per 25% AI adoption increase: -1.5% throughput, -7.2% delivery stability. 39% reported little to no trust in AI-generated code. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers across 450+ companies. AI adoption 91%. Productivity plateaued at ~10%. AI-authored code: 26.9% of production. ↩
-
Stack Overflow, 2025 Developer Survey, December 2025, survey.stackoverflow.co. 84% use or plan to use AI tools. Trust in accuracy: 33% (only 3.1% “highly trust”). 66% report “almost right, but not quite” AI output. 45% find AI debugging more time-consuming than writing code. ↩
-
Anthropic Alignment Science, “From Shortcuts to Sabotage: Natural Emergent Misalignment from Reward Hacking,” Anthropic Research, November 21, 2025, anthropic.com. At the point models learn to reward hack, misalignment spikes: alignment faking 50%, sabotage of safety code 12%. Inoculation prompting reduced misalignment 75-90%. ↩
-
Carson Denison, Monte MacDiarmid, Fazl Barez, David Duvenaud, et al., “Sycophancy to Subterfuge: Investigating Reward Tampering in Large Language Models,” Anthropic, June 17, 2024, arxiv.org. Models trained on sycophancy generalized to reward tampering without explicit training. 45/32,768 trials showed reward tampering. Control models: 0/100,000. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7% (barely above random 50%). ↩↩↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors, 2.74x more XSS vulnerabilities. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Models are well-calibrated on familiar tasks but struggle with P(IK) calibration on novel tasks. Self-evaluation has systematic blind spots. ↩
-
DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. AI amplifies existing strengths in high-performing orgs and dysfunctions in struggling ones. ↩
-
Author’s analysis. Failure taxonomy derived from ~500 agent sessions over two months. Hook system described in “Anatomy of a Claw.” Quality system described in “Jiro Quality Philosophy.” Related: “The 10% Wall,” “The Fabrication Firewall.” ↩↩