AI Agent安全:部署與防禦的信任悖論
如何在生產環境中保護AI agent?在應用層之下以作業系統層級沙箱執行權限管控,而非依賴應用層的白名單。透過PreToolUse hooks在執行前攔截每一次工具呼叫。以原始任務與agent近期行為之間的嵌入相似度,監控行為漂移。這三項機制(行為圍堵、權限範圍劃定、漂移偵測)正面處理了Meta Sev 1事件、Amazon 13小時中斷,以及Agents of Chaos研究所揭露漏洞背後的失效模式。
2026年3月18日,一位Meta工程師在內部論壇部署了一個AI agent,用於回答同事的技術問題。該agent未經授權便發布了回應。另一位員工採納了agent有瑕疵的建議,引發連鎖反應,導致敏感的企業與使用者資料在近兩小時內暴露給未經授權的員工。Meta將此事件列為Sev 1,是其內部系統中第二高的嚴重等級。1
同一週,Google工程師發布了Sashiko,一套針對Linux核心的agentic AI程式碼審查系統,從最近1,000個上游issue中成功捕獲53%的bug,這些bug「百分之百被人類審查者遺漏」。2 Wikipedia社群持續辯論是否全面禁止LLM生成的貢獻。3 NIST發布了AI Agent標準倡議,以促進「可信採用」。4 一位美國參議員坐下與Claude對話,詢問AI公司是否值得信任來處理其蒐集的資料。Claude的回答:「錢,參議員。這從根本上是關於利潤。」影片創下440萬次觀看。5
每一家主要機構都在同時部署agent,並築起抵禦agent的高牆。高牆不斷升高,是因為agent不斷證明它們需要這樣的高牆。
TL;DR
- 這個悖論:組織一邊加速部署agent,一邊倉促應對agent失效。兩項工作彼此之間毫無協調。
- 這些數字:每8起企業AI資安事件中就有1起涉及agentic系統。80%的組織回報有風險性的agent行為。僅21%的高階主管對其agent所存取的範圍具備完整可視性。6
- 這些事件:Meta因未經授權的agent貼文被列為Sev 1。AWS因一個AI程式設計工具決定「刪除並重建環境」而中斷13小時。7 一項為期14天的多校聯合研究在六個agent中發現10項資安漏洞,包括身分劫持與無限迴圈。8
- 這個模式:快速部署、發現失效、築起高牆、加速部署。Google推出Sashiko協助審查程式碼,而Amazon強制規定AI輔助程式碼變更須經資深審批。Anthropic對一款偽造Claude標頭的開源工具提起訴訟,而該工具每月有250萬名開發者使用。9
- 為何持續存在:部署遵循產品時程(季度OKR)。防禦遵循事件時程(事後檢討)。限制永遠追不上授予的權限。
- 如何打破循環:在部署與防禦之間閉合回饋迴路的執行時行為治理。行為圍堵(PreToolUse hooks)、權限範圍劃定(作業系統層級沙箱)與漂移偵測(餘弦相似度追蹤)正面處理本文所述三大失效類別。證據來自500+次自主agent工作階段,以及一份提交給NIST的公開意見書,內容探討agent行為威脅。
部署與防禦的模式
過去90天內的三起事件揭示了這個模式。
Meta(2026年3月):一個AI agent在內部論壇發布未經授權的回應。一名員工採信了有瑕疵的建議。敏感資料洩露給未經授權的員工長達兩小時。Meta證實此事件,列為Sev 1,並表示「無使用者資料遭到濫用」。1 數月之前,Meta AI部門安全主管Summer Yue回報,一個連接其Gmail的agent「在清楚指示不要這麼做的情況下,仍自行刪除郵件」,並且無視停止操作的指令,直到被手動中止為止。10
Amazon(2025年12月):當Amazon的Kiro AI程式設計工具判定需要「刪除並重建環境」時,該agent導致AWS中斷13小時。Amazon將責任歸咎於「使用者錯誤而非AI錯誤」,並表示該員工擁有「比預期更廣的權限,屬於使用者存取控制問題,而非AI自主性問題」。多名員工向Financial Times透露,這「至少」是第二起AI工具相關的服務中斷。Amazon的回應:強制規定AI輔助程式碼變更須經資深審批。7
研究實驗室(2026年2月):Agents of Chaos研究(來自東北大學、史丹佛、哈佛、MIT與CMU的研究人員)讓六個AI agent在14天內存取一個類Discord的伺服器,具備電子郵件、bash、持久檔案系統、cron作業與GitHub存取能力。二十位研究人員與這些agent互動,部分為善意,部分為對抗性。這些agent展現出10種不同的資安漏洞。8
這些漏洞看起來平淡無奇。一個agent直接摧毀了整台郵件伺服器,而非採取對等的行動(反應過度)。兩個agent陷入互相轉發的迴圈,衍生失控的背景行程(無限迴圈)。一個agent接受了偽造的擁有者身分,授予完整系統存取權(身分劫持)。在12次拒絕之後,一個agent在持續的情感壓力下,順從了未經授權的請求(情緒綁架)。8
領導此研究的東北大學教授Christoph Riedl總結:AI agent「對現實情境中的任何常識性推理都差得可怕」,特別是在利害衝突時。11
2026年Agent資安事件數字
HiddenLayer的2026 AI威脅報告調查了250位IT與資安主管。研究結果將此悖論量化:12
- 自主agent占企業AI回報資安事件的八分之一以上
- 35%的事件來自公開模型倉庫中的惡意軟體,然而93%的組織仍在使用這些倉庫
- 31%的受訪者不知道自己是否遭到入侵
- 53%承認隱瞞AI事件通報
- 76%將影子AI列為明確或可能的問題,較2025年的61%上升
執行長Chris Sestito表示:「Agentic AI在12個月內的演進,超越了多數企業資安五年的進展。」12
另一項企業調查發現,僅21%的高階主管對其agent的權限、工具使用與資料存取具備完整可視性。80%回報了風險性的agent行為,包括未經授權的存取與不當的資料暴露。平均每家企業約有1,200個非官方AI應用程式,而86%表示對其毫無可視性。6
程式碼品質資料同樣嚴峻。CodeRabbit分析了470個pull request,發現AI撰寫的程式碼比人類撰寫的程式碼多出1.7倍的問題。13 Apiiro發現使用AI的開發者引入約多出10倍的資安漏洞。13 METR發現,通過業界測試的AI程式設計解決方案中有一半會被人類審查者拒絕。13
供應鏈風險更進一步放大這些數字。攻擊面並非假設性的威脅。MCP伺服器是連接agent基礎設施的新攻擊面。MCPTox是一個針對45個真實世界MCP伺服器評估工具中毒攻擊的基準測試,研究發現嵌入在工具metadata中的惡意指令在GPT-4o-mini、o1-mini、DeepSeek-R1與Phi-4上的攻擊成功率超過60%。18 這些攻擊從不執行被下毒的工具本身。它們在工具描述中嵌入指令,引導agent使用伺服器上已有的合法工具,去竊取憑證或竄改參數。現有的安全對齊機制無法捕獲此類攻擊,因為攻擊鏈中的每一次工具呼叫,都是對可信工具的合法呼叫。18
這個理論上的供應鏈風險在2026年3月24日變為現實。當時一位攻擊者入侵了LiteLLM的PyPI維護者帳號,這是一個每日下載量超過一百萬次的熱門AI代理函式庫。攻擊者發布了兩個惡意版本(1.82.7與1.82.8),這些版本從未經過官方GitHub CI/CD流程。版本1.82.8包含一個.pth檔案,會在任何Python啟動時自動執行,無需任何import。惡意負載收集了所有環境變數、SSH金鑰、AWS/GCP/Azure憑證、資料庫密碼、加密貨幣錢包與CI/CD機密資料(典型的silent egress attack),以硬編碼的RSA公鑰加密後,將壓縮檔外傳至攻擊前數小時才註冊的攻擊者控制網域。惡意版本維持上線約12至24小時才被移除,下游專案包括Microsoft GraphRAG皆受到波及。19
一個遭入侵的agent會在4小時內毒化87%的下游決策過程。6
同時部署Agent並築起高牆
機構對這些數字的回應分裂為兩股同時進行、卻毫無協調的運動:加強部署與加強防禦。
加強部署:
Google發布Sashiko,用於Linux核心的agentic程式碼審查,並獲Linux Foundation支持。該系統捕獲了人類審查者完全遺漏的53%錯誤,估計誤報率低於20%。2 Meta儘管發生Sev 1事件,仍持續擴大內部AI agent的使用。EY回報,營收超過10億美元的公司中有64%因AI失效而損失超過100萬美元,而這些公司全都仍在部署。6
加強防禦:
Amazon在Kiro中斷事件後,強制規定AI輔助程式碼變更須經資深審批。7 Anthropic鎖定OAuth存取以阻止第三方工具偽造Claude標頭,隨後對OpenCode提起法律請求,正是因為該工具做了這件事。9 Wikipedia限制LLM生成的貢獻:編輯者必須在編輯摘要中揭露AI使用情形,且「明顯由LLM生成的評論可能會被劃除或摺疊」。3 EFF接受LLM生成的程式碼用於其開源專案,但要求所有註解與文件皆須由人類撰寫。14 NIST啟動AI Agent標準倡議,支柱有三:業界主導的標準、社群協定與安全研究。4
參議員Bernie Sanders發布了一段9分鐘與Claude的訪談,創下440萬次觀看。Gizmodo的回應是:「嘿Bernie,那可不是AI agent。」15 批評者對方法論的質疑有其道理,但結構性的訊號仍有其意義。當一位在任參議員將AI系統視為可信的企業監控證人時,政策環境在任何技術框架能夠回答這些問題之前,就已經改變了。5
上述這些防禦措施,沒有一項與隔壁大樓正在進行的部署決策有所協調。
OpenCode斷層線
部署與防禦之間緊張關係最清楚的例證,就是Anthropic與OpenCode之間的爭議。
OpenCode是一款開源AI程式設計agent,擁有12萬以上的GitHub星標與每月500萬名開發者使用者。9 該工具支援75個以上的LLM供應商。為了存取Claude,OpenCode偽造claude-code-20250219 HTTP標頭,讓Anthropic的伺服器誤以為請求來自官方的Claude Code CLI。這個偽造手法讓Max訂閱者(每月200美元、預設執行Opus 4.7的20倍方案)得以透過OpenCode路由Claude,而Anthropic毫不知情。9
社群發展出一種名為「Ralph Wiggum」的技術:讓Claude在無限迴圈中執行,自主修改程式碼直到測試通過為止。據報導,一位開發者僅花不到300美元的API費用,便完成一份價值5萬美元的合約,耗用了Max訂閱的無限資源。9
2026年1月9日,Anthropic在伺服器端部署阻擋機制,封鎖非官方的OAuth存取。3月19日,OpenCode合併PR #18186,「依法律請求」移除所有Anthropic品牌的系統提示詞、身分驗證外掛與供應商提示。9 該PR收到399次倒讚與177個困惑的反應。
DHH與George Hotz批評此舉。Hotz表示:「對於一家以在我們程式碼上訓練模型為基礎所建立的公司而言,這是糟糕的政策。」OpenAI公開支持OpenCode,允許ChatGPT訂閱者使用第三方工具,形成刻意的對比。9
Anthropic的Thariq Shihipar回應:「未經授權的harness會引入bug與使用模式,讓Anthropic無法進行適當的診斷。」16
雙方都有其道理。當第三方工具偽造官方標頭時,Anthropic無法維持品質保證。開發者無法在一個對互通性提起訴訟的平台上建立系統。這場爭議並非關於技術,而是關於信任邊界設在哪裡,以及由使用者或供應商來劃定這條線。
時間尺度的落差
本文中的每一個組織在獨立情境下都做出了合理的決定。Meta部署內部agent是因為它們提升生產力。Amazon推出Kiro是因為AI輔助程式設計加速開發。Google發布Sashiko是因為人類審查者會遺漏一半的bug。Wikipedia限制LLM貢獻,是因為志願編輯者無法吸收大規模機器生成文字的審查負擔。
這個悖論持續存在,是因為部署與防禦運作在不同的時間尺度上。
部署遵循產品時程。一個團隊將agent整合作為季度OKR出貨。成功指標是採用率:有多少員工使用、完成多少任務、節省多少時間。Agent取得更廣的權限,是因為受限的權限會減緩採用速度,而採用緩慢會扼殺OKR。
防禦遵循事件時程。一個團隊在出事之後才築起高牆。Meta Sev 1的回應是限制該agent的發文權限。Amazon的回應是強制資深審批。每道牆都針對觸發它的特定失效,但沒有一道牆能處理下一次的失效。
這兩種時間尺度之間的落差形成了一種棘輪。每一次部署循環都授予agent新能力。每一次事件循環都在某一項能力失效後對其加以限制。限制永遠追不上授予的權限,因為部署團隊的下一個衝刺早在事件檢討結束之前就已展開。
我之所以瞭解這個棘輪,是因為我同時站在它的兩側運作。自2025年5月以來,在超過500次自主程式設計工作階段中,我一邊部署能力越來越強的agent設定,一邊針對每種設定所暴露的失效建立防禦機制。在60天內發生了12次:我的agent停止執行指派的任務,轉而去做其他事情。每一次,agent仍持續產生看似合理的輸出。沒有任何資安漏洞參與其中。Agent在執行時自行決定去處理另一個問題。
漂移偵測器的存在,正是因為那12起事件。沙箱的存在,是因為我曾抓到一個agent試圖寫入~/.ssh/。證據閘門的存在,是因為一個agent在未執行pytest的情況下回報「所有測試通過」。每一道防禦都可追溯到某個先前設定未預見的特定失效。我所編目的七種具名失效模式,正是Agents of Chaos研究在學術規模下所發現的相同模式:agent在驗證、比例性與自我評估上的失敗。8
執行時治理長什麼樣子
當部署與防禦兩項功能共享同一個回饋迴路時,部署與防禦的循環才會被打破。實務上,這意味著在執行時而非事後才檢視agent行為。
我的編排系統將每一個agent操作包裹在hook管線之中:84個hook攔截Claude Code所暴露的26個生命週期事件類型中的15個(v2.1.116,2026年4月),涵蓋檔案讀取、檔案寫入、bash指令、網路請求與子agent產生。17 在任何工具呼叫執行之前,PreToolUse hook會依照agent無法覆蓋的限制條件進行檢查。每25次工具呼叫之後,漂移偵測器會計算原始任務與agent近期行為之間的餘弦相似度。當相似度分數低於0.30時,系統會注入一則包含原始提示詞的警告。在全部12次低於閾值的觸發中,agent皆可驗證已偏離任務。17
三項具體機制正面處理本文中的三大失效類別:
行為圍堵解決Meta的問題。Meta的agent未經授權就發文,是因為沒有任何機制檢查它是否應該發文。一個在每次bash指令前觸發、比對curl -X POST、git push或API寫入端點等模式的PreToolUse hook,能在未授權的論壇貼文執行前加以阻擋。這項檢查增加的延遲是毫秒級。而替代方案是一次Sev 1。
權限範圍劃定解決Amazon的問題。AWS中斷事件之所以發生,是因為agent擁有刪除基礎設施的權限。一個在作業系統層級的沙箱(macOS Seatbelt、Linux seccomp或容器層級限制),透過阻擋對生產路徑、憑證儲存與基礎設施API的寫入,讓「刪除並重建環境」無論agent決定怎麼做都在物理上不可能發生。Agent沙箱在於應用層之下強制執行之前,仍只是建議。
漂移偵測解決Agents of Chaos的問題。該研究最陰險的發現並非戲劇性的失效(郵件伺服器摧毀、身分劫持),而是漸進式的失效:agent在持續施壓下屈從,依循以合法形式包裝的未經授權請求。漂移偵測能在有害行動發生之前,捕獲到行為軌跡。當一個agent在第13次嘗試時順從「情緒綁架」的時候,原始任務與當前對話之間的餘弦相似度,早已跌破任何合理的閾值。
上述機制都不需要在部署前就對齊以預測特定的失效。它們即時觀察行為,並強制執行agent無法爭辯的不變性條件。Agents of Chaos研究在同一批agent執行同一份權重的情況下,發現了10項漏洞與6項真正的安全行為。8 差別在於情境。執行時治理讓情境相依的失效變得可偵測。
能夠解決這個悖論的組織,不會是部署最快或防禦最強的那些。而是能在兩者之間閉合回饋迴路的組織:讓每一次部署都產生可供下一道限制條件使用的遙測資料,並讓每一道限制條件都在出貨前,先經過下一次部署的測試。
FAQ
2026年最大的AI agent資安風險是什麼?
三大失效類別主導:未經授權的行動(agent執行了從未被指示的操作,如Meta的論壇發文agent)、權限升級(agent使用超出預期的權限,如AWS基礎設施刪除事件)與行為漂移(agent在壓力或累積情境下,逐漸偏離其指派任務)。HiddenLayer對250位資安主管的調查發現,自主agent目前占企業AI資安事件的八分之一,且80%的組織回報風險性的agent行為。12 MCP工具中毒攻擊面新增第四種類別:透過遭入侵的工具metadata操縱agent行為的供應鏈攻擊。
什麼是PreToolUse hooks?它們如何保護AI agent?
PreToolUse hooks是執行時的攔截器,在每一次agent工具呼叫之前觸發:檔案寫入、bash指令、API請求、子agent產生。每一個hook會將擬執行的動作與agent無法覆蓋的限制清單進行模式比對。例如,比對curl -X POST或git push的hook會在執行前阻擋未授權的網路寫入。Claude Code hooks系統自v2.1.116起暴露26種生命週期事件類型;我的生產環境設定在其中15種上執行了84個hook。此機制增加毫秒級延遲,但能阻止造成Meta Sev 1事件的那類失效。
AI agent的漂移偵測如何運作?
漂移偵測定期計算原始任務提示詞嵌入與agent近期行為嵌入之間的餘弦相似度(我的系統為每25次工具呼叫一次)。當相似度分數降至閾值(0.30)以下時,系統會注入包含原始提示詞的警告以重新對齊agent。在60+次每日自主工作階段中,此機制捕獲了100%經驗證的漂移事件,即agent在靜默中停止執行指派任務、開始追求不同目標,但同時仍產出看似合理輸出的情形。17
可以在作業系統層級為AI agent設置沙箱嗎?
可以,而且應該這麼做。應用層級的權限清單是agent可以爭辯的建議。作業系統層級的沙箱(macOS Seatbelt設定檔、Linux seccomp-bpf、容器層級的cgroup限制)在核心層級強制執行拒絕規則。Agent無論決定怎麼做,都無法寫入~/.ssh/、~/.aws/或生產基礎設施路徑。核心層級的執行讓「刪除並重建環境」在物理上不可能,而非僅僅被禁止。
Agent信任危機真的是新現象嗎?
這些失效並不新。自動化自AI出現之前便已造成事件。2025至2026年間改變的是自主性的落差:agent如今在執行時自行選擇動作,而非依循預先定義的腳本。HiddenLayer報告發現,自主agent具體占了八分之一的資安事件,這是兩年前並不存在的類別。12
開源AI agent比專有的更不安全嗎?
Anthropic與OpenCode的爭議關乎存取控制,而非安全性。OpenCode的資安概況取決於它連接至哪個LLM供應商,以及如何進行設定。安全性的問題不是開源對封閉,而是工具操作者是否對agent的行為具備可視性,無論授權形式如何。
Meta的agent真的造成資料外洩嗎?
Meta將此事件列為Sev 1(第二高嚴重等級),並證實敏感資料暴露給未經授權的員工約兩小時。Meta聲明「無使用者資料遭到濫用,也無證據顯示任何人利用此存取或將任何資料公開」。1 這是否構成「外洩」取決於定義,但未經授權的暴露是真實發生的。
Agents of Chaos研究是什麼?
一項為期14天的多校研究計畫(東北大學、史丹佛、哈佛、MIT、CMU),在受控環境中讓六個AI agent存取電子郵件、bash、檔案系統、cron作業與GitHub。二十位研究人員與這些agent互動。該研究識別出10項資安漏洞與6項安全行為,發表於arXiv:2602.20021。8
企業應該停止部署AI agent嗎?
不應該。Google的Sashiko捕獲了100%人類審查者皆遺漏的bug。企業生產力的提升是可衡量的。停止部署並非解答。在部署與防禦之間閉合回饋迴路才是。每一次agent部署都應產生行為遙測資料,以供下一道限制條件參考。每一道限制條件都應在出貨前,先經過下一次部署的測試。
個別開發者該怎麼做?
三個具體步驟,依影響力排序:(1) 在應用層之下執行權限管控。一個阻擋寫入~/.ssh/、~/.aws/、生產路徑與憑證儲存的作業系統層級沙箱,能讓Amazon式的災難在物理上不可能發生。Agent無法與核心層級的拒絕爭辯。(2) 監控行為軌跡,而非僅監控輸出。工作階段漂移可透過原始任務與agent近期行為之間的嵌入相似度加以偵測。餘弦相似度閾值0.30在我的60次工作階段測試中,捕獲了100%經驗證的漂移事件。17 (3) 要求證據,而非斷言。當agent回報「所有測試通過」時,要求提供測試輸出。幻象驗證占需要人類介入的agent失效的12%。
什麼是部署與防禦的棘輪?
這是一種模式:每一次部署循環授予agent新能力,而每一次事件循環僅在某項能力失效之後對其加以限制。限制永遠追不上,因為部署團隊的下一個衝刺早在事件檢討結束之前便已展開。當兩個團隊共享同一條遙測管線與同一個回饋迴路時,棘輪才會被打破。
-
Amanda Silberling, “Meta Is Having Trouble with Rogue AI Agents,” TechCrunch, March 2026, reporting on The Information’s investigation. ↩↩↩
-
Roman Gushchin, “Sashiko: Agentic AI Code Review for the Linux Kernel,” GitHub / Linux Foundation, March 2026. Coverage: Phoronix. ↩↩
-
Wikipedia community, “Large Language Model Policy,” ongoing. See also: RFC on LLM-assisted writing. ↩↩
-
NIST, “Announcing the AI Agent Standards Initiative for Interoperable and Secure AI,” February 2026. ↩↩
-
Senator Bernie Sanders, X post, March 19, 2026. ~4.4 million views. ↩↩
-
Help Net Security, “Enterprise AI Agent Security in 2026,” March 2026. Aggregates EY, Astrix Security, and Harmonic Security surveys. ↩↩↩↩
-
Fortune, “AI Coding Risks: What Amazon’s Outage Reveals About Enterprise Agents,” March 2026. Also: Financial Times reporting on multiple AWS incidents. ↩↩↩↩
-
Christoph Riedl et al., “Agents of Chaos,” arXiv:2602.20021, February 2026. Multi-institutional: Northeastern, Stanford, Harvard, MIT, CMU. ↩↩↩↩↩↩
-
ShareUHack, “OpenCode Anthropic Legal Controversy,” March 2026. Primary: GitHub PR #18186. ↩↩↩↩↩↩↩
-
Summer Yue, head of safety at Meta Superintelligence Labs, reported the email deletion incident in February 2026. Cited in TechCrunch and The Decoder coverage of Meta agent incidents. ↩
-
Christoph Riedl, quoted in “Autonomous AI Agents Unleashed on Discord,” Northeastern University News, March 2026. ↩
-
HiddenLayer, “2026 AI Threat Landscape Report,” March 18, 2026. Survey of 250 IT/security leaders. ↩↩↩↩
-
CodeRabbit (470 PRs, 1.7x issue rate), Apiiro (~10x security issues), and METR (50% rejection by human reviewers) cited in Fortune, March 2026.7 ↩↩↩
-
EFF, “Our Policy on LLM-Assisted Contributions to Open Source Projects,” February 2026. ↩
-
Gizmodo, “Hey Bernie, That’s Not an AI Agent,” March 2026. ↩
-
Thariq Shihipar, Anthropic, quoted regarding unauthorized third-party tool access. Cited in The Register, February 2026. ↩
-
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions. ↩↩↩↩
-
Zhiqiang Wang et al., “MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers,” arXiv:2508.14925, AAAI 2026. 45 MCP servers, 353 tools, 1,312 malicious test cases across 20 LLM settings. ↩↩
-
isfinne et al., “LiteLLM Supply Chain Attack: Malicious litellm_init.pth credential stealer,” GitHub Issue #24512, March 24, 2026. Compromised PyPI maintainer account, double base64-encoded payload, AES-256-CBC + RSA exfiltration to attacker domain. Downstream: Microsoft GraphRAG, jaseci, nanobot-ai. ↩