防偽防火牆:當您的代理程式發布謊言
一個自主代理程式在72小時內將捏造的聲明發布到8個平台。訓練階段的安全措施在發布邊界失效。以下是修復方案。
AI & Technology關於設計、開發、AI基礎設施和產品構建的思考。
一個自主代理程式在72小時內將捏造的聲明發布到8個平台。訓練階段的安全措施在發布邊界失效。以下是修復方案。
AI & TechnologyKarpathy將「Claws」定義為一種新的架構層。以下是84個hook、43個skill與19個agent作為生產級編排系統的實際樣貌。
AI & TechnologyLLM在超過200K次多輪對話中準確率下降39%。三種機制導致崩潰,而更長的上下文視窗無法解決任何一種。
AI & Technology將 15,800 篇 Obsidian 筆記投射至嵌入空間,揭示三種知識拓撲結構。每種都有可診斷的失效模式,並可透過橋接筆記加以重塑。
AI & Technology執行期憲法在訓練階段對齊失效之處強制執行 AI 代理治理。能力檢查、輸出閘門與四大子系統確保代理安全運作。
AI & Technology本週有五個研究團隊發表了關於同一個問題的論文:AI 代理產生程式碼的速度遠超開發者理解它的速度。債務累積在你的腦中。
AI & Technology多數代理程式指令只定義行為。缺失層是自我評估。基於九個月生產使用與95個hooks的後設認知框架。
AI & Technology橫跨650個檔案、七層階層架構的AI代理Context Engineering。三次生產環境失敗、真實的token預算,以及最終存活下來的系統。
AI & Technology多代理審議能捕捉單一代理系統遺漏的失誤。以下是其架構、走過的死胡同,以及真正值得建構的部分。
AI & Technology我的Claude Code代理以機器速度繼承了人類所有的馬虎習慣。我建立了3套哲學、150多道品質關卡和95個hooks。以下是有效的做法。
AI & Technology我建構了一個 3,500 行的 Agent 系統,包含 86 個 Hook 和共識驗證機制。以下是我在 RAG、微調和 Agent 編排方面的經驗分享。
AI & Technology將網站翻譯成6種語言後發現:韓語對相同內容消耗的token是英語的2.8倍。互動式視覺化工具展示原因。
AI & Technology技術寫作: Introl
本地運行大型語言模型的全面硬體建議和成本分析。
針對不同AI工作負載比較NVIDIA最新資料中心加速器的GPU選擇指南。
深入技術分析Google張量處理單元從TPUv1到TPUv5的演進。
容器化環境中GPU叢集的資源共享策略。
使用Ray框架構建和管理分散式AI運算的指南。
開源LLM經濟學分析和DeepSeek的競爭定位。
未來資料中心電力需求和NVIDIA下一代GPU路線圖。
為下一代AI基礎設施供電的小型模組化反應爐解決方案。
DeepSeek多頭壓縮架構創新的技術分析。