盲评裁判:在36场对决中为Claude Code与Codex打分
Claude Code与Codex CLI的对决,在36场比赛中按5个维度进行盲评打分。胜负并非重点,真正的价值在于综合两个代理最强构想的融合方案。
AI Engineering关于设计、开发、AI基础设施和产品构建的思考。
Claude Code与Codex CLI的对决,在36场比赛中按5个维度进行盲评打分。胜负并非重点,真正的价值在于综合两个代理最强构想的融合方案。
AI Engineering你无法通过更努力地思考来消除认知偏差。10个AI智能体相互辩论是一种结构性干预,能带来更好的决策。
AI Engineering提交给NIST的生产环境证据:AI代理威胁是行为性的。7种故障模式、3层防御,以及60次日常会话中发现的框架缺陷。
AI & Technology121,000名开发者接受调查,92.6%使用AI工具,生产力却停滞在10%。这堵墙源于基础设施,而非智能。三个根本原因及其解决方案。
AI EngineeringKarpathy将"Claws"定义为一种新的架构层。本文展示了84个Hook、43个技能和19个智能体如何构成一个生产级编排系统。
AI & Technology一个自主Agent在72小时内向8个平台发布了虚构的技术声明。训练阶段的安全机制在发布边界失效了。以下是修复方案。
AI & Technology运行时宪法在训练阶段对齐失效之处强制执行AI智能体治理。能力检查、输出门控与四大子系统共同保障智能体安全。
AI & TechnologyLLM在超过200K次多轮会话中准确率下降39%。三种机制驱动了这一崩溃,而更长的上下文窗口无法解决其中任何一个。
AI & Technology将15,800篇Obsidian笔记投射到嵌入空间,揭示出三种知识拓扑结构。每种拓扑都有可诊断的失效模式,并可通过桥接笔记加以重塑。
AI & Technology本周有五个研究团队发表了关于同一问题的研究:AI智能体生成代码的速度远快于开发者理解代码的速度。债务积累在你的脑中。
AI & Technology一个能快速建立 GLSL 直觉的实用实验室:预设、实时控制、零框架 WebGL。
Interactive ExplorationsCraig Reynolds 的 boids 算法展示了三个局部规则如何产生全局协同。同样的原理与失效模式也出现在多智能体 AI 系统中。
Interactive Explorations技术写作: Introl
本地运行大型语言模型的全面硬件建议和成本分析。
针对不同AI工作负载比较NVIDIA最新数据中心加速器的GPU选择指南。
深入技术分析Google张量处理单元从TPUv1到TPUv5的演进。
容器化环境中GPU集群的资源共享策略。
使用Ray框架构建和管理分布式AI计算的指南。
开源LLM经济学分析和DeepSeek的竞争定位。
未来数据中心电力需求和NVIDIA下一代GPU路线图。
为下一代AI基础设施供电的小型模块化反应堆解决方案。
DeepSeek多头压缩架构创新的技术分析。