爱折腾的工程师

未来的你会感谢现在努力的自己

CodeRabbit 如何用 Claude 构建 Agent 编排系统:从隐性知识鸿沟到规划驱动的代码生成

CodeRabbit 每周审查 200 万个 PR,他们发现 AI 生成代码最常见的失败不是编译错误,而是方向偏离。本文解析其 Agent 编排系统的核心设计:在代码生成之前插入规划层,通过 Opus/Sonnet/Haiku 多模型路由与评估体系闭环,将模糊需求转化为精准执行计划。

用 LLM 保护源代码安全:Anthropic 六步闭环实战指南

从威胁建模到自动修复,瓶颈已从发现转移到验证与修复

引言 模型能力正在快速且不均匀地进化。Anthropic 安全团队在与多个企业合作扫描开源软件的过程中,截至 2026 年 5 月 22 日已披露 1,596 个漏洞,但其中仅

RAG 已死,LLM Wiki 接棒:Andrej Karpathy 的理念与四大开源实现

Andrej Karpathy 提出 LLM Wiki 概念,将 AI 从一次性回答工具升级为持续构建知识库的智能体。本文解读其核心论证,横评四大开源实现方案,并给出基于 Ollama / vLLM 的本地部署实践建议。

OpenAI 内部数据 Agent 深读:上下文工程,比换更大的模型更重要

OpenAI 在 2026 年 1 月公开了内部数据 Agent 的设计原理:3,500 名员工、7 万张表、600PB 数据,单条查询动辄 180 行 SQL —— 它解决问题的方式不是换更大的模型,而是把上下文工程做扎实。本文基于 OpenAI 官方博客《Inside our in-house data agent》,深拆其六层上下文体系、Codex 增强、RAG 管道、Evals 闭环、严格透传权限模型,并提炼三条 Lessons Learned 对自建数据 Agent 团队的迁移启示。

AI Agent 评估指南:从模型分数到轨迹质量的范式迁移

NVIDIA 这篇 Agent 评估指南最值钱的不是那 5 条 Tip,而是它戳破了一层窗户纸:模型基准回答的是『引擎够不够强』,Agent 评估回答的是『系统在你的技术栈里能不能反复跑通』。本文用一个『订单查询 Agent』贯穿全文,把 TSR、Tool Call Accuracy、Trajectory Efficiency 三件套讲清,附评估驱动开发(EDD)循环与最小可行评估栈清单。