爱折腾的工程师

未来的你会感谢现在努力的自己

DeepSeek-V3.2 多机推理部署指南:vLLM-Ascend 与 TIONE 在线服务

面向昇腾 Atlas 800 A2/A3 的 DeepSeek-V3.2 多机推理部署规范:vLLM-Ascend 原生部署与 TIONE 在线服务部署

本文档基于 vLLM-Ascend DeepSeek-V3.2 官方教程与 TIONE 3.11 在线服务实践,规范化描述 DeepSeek-V3.2 在昇腾 Atlas 800 A2/A3 上的多机推理部署流程。内容覆盖硬件与版本基线、容器与网络配置、vLLM 原生多机命令、TIONE 在线服务数据源与启动脚本、Prefill-Decode 分离部署、功能与性能验证以及运维排障清单,适用于生产环境落地。

MindCluster 架构与实践:从 NPU 调度、故障诊断到大模型训练容错

从本地 mind-cluster 源码和 MindCluster 7.1.RC1 官方文档出发,拆解昇腾 NPU 集群的软件栈、调度闭环、故障诊断与训练容错机制

本文遍历本地 mind-cluster 代码库,并结合昇腾社区 MindCluster 7.1.RC1 官方文档,系统梳理 MindCluster 的产品定位、组件架构、NPU 调度闭环、故障诊断、资源监测、Checkpoint 加速和训练容错能力。文章包含架构图、调度流程图、源码入口、YAML 示例和实践步骤,帮助读者理解如何用 MindCluster 构建可调度、可观测、可恢复的昇腾 AI 集群。

揭秘 AI 智能体评估:从任务、轨迹到生产级 Eval 体系

基于 Anthropic Engineering《Demystifying evals for AI agents》,系统拆解 AI Agent 评估的对象、方法、难题与工程化最佳实践

本文基于 Anthropic Engineering 的《Demystifying evals for AI agents》,面向开发者系统讲解 AI 智能体评估方法论:为什么传统单轮 LLM eval 不够,Agent eval 的 task、trial、transcript、outcome、grader、harness 如何协作,如何组合确定性评分器、LLM judge 与人工评审,以及如何处理非确定性、创造性解法、grader 脆弱、环境污染和 eval 饱和等挑战。文章配套架构图、对比图、指标趋势图和路线图,帮助团队从真实失败案例出发构建可维护的 Agent 评估体系。

vLLM-Ascend 多机推理HCCL通信原理深度解析

从 vLLM-Ascend DeepSeek-V3.2 多机部署出发,深入解析 HCCL 初始化、通信组构建与跨节点张量传输机制

基于 vLLM-Ascend DeepSeek-V3.2 多机推理教程,系统分析 HCCL 在 Ascend 多机多卡推理中的初始化流程、Rank 与通信组建模、TP/DP/EP 并行下的通信拓扑,以及跨节点张量传输的底层数据流。文章包含多张架构图和流程图,帮助理解 vLLM-Ascend 如何通过 HCCL、Gloo、DP RPC 与 NPU 网络协同支撑大模型多机推理。

从 RAG 到 LLM Wiki:一种可持续演化的个人知识库技术方案

从一次性检索到持续性知识编译:基于 LLM Agent、Markdown 与 Git 的个人 Memex 架构设计

基于 Karpathy 的 LLM Wiki 设计模式,系统拆解一种由 LLM Agent 持续维护 Markdown Wiki 的知识库架构。本文从传统 RAG 的局限出发,深入分析 Raw Sources、Wiki、Schema 三层模型,设计 Ingest、Query、Lint 三类核心工作流,并给出目录结构、页面数据模型、Agent 规则、检索策略、质量控制、Git 审计与规模化路线,帮助技术爱好者理解如何把 LLM 从一次性问答工具升级为长期知识库维护者。