🧠 AI 应用技术串讲:从 LLM 到 Harness Engineering

一口气搞懂 12 个 AI 应用核心技术概念,附优质学习资源

🎯 这篇讲什么

本文基于社区优质飞书文档整理,用通俗语言串讲当下 AI 应用领域最核心的 12 个技术概念——从最底层的 Transformer 架构,到提示词工程、微调、RAG、Function Calling,再到 Agent、Multi-Agent、Context Engineering、Agent Skill、OpenClaw,最后到 Harness Engineering。每个概念都配有推荐学习资料,适合 AI 入门者建立全局认知。


1. LLM(大语言模型)

Transformer 架构的提出奠定了大模型时代基础,使基于注意力机制的生成模型成为主流。

当前最主流的架构是 Decoder-Only(仅解码器) 变体——GPT、Claude、DeepSeek 等都是这条路。

📎 Attention Is All You Need — Transformer 原始论文


2. Prompt Engineering(提示词工程)

提示词(Prompt) 是用来引导模型按照特定意图生成输出的输入指令,主要包含「系统提示词」和「用户提示词」。

提示词工程是通过设计和优化提示词,使大模型更准确、可控地产生所需输出。这是一种低成本调优手段——提升效果但不改变模型参数。

📎 Prompt Engineering 学习笔记


3. Fine-tuning(微调)

微调是在已有模型基础上,用特定数据再训练,让模型更适合某个具体任务或场景。微调改变的是模型的参数。

LoRA(Low-Rank Adaptation)算法通过只训练少量低秩参数来进行微调,大幅降低了训练成本——让个人开发者也能玩得起微调。


4. RAG(检索增强生成)

RAG 的核心思路:先从外部知识库检索相关信息,再结合这些信息一起生成回答。这样既提升了模型的准确性,也解决了知识时效性问题。

典型流程:用户提问 → 检索相关文档 → 拼接上下文 → LLM 生成回答


5. Function Calling(函数调用)

Function Calling 是让大模型按约定格式输出调用指令,由外部系统真正执行操作的机制。

它让模型从「只会说话」变为「会调用工具」——查天气、发邮件、操作数据库,都不再是问题。

📎 OpenAI Function Calling 文档


6. MCP(Model Context Protocol)

MCP 是一种标准化协议,让大模型以统一方式连接外部工具、数据源和服务,获取上下文信息并执行操作。

MCP 最重要的贡献:使工具可以跨 AI 应用复用。一次编写 MCP Server,Claude Desktop、Hermes Agent、Cursor 等都可以用——极大推动了 AI 工具生态发展。

📎 MCP 官方文档


7. Agent(智能体)

Agent 是一种能够基于目标进行「思考 → 行动 → 观察」循环、自主调用工具完成复杂任务的智能系统。

Agent 本质上是对人类的模拟——我们也是「感知 → 思考 → 行动 → 观察反馈」的循环。

最简公式:「提示词 + LLM + Tools」= Agent

Agent 四大设计模式

📎 ReAct 论文 · Agent 设计模式概览


8. Multi-Agent(多智能体)

多个分工协作的 Agent 共同完成任务,通过拆分任务与隔离上下文解决单 Agent 系统难以处理的复杂问题。

典型场景:一个 Agent 负责搜索资料,一个负责分析整理,一个负责撰写输出。

⚠️ 谨慎使用:Token 消耗量大、协作效率低、系统复杂度高——不是所有场景都需要 Multi-Agent。

📎 Building Multi-Agent Systems — Anthropic


9. Context Engineering(上下文工程)

Agent 运行中需要提供给 LLM 的一切相关信息——对话历史、用户输入、背景知识、工具返回结果等——都是上下文

上下文工程关注的是:如何高质量筛选、压缩和组织上下文,最大化模型的决策与推理能力。这是 Agent 系统中最被低估但最关键的一环。


10. Agent Skill(智能体技能)

Agent Skills 是一种轻量级的开放格式,用于将一整套 Agent 能力(prompt、工具脚本、知识文件等)封装为可复用模块,实现低门槛分享与复用。

核心认知:

📎 Agent Skills — Anthropic 官方博客 · Agent Skills 平台


11. OpenClaw

OpenClaw 是一款开源、高可扩展的 AI Agent 框架,基于 TypeScript 开发,核心用途是构建可自定义的私人 AI 助手。

重要创新:拓展了 Agent 的交互入口——不只是命令行,还支持飞书、Telegram、Discord 等多平台接入。Hermes Agent 即脱胎于此生态。

📎 nanobot — OpenClaw 精简版


12. Harness Engineering(驾驭工程)

Harness Engineering 强调通过构建受控环境,让 Agent 在约束下高效可靠地完成长周期复杂任务。

包含围绕 Agent 构建的一系列工程实践:约束机制、反馈回路、可靠上下文、安全的工具调用边界等。可以理解为「给 Agent 套上缰绳」。

📎 Harness Engineering — OpenAI


🔗 技术全景关系图

LLM(底层模型)
  ├── Prompt Engineering(不改变模型,优化输入)
  ├── Fine-tuning / LoRA(改变模型参数)
  ├── RAG(外部知识注入)
  └── Function Calling(让模型调用工具)
        │
        ▼
      MCP(标准化工具协议)→ 工具生态复用
        │
        ▼
      Agent(思考→行动→观察 循环)
        ├── Context Engineering(管理上下文质量)
        ├── Agent Skill(能力模块化复用)
        │
        ├── Multi-Agent(多智能体协作)
        │
        └── 工程化落地 → OpenClaw(开源 Agent 框架)
                        Harness Engineering(受控环境)

❓ 常见问题(FAQ)

Q1: Prompt Engineering 和 Fine-tuning 有什么区别?

Prompt Engineering 不改变模型参数,靠优化输入指令提升效果,成本低、迭代快。Fine-tuning 需要训练数据,改变模型参数,适合需要深度定制场景。实际项目中往往两者结合使用。

Q2: RAG 和 Fine-tuning 该选哪个?

RAG 适合需要最新信息、知识频繁更新的场景;Fine-tuning 适合需要模型学会特定风格、领域知识的场景。两者不互斥,可以同时用。

Q3: MCP 和 Function Calling 是什么关系?

Function Calling 是模型输出调用指令的能力,MCP 是定义「工具长什么样、怎么连接」的协议标准。可以理解为:Function Calling 是「会喊人帮忙」,MCP 是「统一了所有人的联系方式」。

Q4: 最简单的 Agent 怎么做?

提示词 + LLM + 一个 Tools 列表就行。比如给 Claude 配一个搜索工具,它就能自主决定何时搜索、搜索什么、怎么用搜索结果。

Q5: 什么时候该用 Multi-Agent?

单 Agent 上下文太长、任务需要不同专长、或者任务天然可并行分解时。但要警惕过度设计——很多场景一个设计良好的单 Agent 就够了。

Q6: Agent Skill 和 MCP Tool 什么区别?

MCP Tool 是单个工具(比如搜索、读文件),Agent Skill 是一套完整能力包(prompt + 工具 + 知识 + SOP)。Skill 可以包含多个 Tool,粒度更大。

Q7: 这 12 个概念的学习顺序是什么?

LLM(理解基础)→ Prompt Engineering(最实用)→ Agent(核心范式)→ MCP/Function Calling(工具能力)→ RAG/Fine-tuning(增强手段)→ Context Engineering(进阶优化)→ Agent Skill(模块化复用)→ Multi-Agent/Harness/OpenClaw(工程落地)

Q8: 为什么 Context Engineering 是最被低估的?

因为很多人只关注模型能力和工具数量,忽略了「给模型的上下文质量直接决定输出质量」。上下文太长会稀释注意力,太短会信息不足——剪裁、压缩、排序都很关键。

Q9: OpenClaw 和 Claude Code 是什么关系?

OpenClaw 是开源 Agent 框架(可以接任何模型),Claude Code 是 Anthropic 官方的 AI 编程助手。Hermes Agent 就是从 OpenClaw 生态中成长出来的。

Q10: Harness Engineering 和我有关系吗?

如果你在生产环境跑 Agent,就有关。它关注的是:如何让 Agent 不出错、不越权、不浪费 Token——本质是 Agent 的「安全护栏」。


⚠️ 避坑指南

正确做法
刚入门就直奔 Multi-Agent先用好单 Agent,跑通「思考→行动→观察」循环
把 Prompt Engineering 当作一次性配置持续 A/B 测试,迭代优化提示词
不区分 System Prompt 和 User PromptSystem Prompt 定规则/角色,User Prompt 给具体任务
Fine-tuning 数据质量差导致模型退化微调数据贵精不贵多,严格清洗和验证
RAG 直接拼接检索结果不做清洗检索结果要过滤、去重、按相关性排序后再给 LLM
MCP 工具不做权限控制工具需要白名单 + 权限分级,防止 Agent 越权操作
Agent 没有终止条件陷入死循环设置 max_turns 和超时机制
上下文无限膨胀不清理用滑动窗口、摘要压缩等手段控制上下文大小
把 Skill 写得过大加载慢遵循渐进式披露,Agent 按需读取,不一次全塞

📚 Claude Code 源码参考

想深入研究 Agent 实现?这些开源参考值得一看:


标签:#AI入门 #Agent #MCP #Skill #OpenClaw #串讲