AI 发展介绍:从 Transformer 到智能体时代
1. Transformer 架构的诞生(2017)
1.1 背景
在 Transformer 之前,自然语言处理(NLP)主要依赖 RNN(循环神经网络)和 LSTM(长短期记忆网络)。这些模型存在以下问题:
- 串行计算:无法并行处理序列,训练速度慢
- 长距离依赖问题:难以捕捉长文本中远距离的语义关系
- 梯度消失/爆炸:深层网络训练不稳定
1.2 Attention Is All You Need
2017 年,Google 团队发表了里程碑式论文 "Attention Is All You Need",提出了 Transformer 架构。核心创新包括:
| 机制 | 说明 |
|---|---|
| Self-Attention(自注意力) | 让序列中每个位置都能直接关注其他所有位置,捕捉全局依赖 |
| Multi-Head Attention(多头注意力) | 多组注意力并行计算,捕捉不同维度的语义关系 |
| Positional Encoding(位置编码) | 注入位置信息,弥补无循环结构的缺陷 |
| Encoder-Decoder 结构 | 编码器提取特征,解码器生成输出 |
1.3 影响
Transformer 彻底改变了 AI 领域的格局,不仅统治了 NLP,还扩展到了计算机视觉(ViT)、语音识别、蛋白质结构预测(AlphaFold)等方向。
2. 预训练大语言模型时代(2018-2022)
2.1 关键模型演进
2.2 核心范式:预训练 + 微调
2.3 涌现能力(Emergent Abilities)
当模型规模超过一定阈值后,出现了小模型不具备的能力:
- 思维链推理(Chain-of-Thought):逐步推理复杂问题
- 上下文学习(In-Context Learning):通过提示词中的示例学习新任务
- 代码生成:根据自然语言描述编写程序
3. ChatGPT 与生成式 AI 爆发(2022-2023)
3.1 ChatGPT 的里程碑
2022 年 11 月,OpenAI 发布 ChatGPT,两个月内用户突破 1 亿,成为历史上增长最快的消费级应用。
关键技术栈:
- GPT-3.5/GPT-4 基础模型
- RLHF(基于人类反馈的强化学习)对齐
- 对话式交互范式
3.2 行业震动
| 领域 | 代表产品/事件 |
|---|---|
| 搜索 | 微软 New Bing、Google Bard |
| 办公 | Microsoft 365 Copilot、Google Workspace AI |
| 编程 | GitHub Copilot、CodeBuddy |
| 绘画 | Midjourney、DALL·E 3、Stable Diffusion |
| 视频 | Runway Gen-2、Pika |
3.3 开源力量崛起
- LLaMA / LLaMA 2 (Meta):推动开源模型生态
- Mistral / Mixtral:小模型高性能
- Qwen(通义千问):中文能力优秀的开源模型
- DeepSeek:国产高性能开源模型
4. 多模态与长上下文(2023-2024)
4.1 多模态融合
AI 模型从纯文本扩展到多种模态的统一理解与生成:
┌─────────┐
文本 ──┤ ├── 文本生成
图像 ──┤ 多模态 ├── 图像生成
音频 ──┤ 大模型 ├── 音频生成
视频 ──┤ ├── 视频生成
代码 ──┤ ├── 代码生成
└─────────┘
代表模型:
- GPT-4V / GPT-4o:文本+图像+音频理解与生成
- Gemini (Google):原生多模态模型
- Claude 3 系列 (Anthropic):强大的视觉理解能力
- Sora (OpenAI):文生视频
4.2 长上下文突破
| 模型 | 上下文窗口 |
|---|---|
| GPT-3 | 4K tokens |
| GPT-4 | 128K tokens |
| Claude 3 | 200K tokens |
| Gemini 1.5 Pro | 1M tokens |
长上下文让模型能够处理完整代码库、长文档分析、多轮复杂对话等场景。
5. AI Agent 智能体(2024-2025)
5.1 从对话到行动
AI Agent 代表了从 "被动回答" 到 "主动执行" 的范式转变:
传统 LLM: 用户提问 → 模型回答 → 用户手动执行
AI Agent: 用户下达目标 → Agent 规划 → 调用工具 → 执行操作 → 反馈结果
↑ │
└──────── 循环迭代 ─────────────┘
5.2 Agent 核心架构
┌──────────────────────────────────────────┐
│ AI Agent │
│ │
│ ┌──────────┐ ┌──────────┐ ┌────────┐ │
│ │ 规划能力 │ │ 记忆系统 │ │工具调用│ │
│ │ Planning │ │ Memory │ │ Tools │ │
│ └──────────┘ └──────────┘ └────────┘ │
│ │
│ ┌──────────┐ ┌──────────┐ ┌────────┐ │
│ │ 自我反思 │ │ 多步推理 │ │环境感知│ │
│ │Reflection│ │Reasoning │ │Perceive│ │
│ └──────────┘ └──────────┘ └────────┘ │
└──────────────────────────────────────────┘
5.3 典型应用
- 编程 Agent:自动分析需求 → 编写代码 → 运行测试 → 修复 Bug
- 数据分析 Agent:理解问题 → 查询数据 → 可视化 → 得出结论
- 自动化办公 Agent:阅读邮件 → 提取信息 → 更新表格 → 发送回复
6. MCP 协议(2024-2025)
6.1 什么是 MCP
MCP(Model Context Protocol,模型上下文协议) 是 Anthropic 于 2024 年底提出的开放标准协议,旨在为 AI 模型与外部工具/数据源之间建立统一的通信规范。
类比:MCP 之于 AI 工具调用,就像 USB 之于外设连接 —— 一个统一的接口标准。
6.2 核心设计
┌────────────┐ MCP 协议 ┌────────────────┐
│ AI 模型 │ ◄─────────────► │ MCP Server │
│ (Client) │ JSON-RPC 2.0 │ (工具提供方) │
└────────────┘ └────────┬───────┘
│
┌──────────┼──────────┐
│ │ │
┌────┴───┐ ┌────┴───┐ ┌───┴────┐
│数据库 │ │文件系统 │ │API 服务│
└────────┘ └────────┘ └────────┘
6.3 MCP 的三大核心能力
| 能力 | 说明 | 示例 |
|---|---|---|
| Tools(工具) | AI 可调用的函数/操作 | 执行 SQL 查询、发送 HTTP 请求 |
| Resources(资源) | AI 可读取的数据源 | 数据库表结构、配置文件内容 |
| Prompts(提示词模板) | 预定义的交互模板 | 代码审查模板、数据分析模板 |
6.4 MCP 的意义
- 标准化:统一了 AI 与外部系统的交互方式,告别碎片化的 Function Calling 实现
- 生态化:任何人都可以开发 MCP Server,形成工具生态
- 安全性:协议层面定义了权限控制和安全边界
- 互操作性:同一个 MCP Server 可被不同 AI 客户端使用
7. Skill 技能系统(2025-至今)
7.1 什么是 Skill
Skill(技能) 是在 AI Agent 基础上进一步发展的能力扩展机制。它将领域专业知识、标准化工作流(SOP)和可执行工具封装为可复用的模块。
┌────────────────────────────────────┐
│ Skill 技能 │
│ │
│ 📋 专业知识(Knowledge) │
│ - 领域规范 │
│ - 最佳实践 │
│ - 参考文档 │
│ │
│ 🔄 工作流(Workflow / SOP) │
│ - 标准操作流程 │
│ - 条件判断逻辑 │
│ - 质量检查清单 │
│ │
│ 🛠️ 可执行工具(Scripts / Tools) │
│ - 自动化脚本 │
│ - API 集成 │
│ - 数据处理管道 │
└────────────────────────────────────┘
7.2 Skill 与传统插件的区别
| 维度 | 传统插件 | AI Skill |
|---|---|---|
| 触发方式 | 手动调用 | AI 自动识别场景并触发 |
| 适应性 | 固定逻辑 | 根据上下文灵活调整执行策略 |
| 交互方式 | 预定义 UI | 自然语言交互 |
| 扩展性 | 需开发者编程 | 用自然语言描述即可创建 |
| 组合能力 | 独立运行 | 多 Skill 可协同工作 |
7.3 Skill 的典型应用场景
- 编码规范技能:自动在代码编写/审查时应用团队编码规范
- 文档生成技能:根据代码自动生成 API 文档、用户手册
- 单元测试生成:分析源码结构,自动生成符合项目规范的测试用例
- 日志分析技能:自动解密、筛选、分析设备日志并定位问题根因
- Git 操作规范:在提交代码时自动检查分支命名、提交信息格式
8. AI 编程助手的演进
8.1 发展阶段
8.2 现代 AI 编程助手能力全景
┌─────────────────────────────────────────────────────┐
│ 现代 AI 编程助手能力 │
├──────────────┬──────────────┬───────────────────────┤
│ 代码智能 │ 项目理解 │ 工程化能力 │
├──────────────┼──────────────┼───────────────────────┤
│ • 智能补全 │ • 全项目索引 │ • 自动化测试 │
│ • 代码重构 │ • 依赖分析 │ • CI/CD 集成 │
│ • Bug 修复 │ • 架构理解 │ • 部署管理 │
│ • 代码审查 │ • 上下文感知 │ • 性能优化 │
├──────────────┼──────────────┼───────────────────────┤
│ 知识增强 │ 协作能力 │ 扩展生态 │
├──────────────┼──────────────┼───────────────────────┤
│ • 知识库检索 │ • 多 Agent │ • MCP 工具生态 │
│ • 文档集成 │ • 团队协作 │ • Skill 技能市场 │
│ • 最佳实践 │ • 代码共享 │ • 自定义插件 │
└──────────────┴──────────────┴───────────────────────┘
9. 未来展望
9.1 技术趋势
- 推理能力增强:o1/o3 等推理模型的出现,AI 在数学、编程、科学推理上持续突破
- 世界模型:AI 从语言理解走向对物理世界的建模与预测
- 端侧 AI:大模型小型化,在手机、PC 等终端本地运行
- 多 Agent 协作:多个专业化 Agent 组成团队,协作完成复杂项目
- 自我进化:AI 系统能够自我改进、自我纠错、自主学习新技能
9.2 AI 发展时间线总览
2017 ─── Transformer 诞生
│
2018 ─── BERT / GPT-1,预训练范式确立
│
2019 ─── GPT-2,生成能力展现
│
2020 ─── GPT-3,大模型涌现能力
│
2021 ─── Codex / GitHub Copilot,AI 编程起步
│
2022 ─── ChatGPT 发布,生成式 AI 全面爆发
│
2023 ─── GPT-4 / 多模态 / 开源模型百花齐放
│
2024 ─── AI Agent / MCP 协议 / 长上下文 / 视频生成
│
2025 ─── Skill 技能系统 / 多 Agent 协作 / 自主开发
│
2026 ─── ?
💬 评论