AI 发展介绍:从 Transformer 到智能体时代

✍️ Demo User·📅 2026年4月29日·👁 3 次阅读
AI
📚 系列:AI 技术探索

1. Transformer 架构的诞生(2017)

1.1 背景

在 Transformer 之前,自然语言处理(NLP)主要依赖 RNN(循环神经网络)和 LSTM(长短期记忆网络)。这些模型存在以下问题:

  • 串行计算:无法并行处理序列,训练速度慢
  • 长距离依赖问题:难以捕捉长文本中远距离的语义关系
  • 梯度消失/爆炸:深层网络训练不稳定

1.2 Attention Is All You Need

2017 年,Google 团队发表了里程碑式论文 "Attention Is All You Need",提出了 Transformer 架构。核心创新包括:

机制说明
Self-Attention(自注意力)让序列中每个位置都能直接关注其他所有位置,捕捉全局依赖
Multi-Head Attention(多头注意力)多组注意力并行计算,捕捉不同维度的语义关系
Positional Encoding(位置编码)注入位置信息,弥补无循环结构的缺陷
Encoder-Decoder 结构编码器提取特征,解码器生成输出

1.3 影响

Transformer 彻底改变了 AI 领域的格局,不仅统治了 NLP,还扩展到了计算机视觉(ViT)、语音识别、蛋白质结构预测(AlphaFold)等方向。


2. 预训练大语言模型时代(2018-2022)

2.1 关键模型演进

2.2 核心范式:预训练 + 微调

2.3 涌现能力(Emergent Abilities)

当模型规模超过一定阈值后,出现了小模型不具备的能力:

  • 思维链推理(Chain-of-Thought):逐步推理复杂问题
  • 上下文学习(In-Context Learning):通过提示词中的示例学习新任务
  • 代码生成:根据自然语言描述编写程序

3. ChatGPT 与生成式 AI 爆发(2022-2023)

3.1 ChatGPT 的里程碑

2022 年 11 月,OpenAI 发布 ChatGPT,两个月内用户突破 1 亿,成为历史上增长最快的消费级应用。

关键技术栈:

  • GPT-3.5/GPT-4 基础模型
  • RLHF(基于人类反馈的强化学习)对齐
  • 对话式交互范式

3.2 行业震动

领域代表产品/事件
搜索微软 New Bing、Google Bard
办公Microsoft 365 Copilot、Google Workspace AI
编程GitHub Copilot、CodeBuddy
绘画Midjourney、DALL·E 3、Stable Diffusion
视频Runway Gen-2、Pika

3.3 开源力量崛起

  • LLaMA / LLaMA 2 (Meta):推动开源模型生态
  • Mistral / Mixtral:小模型高性能
  • Qwen(通义千问):中文能力优秀的开源模型
  • DeepSeek:国产高性能开源模型

4. 多模态与长上下文(2023-2024)

4.1 多模态融合

AI 模型从纯文本扩展到多种模态的统一理解与生成:

         ┌─────────┐
  文本 ──┤         ├── 文本生成
  图像 ──┤ 多模态  ├── 图像生成
  音频 ──┤  大模型 ├── 音频生成
  视频 ──┤         ├── 视频生成
  代码 ──┤         ├── 代码生成
         └─────────┘

代表模型:

  • GPT-4V / GPT-4o:文本+图像+音频理解与生成
  • Gemini (Google):原生多模态模型
  • Claude 3 系列 (Anthropic):强大的视觉理解能力
  • Sora (OpenAI):文生视频

4.2 长上下文突破

模型上下文窗口
GPT-34K tokens
GPT-4128K tokens
Claude 3200K tokens
Gemini 1.5 Pro1M tokens

长上下文让模型能够处理完整代码库、长文档分析、多轮复杂对话等场景。


5. AI Agent 智能体(2024-2025)

5.1 从对话到行动

AI Agent 代表了从 "被动回答""主动执行" 的范式转变:

传统 LLM:  用户提问 → 模型回答 → 用户手动执行

AI Agent:  用户下达目标 → Agent 规划 → 调用工具 → 执行操作 → 反馈结果
                              ↑                              │
                              └──────── 循环迭代 ─────────────┘

5.2 Agent 核心架构

┌──────────────────────────────────────────┐
│               AI Agent                    │
│                                          │
│  ┌──────────┐  ┌──────────┐  ┌────────┐ │
│  │ 规划能力  │  │ 记忆系统  │  │工具调用│ │
│  │ Planning │  │  Memory  │  │ Tools  │ │
│  └──────────┘  └──────────┘  └────────┘ │
│                                          │
│  ┌──────────┐  ┌──────────┐  ┌────────┐ │
│  │ 自我反思  │  │ 多步推理  │  │环境感知│ │
│  │Reflection│  │Reasoning │  │Perceive│ │
│  └──────────┘  └──────────┘  └────────┘ │
└──────────────────────────────────────────┘

5.3 典型应用

  • 编程 Agent:自动分析需求 → 编写代码 → 运行测试 → 修复 Bug
  • 数据分析 Agent:理解问题 → 查询数据 → 可视化 → 得出结论
  • 自动化办公 Agent:阅读邮件 → 提取信息 → 更新表格 → 发送回复

6. MCP 协议(2024-2025)

6.1 什么是 MCP

MCP(Model Context Protocol,模型上下文协议) 是 Anthropic 于 2024 年底提出的开放标准协议,旨在为 AI 模型与外部工具/数据源之间建立统一的通信规范。

类比:MCP 之于 AI 工具调用,就像 USB 之于外设连接 —— 一个统一的接口标准。

6.2 核心设计

┌────────────┐     MCP 协议     ┌────────────────┐
│   AI 模型   │ ◄─────────────► │   MCP Server    │
│  (Client)  │   JSON-RPC 2.0  │   (工具提供方)    │
└────────────┘                  └────────┬───────┘
                                         │
                              ┌──────────┼──────────┐
                              │          │          │
                         ┌────┴───┐ ┌────┴───┐ ┌───┴────┐
                         │数据库   │ │文件系统 │ │API 服务│
                         └────────┘ └────────┘ └────────┘

6.3 MCP 的三大核心能力

能力说明示例
Tools(工具)AI 可调用的函数/操作执行 SQL 查询、发送 HTTP 请求
Resources(资源)AI 可读取的数据源数据库表结构、配置文件内容
Prompts(提示词模板)预定义的交互模板代码审查模板、数据分析模板

6.4 MCP 的意义

  • 标准化:统一了 AI 与外部系统的交互方式,告别碎片化的 Function Calling 实现
  • 生态化:任何人都可以开发 MCP Server,形成工具生态
  • 安全性:协议层面定义了权限控制和安全边界
  • 互操作性:同一个 MCP Server 可被不同 AI 客户端使用

7. Skill 技能系统(2025-至今)

7.1 什么是 Skill

Skill(技能) 是在 AI Agent 基础上进一步发展的能力扩展机制。它将领域专业知识、标准化工作流(SOP)和可执行工具封装为可复用的模块。

┌────────────────────────────────────┐
│             Skill 技能              │
│                                    │
│  📋 专业知识(Knowledge)           │
│     - 领域规范                      │
│     - 最佳实践                      │
│     - 参考文档                      │
│                                    │
│  🔄 工作流(Workflow / SOP)        │
│     - 标准操作流程                   │
│     - 条件判断逻辑                   │
│     - 质量检查清单                   │
│                                    │
│  🛠️ 可执行工具(Scripts / Tools)    │
│     - 自动化脚本                    │
│     - API 集成                      │
│     - 数据处理管道                   │
└────────────────────────────────────┘

7.2 Skill 与传统插件的区别

维度传统插件AI Skill
触发方式手动调用AI 自动识别场景并触发
适应性固定逻辑根据上下文灵活调整执行策略
交互方式预定义 UI自然语言交互
扩展性需开发者编程用自然语言描述即可创建
组合能力独立运行多 Skill 可协同工作

7.3 Skill 的典型应用场景

  • 编码规范技能:自动在代码编写/审查时应用团队编码规范
  • 文档生成技能:根据代码自动生成 API 文档、用户手册
  • 单元测试生成:分析源码结构,自动生成符合项目规范的测试用例
  • 日志分析技能:自动解密、筛选、分析设备日志并定位问题根因
  • Git 操作规范:在提交代码时自动检查分支命名、提交信息格式

8. AI 编程助手的演进

8.1 发展阶段

8.2 现代 AI 编程助手能力全景

┌─────────────────────────────────────────────────────┐
│              现代 AI 编程助手能力                       │
├──────────────┬──────────────┬───────────────────────┤
│   代码智能    │   项目理解    │      工程化能力         │
├──────────────┼──────────────┼───────────────────────┤
│ • 智能补全    │ • 全项目索引  │ • 自动化测试            │
│ • 代码重构    │ • 依赖分析    │ • CI/CD 集成           │
│ • Bug 修复   │ • 架构理解    │ • 部署管理              │
│ • 代码审查    │ • 上下文感知  │ • 性能优化              │
├──────────────┼──────────────┼───────────────────────┤
│   知识增强    │   协作能力    │      扩展生态           │
├──────────────┼──────────────┼───────────────────────┤
│ • 知识库检索  │ • 多 Agent   │ • MCP 工具生态          │
│ • 文档集成    │ • 团队协作    │ • Skill 技能市场        │
│ • 最佳实践    │ • 代码共享    │ • 自定义插件            │
└──────────────┴──────────────┴───────────────────────┘

9. 未来展望

9.1 技术趋势

  1. 推理能力增强:o1/o3 等推理模型的出现,AI 在数学、编程、科学推理上持续突破
  2. 世界模型:AI 从语言理解走向对物理世界的建模与预测
  3. 端侧 AI:大模型小型化,在手机、PC 等终端本地运行
  4. 多 Agent 协作:多个专业化 Agent 组成团队,协作完成复杂项目
  5. 自我进化:AI 系统能够自我改进、自我纠错、自主学习新技能

9.2 AI 发展时间线总览

2017 ─── Transformer 诞生
  │
2018 ─── BERT / GPT-1,预训练范式确立
  │
2019 ─── GPT-2,生成能力展现
  │
2020 ─── GPT-3,大模型涌现能力
  │
2021 ─── Codex / GitHub Copilot,AI 编程起步
  │
2022 ─── ChatGPT 发布,生成式 AI 全面爆发
  │
2023 ─── GPT-4 / 多模态 / 开源模型百花齐放
  │
2024 ─── AI Agent / MCP 协议 / 长上下文 / 视频生成
  │
2025 ─── Skill 技能系统 / 多 Agent 协作 / 自主开发
  │
2026 ─── ?

💬 评论

加载评论中...