AI 快速开始
约 1361 字大约 5 分钟
2026-03-26
AI 前沿技术全景
大语言模型(LLM)
大语言模型是当前 AI 浪潮的核心驱动力,基于 Transformer 架构,通过海量文本训练实现自然语言理解与生成。
| 模型 | 厂商 | 特点 |
|---|---|---|
| Claude 4 | Anthropic | 长上下文(1M tokens)、强推理、代码能力突出 |
| GPT-4o | OpenAI | 原生多模态、响应速度快 |
| Gemini 2.5 | 深度集成 Google 生态、多模态原生支持 | |
| Llama 4 | Meta | 开源开放、可本地部署、社区生态丰富 |
| DeepSeek-R1 | DeepSeek | 国产开源、推理能力强、性价比高 |
| Qwen 3 | 阿里 | 国产开源、中文能力强、模型尺寸覆盖广 |
能解决的问题:文本生成、代码编写、知识问答、翻译、摘要、数据分析、逻辑推理等。
AI Agent(智能体)
AI Agent 是 LLM 的进阶形态——模型不再只是"回答问题",而是能自主规划、调用工具、执行多步任务。
- 核心能力:感知环境 → 制定计划 → 调用工具 → 观察结果 → 迭代修正
- 关键协议:MCP(Model Context Protocol) — Anthropic 提出的开放标准,让 Agent 以统一方式连接外部工具和数据源
- 典型应用:自动化编程、数据分析 pipeline、客服系统、自动化运维
| 工具/框架 | 说明 |
|---|---|
| Claude Code | Anthropic 官方 Agentic 编程工具,终端中自主完成开发任务 |
| OpenAI Codex CLI | OpenAI 的终端编程 Agent |
| LangChain / LangGraph | Agent 编排框架,支持复杂工作流和状态管理 |
| CrewAI | 多 Agent 协作框架,模拟团队分工 |
| AutoGPT / AutoGen | 自主任务执行框架 |
| Dify | 开源 LLM 应用开发平台,可视化编排 Agent 工作流 |
AI 辅助编程
AI 编程工具是目前落地最广、效率提升最明显的 AI 应用方向。
| 工具 | 类型 | 特点 |
|---|---|---|
| Claude Code | CLI Agent | Anthropic 官方终端编程工具,自主调用工具、深度理解代码库 |
| OpenAI Codex | 云端 Agent | OpenAI 云端编程 Agent,在沙盒环境中自主完成开发任务,支持并行处理多个任务 |
| Cursor | IDE | 基于 VS Code 的 AI-first 编辑器,内置 Agent 模式 |
| GitHub Copilot | IDE 插件 | 代码补全、Chat、Workspace 多模式,Agent 模式支持自主编码 |
| Windsurf | IDE | Codeium 推出的 AI 编辑器,Cascade 流式协作 |
| Trae | IDE | 字节跳动推出的 AI IDE |
| Augment Code | IDE 插件 | 面向大型代码库优化,深度上下文理解 |
| Devin | 云端 Agent | Cognition 推出的全自主 AI 软件工程师,端到端完成开发任务 |
| v0 | Web | Vercel 推出,自然语言生成前端 UI 组件 |
| bolt.new | Web | StackBlitz 推出,对话式全栈应用生成 |
能解决的问题:代码补全、Bug 修复、代码重构、生成测试、代码审查、项目脚手架搭建、自然语言转代码。
RAG(检索增强生成)
RAG 解决了 LLM 的核心痛点:知识截止和幻觉问题。通过在生成前先检索相关文档,让模型基于真实数据回答。
用户提问 → 向量检索相关文档 → 文档 + 问题一起送入 LLM → 生成有据可查的回答| 工具/框架 | 说明 |
|---|---|
| LlamaIndex | 数据索引与检索框架,擅长连接各类数据源 |
| Chroma / Weaviate / Milvus | 向量数据库,存储和检索文本嵌入 |
| Coze | 字节跳动推出的 AI Bot 平台,内置知识库和 RAG |
能解决的问题:企业知识库问答、文档智能检索、客服系统、私有数据问答(不暴露给模型训练)。
多模态 AI
多模态模型能同时理解和生成文本、图像、音频、视频等多种形态的内容。
图像生成
| 工具 | 说明 |
|---|---|
| Midjourney | 高质量艺术风格图像生成 |
| DALL·E 3 | OpenAI 图像生成,与 ChatGPT 深度集成 |
| Stable Diffusion | 开源图像生成,可本地部署,社区模型丰富 |
| Flux | Black Forest Labs 推出,开源高质量生成模型 |
| ComfyUI | 开源节点式图像生成工作流编辑器 |
视频生成
| 工具 | 说明 |
|---|---|
| Sora | OpenAI 视频生成模型 |
| Kling(可灵) | 快手推出的视频生成模型 |
| Veo 2 | Google DeepMind 视频生成 |
音频与语音
| 工具 | 说明 |
|---|---|
| ElevenLabs | 高质量语音合成与克隆 |
| Whisper | OpenAI 开源语音识别模型 |
| NotebookLM | Google 推出,文档转播客对话 |
能解决的问题:设计素材生成、产品原型图、营销素材、视频内容创作、语音合成、会议转录。
本地化 / 端侧 AI
将 AI 模型部署在本地设备上运行,解决数据隐私、网络依赖和推理成本问题。
| 工具 | 说明 |
|---|---|
| Ollama | 一键本地运行开源 LLM,支持 Llama、Qwen、DeepSeek 等 |
| LM Studio | 图形化本地模型管理与对话工具 |
| llama.cpp | C++ 实现的高性能 LLM 推理引擎 |
| vLLM | 高吞吐量 LLM 推理服务框架 |
| MLX | Apple 推出的机器学习框架,针对 Apple Silicon 优化 |
能解决的问题:离线使用、数据不出本地、降低 API 成本、定制化微调。
AI 基础设施与开发平台
| 平台 | 说明 |
|---|---|
| Hugging Face | 模型托管和分享社区,AI 领域的 GitHub |
| Vercel AI SDK | 前端集成 AI 能力的工具包,支持流式输出 |
| OpenRouter | 多模型统一 API 网关,一个接口调用各家模型 |
| Together AI | 开源模型云推理平台 |
| Replicate | 一行代码运行开源模型 |
