写代码前必须掌握的 10 个 AI 核心概念

发布于 2026年06月05日 00:36 #Models#Agents 原文链接

写代码前必须掌握的 10 个 AI 核心概念 封面图

原文链接:10 AI Concepts Every Builder Must Understand Before Writing a Single Line of Code

大多数 AI 教程从代码开始。

它们跳过了真正重要的部分——概念。

于是你做了一个半吊子的聊天机器人。你不知道它为什么会产生幻觉(Hallucination),你不知道上下文窗口(Context Window)到底意味着什么,你不知道为什么 RAG 系统总是返回错误的文档。

你在盲目调试。

以下是每个开发者在写第一行代码前必须理解的 10 个 AI 概念。

不需要博士学位,没有专业术语。

只有让一切豁然开朗的心智模型。

收藏这篇,它能帮你省下几周的弯路。

1. Token — AI 真正读取的单位

Token 概念图解
Token 概念图解

你写了一句话,模型看到的不是一句话。

它看到的是 Token。

Token 是一小段文本。

→ 有时是一个完整的词:“build” → 1 个 Token

→ 有时是词的一部分:“building” → “build” + “ing” → 2 个 Token

→ 有时是标点符号:“.” → 1 个 Token

“Building AI apps is fun” → 6 个 Token

为什么这对开发者很重要:

AI 中的一切都以 Token 来计费、限流和衡量。

→ API 费用 = 每 1,000 个 Token 的价格 → 上下文窗口 = 单次请求的最大 Token 数 → 速率限制 = 每分钟 Token 数

理解了 Token,你就不再困惑于:为什么 prompt 被截断、为什么 API 账单比预期高、为什么模型“忘记”了你之前说的话。

经验法则:1,000 个 Token ≈ 750 个英文单词(中文约 500 字)。

2. Embedding — AI 如何理解语义

Embedding 概念图解
Embedding 概念图解

文本变成 Token 后,下一步是变成数字。

这些数字叫做 Embedding(嵌入向量)。

每个词、句子或文档都会被转换为一个向量——一长串数字,代表它的语义。

关键洞察:语义相似 = 数字相似 = 在空间中距离接近。

→ “医生” 和 “护士” 靠得很近 → “苹果(水果)” 和 “苹果(公司)” 相距很远 → “国王” - “男人” + “女人” ≈ “女王”

AI 不是用你的方式理解语义的,它理解的是距离。

为什么这对开发者很重要:

Embedding 驱动了一切“理解意图”的功能:

→ 语义搜索(按含义搜索,而非仅匹配关键词) → 推荐系统(相似内容推荐) → RAG 系统(找到相关文档) → PDF 对话(将问题匹配到正确的页面)

如果你的搜索结果不对,Embedding 模型通常是首先要检查的地方。

3. Attention — AI 如何理解上下文

Attention 机制图解
Attention 机制图解

同一个词,完全不同的含义。

→ “她吃了一个苹果” → 水果 → “她买了苹果股票” → 公司

模型怎么知道是哪一个?靠 Attention(注意力机制)。

Attention 让每个词都能“看到”句子中的所有其他词,并决定哪些最重要。

它不是从左到右依次阅读,而是一次性看到整个句子,动态建立关联。

在“她买了苹果股票”中:→ “苹果” 对 “买了” 和 “股票” 付了高注意力 → 模型判断:公司

在“她吃了一个苹果”中:→ “苹果” 对 “吃了” 付了高注意力 → 模型判断:水果

在 Attention 出现之前,模型逐词阅读,速度慢,容易遗漏远距离关联。

有了 Attention,模型可以一次看到全部内容。

这个单一想法,就是现代 AI 之所以有效的原因。

为什么这对开发者很重要:

理解 Attention 可以解释:为什么上下文清晰时模型处理长 prompt 更好、为什么歧义 prompt 会产生不一致的输出、为什么给 prompt 添加上下文能显著改善结果。

4. Transformer — 驱动一切的引擎

Transformer 架构图解
Transformer 架构图解

GPT、Claude、Gemini、Llama、Mistral——全部都是 Transformer。

Transformer 是你将要使用的每一个现代 AI 模型背后的架构。

它的工作流程很简单:

文本 → Token → Embedding → Attention 层 → 预测

模型不是一次性生成完整句子的。它每次预测一个 Token。

→ 预测下一个 Token → 将其加入序列 → 再次预测下一个 Token → 循环往复

这个循环——每秒运行数十亿次——就是产生你看到的文本的过程。

为什么这对开发者很重要:

理解 Transformer 流水线可以解释:

→ 为什么更长的输出需要更长时间(更多预测循环) → 为什么模型是“非确定性”的(每一步都有概率分布) → 为什么前面的 Token 会影响后面的 → 为什么在思考中间截断上下文会降低输出质量

你不需要构建 Transformer,你需要理解你调用的那个“黑盒”里面发生了什么。

5. LLM — 它们到底是什么

LLM 是在海量文本上训练的 Transformer,只做一件事:预测下一个 Token。

仅此而已。

训练数据:书籍、网站、代码、Wikipedia、Reddit、文档。数万亿个 Token。

训练任务听起来简单到无法解释这些模型的能力:

→ 看到文本 → 预测接下来是什么 → 检查是否正确 → 微调权重 → 重复数万亿次

结果是:一个深度学习人类语言模式的模型,能够写代码、推理问题、翻译语言、解释复杂概念。

这些都不是显式编程的。它们从规模的 next-token 预测中涌现而来。

开发者需要理解的最重要的一点:

LLM 不是数据库。它们不会查找答案。它们基于模式预测答案。

这个区别解释了一切——包括为什么它们会产生幻觉。

6. Hallucination — 为什么 AI 会自信地说谎

这在生产环境中一定会发生。

用户问你的 AI 应用一个问题,AI 给出了自信的、结构完整的、完全错误的答案。

这就是幻觉(Hallucination)。

原因如下:

模型不是在尝试告诉你真相。它在尝试预测概率最大的下一个 Token。

如果一个错误的陈述看起来像是基于训练模式“应该出现的内容”——它就会生成出来。没有验证,没有查找,纯粹的模式补全。

它会:

→ 引用不存在的论文 → 描述从未创建过的 API 函数 → 以十足的自信陈述虚假统计数据 → 编造听起来合理但错误的代码

危险在于:它从来不会听起来犹豫不决。

作为开发者,你应该怎么做:

→ 使用 RAG(获取真实数据,不依赖记忆) → 在向用户展示输出前添加验证层 → 使用工具调用(让模型去验证,而非猜测) → 生产环境中永远不要直接使用原始 LLM 输出作为事实

理解幻觉,是将发布安全 AI 产品的开发者和发布令人尴尬的 AI 产品的开发者区分开来的关键。

7. Temperature — 创造力旋钮

Temperature 参数图解
Temperature 参数图解

AI 每次生成一个 Token 时,都会为每个可能的下一个词计算概率。

Temperature 控制接下来发生什么。

→ 低 Temperature:几乎总是选择概率最大的 Token。安全、可预测。 → 高 Temperature:更随机地从概率分布中选择。有创造力、多样化。

实用设置指南:

用途Temperature
写代码0.1–0.2
事实问答0.2–0.3
摘要总结0.3–0.5
聊天回复0.5–0.7
创意写作0.8–1.0
头脑风暴1.0+

大多数初学者的错误:所有场景都使用默认 Temperature(通常 0.7–1.0),然后纳闷为什么编程助手写出了有创意但有 bug 的代码。

Temperature 只需一行代码。请有意识地设置它。

8. Context Window — AI 的工作记忆

Context Window 图解
Context Window 图解

每个 AI 模型一次只能“看到”固定数量的文本。

这个限制就是上下文窗口(Context Window)。

它包含单次请求中的所有内容:

→ 系统提示词 → 对话历史 → 你传入的文档 → 模型自己的回复 → 你当前的消息

所有这些加在一起必须塞进窗口内。

当前限制:

→ GPT-4o:128,000 Token → Claude 3.5 Sonnet:200,000 Token → Gemini 1.5 Pro:1,000,000 Token

更大听起来更好,但有一个问题。

模型不会均匀地阅读上下文。它们对开头和结尾给予更多注意力。中间部分?经常被忽略。

这被称为“Lost in the Middle”问题。

对开发者来说这意味着:

→ 把最重要的指令放在系统提示词的最前面 → 把最重要的上下文放在用户问题之前 → 不要假设模型“看到了”你包含的内容 → 长文档应该分块和摘要,而非整段塞入

上下文管理是 AI 工程中最重要的技能之一。

9. RAG — AI 如何使用你的数据

RAG 架构图解
RAG 架构图解

LLM 的训练数据有截止日期。

它们不知道:你公司的内部文档、上周的新闻、你的产品文档、你的用户数据。

RAG 解决了这个问题。

RAG = 检索增强生成(Retrieval-Augmented Generation)

模型不再依赖记忆回答,而是先搜索知识库,然后用搜索到的内容来回答。

每个开发者都需要了解的流程:

  1. 用户提问
  2. 问题 → Embedding → 搜索向量数据库
  3. 检索最相关的文档
  4. 文档 + 问题一起发给模型
  5. 模型基于真实、具体的数据回答

为什么 RAG 在大多数场景下优于微调:

→ 数据变了?只需更新文档,无需重新训练 → 需要来源引用?文档就在那里 → 大幅减少幻觉 → 适用于不应进入训练的私有数据

你使用的每一个严肃 AI 产品背后都有 RAG。客服机器人、文档助手、法律工具、内部知识库。

如果你今年只学一个架构模式,学 RAG。

10. AI Agent — 真正能做事的 AI

AI Agent 图解
AI Agent 图解

标准 LLM:→ 你提问。它回答。结束。

AI Agent:→ 你给一个目标。它规划。它使用工具。它检查结果。它调整。它完成。

区别在于一个循环。

Agent 循环:

  1. 理解目标
  2. 决定下一步做什么
  3. 使用工具去执行
  4. 检查结果
  5. 决定下一步
  6. 重复直到完成

Agent 可以使用哪些工具?

→ 网页搜索 → 代码执行 → 文件读写 → API 调用 → 数据库查询 → 邮件和日历 → 浏览器控制

实际案例——调试 Agent:

读取错误 → 搜索代码库找到相关文件 → 定位问题 → 编写修复 → 运行测试 → 发现 2 个测试仍然失败 → 读取失败的测试 → 调整修复 → 再次运行 → 全部通过 → 完成

模型是大脑,工具是双手。

Agent 对开发者的挑战:

每一步都有失败率。三步各 90% 准确率 = 72.9% 的任务完成率。十步 = 34.8%。

这就是为什么可靠性工程才是 Agent 的真正挑战——而不是构建 Agent 本身。

学习顺序

如果你从零开始,这是最佳学习顺序:

→ 1. Token(理解度量单位) → 2. Embedding(理解语义如何变成数字) → 3. Attention(理解上下文如何工作) → 4. Transformer(理解架构) → 5. LLM(将一切串联起来) → 6. Hallucination(理解核心失败模式) → 7. Temperature(学会控制输出风格) → 8. Context Window(学会管理记忆) → 9. RAG(学会使用自己的数据) → 10. Agent(学会构建能行动的系统)

这不是 10 个随机知识点,而是一个完整的 AI 工程心智模型。

一旦你理解了全部 10 个概念,AI 就不再是魔法。它变成了工程。

而这,就是你真正开始构建可用之物的时刻。

评论互动

© 2026 王若风的技术博客 · Powered by Astro