第一节起点

本节从 LLM（Large Language Model，大语言模型） 的本质讲起：它是什么、在算什么东西、为什么「大」会带来质变，以及这条技术线是怎么一步步走到今天的。有了这些，你再看 ChatGPT、Claude、API 文档里的「上下文长度」「Token 计费」就不会懵。

语言模型在干什么？

语言模型（Language Model，LM） 的核心任务只有一件事：在给定前面一段文字的前提下，预测「下一个词」最可能是什么。

比如，模型现在看到的是“今天天气很”，那么它就需要估计下一个位置出现『好』、『冷』、『怪』等词各自的概率。把它接在原文后面，再拿「原文 +新词」继续预测再下一个，如此往复，就是自回归生成——你看到的「AI一个字一个字蹦出来」，底层就是在反复做预测下一个词。

所以 LM 没有在「查数据库」或「背答案」，它是在用学到的统计规律，根据当前上下文猜下一个最像人写的 「词」是什么。能对话、能写代码、能翻译，都是在这一套「下一词预测」的基础上，通过不同的提示（Prompt）和训练方式「涌现」出来的能力。

Token：模型眼中的「最小单位」

事实上，模型不直接处理「字」或「词」，而是处理 Token。因为在计算机的底层世界里只有 0 和 1，我们输入或输出的「字」「词」最终都要变成数字，才能参与计算与存储；完成这件事的组件就叫 Tokenizer（分词器 / 词元化器）。

Tokenizer 负责两件事：

编码：把一段文字按某种规则切分成若干“片段”，再根据词表（Vocabulary）查出该“片段”对应的一个整数（即 token id），于是整段话变成一串数字；
解码：模型生成的一串 token id 再通过同一套词表反查，还原成人类可读的文字。

所以你看到的「AI 一个字一个字蹦出来」，在模型侧其实是「一个 token id 接一个 token id 地预测」，再由 Tokenizer 解码成字。不同模型用不同的 Tokenizer 和词表，同一句话在不同模型里切出的 token 数量、甚至切法都可能不一样，这也是为什么「同样一段中文，在 A 模型算 100 个 token、在 B 模型可能算 120 个」。

Token 是词表里的最小单位，可能对应整词（如「苹果」）、可能对应子词（如「苹」「果」分开），英文里常见把长词拆成子词（如 “unbelievable” → “un”, “believ”, “able”），这样词表不用无限大，也能通过组合处理没见过的词。这种「子词」切分方式（如 BPE、SentencePiece 等）被 GPT、Claude、Llama 等主流模型广泛采用。

Token 与字数的大致关系：英文约 1 token ≈ 4 字符或 0.75 个词；
中文约 1 token ≈ 1～2 个汉字（因分词和词表设计而异）。  

为什么你总要关心 Token？
因为上下文长度（context length）和 大模型计费 都按 Token 算。
例如「上下文 128K」表示模型一次最多看 12 万多个 Token；API 按「输入 + 输出」的 Token 数收费。
所以同样一段话，中文往往比英文更耗 Token，长文档、长对话会很快吃满上下文，这是后续用 RAG、分段、摘要的原因之一。

可以去 OpenAI tokenizer 计算某段文案对应的Token数量，当然Anthropic、Google等模型厂商也有自己的计算工具，可以自行去搜索。

上下文

大模型能力很强，但没有记忆。它不会记住你上一句说了什么、上一轮聊了什么；每一次你发出一条新消息，对模型来说都是一次全新的输入。因此要维持「连续对话」，就必须在每一次请求里，把整段沟通过程（之前的问答、你给过的背景）连同当前这一条问题一起交给模型。

也就是说，上下文（Context）= 我们每次调用时塞给模型的「全部相关信息」——系统提示、历史对话、你贴的文档或代码、以及当前问题，经 Tokenizer 转成的一串 token。模型既不记得上次聊了什么，也不会主动去读你没塞进来的东西；所以能持续对话，是因为产品或 API 在背后帮你把「历史 + 新问题」拼成一段上下文，每次请求都整段重发。

上下文长度（Context Length） 就是这段「整段内容」最多允许多长，用 Token 数量表示（如 128K、1M）。对话轮次一多、文档一长，上下文就会占满这个上限，再长就塞不下，只能截断、摘要或分段（这也是 RAG、长文档分段等做法的由来）。各家会给出自己的上限，你在产品里看到的「支持 128K / 1M」指的就是这个。

大模型幻觉的本质

幻觉（Hallucination） 指的是模型生成的内容看起来通顺、合理，但与事实不符，或与你给的上下文、真实世界不一致（例如编造不存在的书名、日期、代码 API）。本质原因在于：大模型做的是「根据上文预测下一个 token 的概率分布」，它没有「先查证再回答」的机制，也没有「知道什么、不知道什么」的边界——它只是在按训练中学到的统计规律，生成「在给定上文下最像人写的下一个词」。当训练数据里没有准确信息、或上下文里没提供、或模型把相似但错误的知识混在一起时，就会产出逻辑上说得通但事实错误的内容。换句话说，幻觉不是 bug，而是这种「下一 token 预测」范式的固有特性；减轻幻觉要靠更好的训练数据、检索增强（RAG）、让模型「先检索再生成」、以及用户对关键信息自行核实。

从「小」语言模型到「大」语言模型

早期的 统计语言模型（如 n-gram）只做「前 N 个词 → 下一个词」的计数，词一多、上下文一长就存不下、算不动。神经网络语言模型（2000 年代起）用向量表示词、用网络拟合概率，能泛化到没见过的组合，但模型仍然很小，上下文也短。

Transformer（2017） 改变了架构：用 自注意力（Self-Attention） 替代 RNN，让序列里任意两个位置都能直接交互，并行计算、长距离依赖 都好很多，成了后来几乎所有 LLM 的底座。同一年代，「预训练 + 微调」 成为主流：先在海量 raw 文本上只做「预测下一个 Token」（无监督/自监督），再在少量标注数据上针对具体任务微调。这样同一套参数可以服务多种任务，模型开始往大里做——参数从几亿到几十亿、几百亿，这就是 Large Language Model（LLM） 的「Large」：参数量大、训练数据大、算力大。

为什么「大」会带来质变？
实践和后来的 Scaling Laws 表明：在架构和训练方式大致不变的前提下，把模型规模、数据量、算力一起往上推，很多能力会「涌现」——没专门教过的任务（推理、代码、多语种）也会明显变好。所以今天的 LLM 不是「为对话专门写了个程序」，而是「下一词预测」模型，做大之后，在对话、代码、翻译等场景下都表现好了。

GPT 与 BERT：两条路线

2018～2019 年，两条清晰的路线出现：

GPT-1（OpenAI，2018）：自回归——从左到右依次预测下一个 Token，训练目标就是「给定前文，预测下一个」。解码时也是从左到右一个一个生成，天然适合生成（写文章、对话、代码补全）。上下文是「单向」的：当前词只能看到左边的 Token。
BERT（Google，2018）：双向编码 + 掩码——随机把句子里一些词盖住（Mask），让模型用「左右两边」的上下文去猜被盖住的词。训练时能同时看到前后文，理解/分类 很强，但不直接做从左到右的生成，要生成需要额外接一层或改结构。

后来产业里通用对话、写作、代码生成几乎都走 GPT 这条自回归路线（GPT-2、GPT-3、ChatGPT、Claude、Llama 等），因为用户要的是「接着写、接着说」；BERT 更多用在检索、分类、填空式理解。所以当你听到「LLM」时，绝大多数指的是 GPT 这类自回归大模型，而不是 BERT 系。

演化过程

规模与能力齐飞
2020 年前后，GPT-2、GPT-3 把参数量推到数亿、上千亿，并验证了「规模上去，能力会涌现」——不用改架构，只要把模型和数据做大，很多任务表现会突然上一个台阶。Scaling Laws（缩放定律）被反复讨论：大家开始相信，继续堆算力、堆数据，还能再涨一波能力。

多模态与代码
同一时期，模型不再只吃文本：图像、语音逐渐被纳进同一套框架（多模态），代码也被当作「一种语言」纳入预训练（GitHub 等代码库），所以今天的模型才能既聊天又写代码又看图。

开源与闭源两条线
闭源方面，OpenAI、Google、Anthropic 等持续迭代 GPT、PaLM、Claude；开源方面，LLaMA（Meta）、ChatGLM、Qwen、DeepSeek 等让「自己训、自己部署」成为可能，国内外都在卷模型和生态。

ChatGPT 前夜
OpenAI 在 GPT-3 之后做了 InstructGPT：用人类反馈（RLHF）让模型更听话、更符合人类偏好，并做成对话式产品。这为 2022 年底的 ChatGPT 做好了技术和产品准备——只差临门一脚，把对话界面和体验做到普通人愿意天天用。

爆发点

2022 年底：ChatGPT 破圈
2022 年 11 月，ChatGPT 正式对外发布。和以前「调 API、写脚本」不同，这次是人人都能打开的网页对话：问啥答啥、写邮件、写代码、翻译、总结，体验顺滑。短短几个月用户破亿，从极客玩具变成全民话题，「AI 大模型」第一次大规模进入普通人视野。

从技术到生态
ChatGPT 成功之后，大厂和创业公司一起上：Google 推 Bard/Gemini，微软把 GPT 接进 Bing 和 Office，Anthropic 推 Claude，国内文心、通义、Kimi、豆包等齐发。编程助手（Cursor、Trae 等）、多模态（识图、语音、视频）、Agent / Workflow / MCP 等概念在 2023～2025 快速落地。模型在变强，产品形态也在变多：从「单轮问答」到「多步执行、调用工具、流水线自动化」。

所以：起点是 Transformer 和预训练范式，演化是规模、多模态、开源与对话式交互的积累，爆发点 是 ChatGPT 把这一切推到台前并引爆生态。下面就从「当前格局」说起，把模型、产品、编程助手和进阶能力串起来。

当时中国团队的产品发布路径

在海外 GPT、BERT、LLaMA 相继开卷的同时，国内大模型也有一条清晰的跟进与突围路径，大致可以按时间线捋一捋：

2020～2022（ChatGPT 前）：以探索与跟进为主。百度、阿里、腾讯、华为等早有 NLP 与预训练布局（如 ERNIE、PLUG、盘古等），但面向公众的「对话式大模型」产品还不成气候；学术与工业界更多在做模型规模、中文语料、垂直场景的积累。
2023 年初起（ChatGPT 破圈后）：通用对话产品密集发布。百度推出文心一言，阿里推出通义千问，智谱推出 ChatGLM，百川、MiniMax、月之暗面（Kimi）、零一万物等陆续发布对话或开源基座模型。先闭源 ToB/ToC，再开放 API 或开源部分版本，是常见打法。
2023 下半年～2025：开源与性价比成为一条显性路线。深度求索（DeepSeek） 发布 DeepSeek-V2/V3，走开源、强推理与编码、极低 API 定价的路线，在社区里常被和「蒸馏」「小模型高能力」绑在一起讨论（见下节）。同期，阿里的 Qwen、字节的豆包、智谱的 GLM 等也在持续迭代开源或闭源版本。

整体上，中国团队的产品路径可以概括为：先有闭源大模型与 ToB 能力，再在 ChatGPT 引爆后快速推出对话产品与 API，随后通过开源基座、垂直场景和「小模型 + 蒸馏 / 压缩」打出差异。

为什么 DeepSeek 被称为「蒸馏」？

蒸馏在这里指的是 知识蒸馏（Knowledge Distillation）：用一个大而强的模型（教师模型）的输出去教一个小而省算力的模型（学生模型）学成类似能力，从而在少很多参数、少很多显存和推理成本的前提下，尽量保留对话、推理、代码等表现。

为什么叫「蒸馏」？
像把液体蒸馏提纯一样，把「大模型里的知识」提炼、压缩到小模型里，丢掉一部分容量换效率和成本，所以业内管这类技术叫蒸馏。
DeepSeek 为什么常被和蒸馏绑在一起？
一方面，深度求索在技术路线里大量使用了蒸馏与压缩：例如用大参数教师模型（或强闭源模型）生成高质量数据、再训出小参数学生模型，或者用多教师、动态权重的蒸馏框架（如 DMTD）做「大压小」。这样得到的模型在 7B、几十 B 规模就能逼近更大模型的效果，API 定价极低、推理快，所以大家一提「高性价比、小模型强能力」就会想到 DeepSeek，并自然联想到蒸馏。
另一方面，社区里也常把「用 GPT-4 / Claude 等强模型当老师，训出小模型」笼统称为蒸馏；DeepSeek 的公开技术与产品形象（小参数、强推理、便宜）和这一印象高度吻合，所以 DeepSeek 被称为蒸馏，既指他们确实在做蒸馏与压缩，也指大家把它当作「靠蒸馏/压缩做出性价比」的代表。

总结一句：DeepSeek 的「蒸馏」= 用大模型当老师、小模型当学生，把能力和知识压进更小、更省钱的模型里，所以你看到的高性价比、小体积强能力，背后往往有蒸馏或类似压缩手段。

第二节当前格局

本节围绕当今热门大模型，按用户/场景和主要公司两条线介绍：谁在做、谁在用、选型时看什么。模型与产品会持续更新，以下以当前常见认知为准，具体以各厂商官网为准。

按用户/场景：谁在用、用什么

不同用户对大模型的需求不一样，先对号入座，再往下看公司会更快。

用户类型	典型需求	常见选择
个人用户（ToC）	日常聊天、写作、查资料、简单多模态（发图、语音）	ChatGPT、Claude、Gemini；国内：文心一言、通义千问、Kimi、豆包
开发者	写代码、调 API、长上下文、API 价格、本地/自托管	GPT-4o、Claude、DeepSeek、Qwen、Llama；Cursor/Trae 等助手内置模型
企业 / ToB	集成进产品、私有化、合规、数据不出域、SLA	各家企业版（Azure OpenAI、文心/通义企业版）；开源商用：Llama、Qwen、DeepSeek、GLM
研究 / 开源社区	开源协议、可复现、基座强、做微调与二次开发	Llama、Qwen、DeepSeek、GLM、Mistral 等开源系列

同一家公司往往既有 ToC 产品也有 API/企业方案，先想清楚自己主要是哪类用户，再看下面的公司表就有侧重点。

主要公司及代表模型（按热度排名，版本以当前最新为准）

以下海外、国内表格均按市场热度与常见排名排序；所列模型版本号为撰写时的最新主流版本，发版频繁，具体以各厂商官网与 API 文档为准。

海外（按热度从高到低）

排名	公司	当前主流/最新版本	简要特点	主要面向
1	OpenAI	GPT-5.4、GPT-5.3-Codex、GPT-5.2 Instant	对话与多模态标杆，原生支持计算机使用与长上下文（如 1M Token）；GPT-4o 已停用	ToC、开发者、企业（含微软生态）
2	Anthropic	Claude Opus 4.6、Claude Sonnet 4.6、Claude Haiku 4.5	长上下文（如百万 Token）、安全与对齐强，写作与代码体验好；Arena 等榜单位居前列	ToC、开发者、企业
3	Google	Gemini 3 Pro、Gemini 3 Flash、Gemini 2.5 Pro / 2.5 Flash	多模态与搜索、Workspace 整合；思考型模型，综合评测热度高	ToC、开发者、企业
4	xAI	Grok 4.1 Thinking	与 X（Twitter）深度结合，强调实时信息与推理，竞技场排名靠前	ToC、部分开发者
5	Meta	Llama 4（Scout、Maverick）、Code Llama	开源可商用，超长上下文（如千万 Token）、原生多模态；社区与生态大	开发者、企业、研究
6	Mistral AI	Mistral Large、Mixtral、Codestral	欧洲团队，开源与闭源并存，多语言与性价比	开发者、企业
7	Apple	Apple Intelligence（端侧 + 云端模型）	强调隐私与端侧推理，与 iOS/macOS 深度集成	苹果设备用户
8	Amazon	Titan、Bedrock 托管多模型	AWS 上自有模型 + 托管 Claude/Llama 等，面向企业上云	企业/云用户

国内（按热度从高到低）

排名	公司	当前主流/最新版本	简要特点	主要面向
1	月之暗面	Kimi K2.5、Kimi K2-0905、Kimi K2 Thinking	超长上下文（如 256K）、长文档与多模态；K2.5 开源、具备 Agent 与推理能力	ToC、重度阅读、开发者
2	阿里巴巴	通义千问、Qwen3-Max-Thinking、Qwen2.5 系列	通义为产品与 API，Qwen 开源基座；万亿参数思考模型，综合能力靠前	开发者、ToC、企业
3	百度	文心一言、文心大模型（如文心 4.0 / 5.0）	搜索与知识、多模态，ToC/ToB 铺开早，中文与情感理解强	ToC、企业
4	字节跳动	豆包、Doubao-1.5-pro、扣子（Coze）	豆包对话与 API，扣子为 Bot/工作流平台；语音与稀疏 MoE 有优势	ToC、开发者
5	深度求索	DeepSeek-R1-0528、DeepSeek-V3-0324、DeepSeek Coder	开源 + API 定价极低，推理与代码强；R1 思考深度与数学表现突出	开发者、企业、研究
6	智谱 AI	GLM-4、ChatGLM 系列	开源 ChatGLM + 闭源 GLM-4，中英文与代码均衡	开发者、ToC、企业
7	零一万物	Yi 系列、万知	开源与闭源并行，李开复团队	开发者、ToC
8	商汤科技	SenseChat 5.5	中文生成与多模态，NLG 等评测领先	ToC、企业
9	腾讯	混元、混元图像 3.0 等	与微信、云等结合，偏 ToB 与内部	企业、内部
10	MiniMax	海螺、ABAB	多模态与对话	ToC、企业
11	华为	盘古大模型	政企、制造等垂直，国产化与落地	企业/政企
12	科大讯飞	讯飞星火	语音与多模态，教育、办公等	ToC、企业

表格会随各家发版变化，以官网与最新文档为准；这里做按热度的格局速览，方便按公司和用户类型缩小范围。

设计师、产品与创意行业常用 AI 产品

除了上文中的通用对话大模型，在设计、图像、视频、产品与文档等岗位上，已经有一批相对成熟、面向具体场景的 AI 产品，下面按类别做简单介绍（以当前常见认知为准，具体以各产品官网为准）。

图像生成

产品	开发方	简要介绍	典型场景
Midjourney	Midjourney Inc.	以艺术感与风格化见长，社区与提示词文化成熟；通过 Discord 或网页使用，迭代到 V6 等版本，适合情绪板、概念图、插画与品牌视觉	品牌设计、概念艺术、海报、社媒配图
DALL·E 3	OpenAI	与 ChatGPT 深度集成，文字渲染与指令跟随好，自然语言描述即可出图；适合需要图中带准确文字、或与对话流程结合的场景	营销素材、产品示意图、带文案的 Banner
Stable Diffusion	Stability AI 及开源社区	开源可本地部署，生态插件多（ControlNet、LoRA 等），可精细控制构图、姿态、风格；对算力与调参有要求	游戏/影视概念、二次元、定制化出图、私有化部署
通义万相	阿里巴巴	国内常用文生图/图生图产品，与通义生态打通，风格与中文提示词支持较好	国内团队做 Banner、插画、营销图
文心一格	百度	百度旗下文生图，与文心大模型整合，适合中文描述与国风等风格	营销、插画、配图
即梦	字节跳动	字节系 AI 图像/创意产品，与豆包、剪映等有联动，适合短视频与社媒素材	短视频封面、创意素材

视频生成

产品	开发方	简要介绍	典型场景
Sora	OpenAI	文生视频模型，支持长时长、多镜头与较强物理一致性，逐步开放 API 与产品入口	短片、广告、概念视频、剧情片段
Runway	Runway	Gen-3 等版本，视频生成与视频编辑（擦除、延长、风格化）一体，在影视与广告行业使用广泛	广告片、短视频、电影级预览、素材延展
Seedance	字节跳动（Seed 团队）	Seedance 2 支持图/视频/音频+文本多模态输入，口型与音画同步好，强调「开场—动作—收束」的短视频叙事；国内可直接使用	广告、社媒短视频、营销视频、口播与讲解类内容
可灵	快手	国内主流 AI 视频生成与剪辑工具，与快手生态结合，适合短视频与信息流素材	短视频、信息流、UGC 辅助
即梦	字节跳动	除图像外也支持视频生成与剪辑能力，与剪映、豆包等打通	短视频、模板化视频

设计 / UI 与排版

产品	开发方	简要介绍	典型场景
Figma AI（含 Figma Make）	Figma	在 Figma 内集成 AI：自动布局、组件建议、文本生成交互原型（Figma Make）等，与设计稿与协作流程深度结合	UI/UX 设计、高保真原型、设计系统、团队协作
Canva AI	Canva	魔法设计、智能抠图、文生图、模板推荐等，上手快，适合非专业设计师快速出图与排版	海报、PPT、社媒图、简单品牌物料
Adobe Firefly	Adobe	与 Photoshop、Illustrator、Express 等 Adobe 全家桶整合，图生图、扩图、矢量与排版一体化，适合已有 Adobe 工作流的团队	平面设计、摄影后期、品牌物料、企业设计流程

产品与文档

产品	开发方	简要介绍	典型场景
Notion AI	Notion	在笔记/知识库内写文档、总结、翻译、扩写、列提纲；与 Notion 页面与数据库深度绑定	需求文档、会议纪要、知识库、产品说明
Perplexity / Kimi 等	见上文大模型表	用搜索+生成做行业调研、竞品与市场综述，长文档阅读与总结（如 Kimi）适合写 PRD 前的背景研究	市场调研、竞品分析、PRD 背景与参考
ChatGPT / Claude / 文心 / 通义等	见上文大模型表	写 PRD、用户故事、测试用例、接口说明等；复杂逻辑与多轮修改时，用强推理模型（如 Claude、DeepSeek-R1）效果更好	需求文档、用户故事、接口文档、评审材料

以上按图像、视频、设计工具、产品文档四类做了归纳；实际工作中往往是「大模型 + 垂直 AI 工具」组合使用（例如用 Midjourney 出概念图、用 Figma 做界面、用 Runway/Seedance 做视频、用 Notion + ChatGPT 写文档）。

闭源 vs 开源

闭源（如 GPT-4o、Claude、文心、通义、Kimi）：能力与体验通常更稳，多模态与安全投入多；数据在厂商侧，需考虑合规与隐私；按调用或订阅付费。
开源（如 Llama、Qwen、DeepSeek、GLM、Mistral）：可自托管、数据可控、可微调与二次开发，适合对隐私和成本敏感的场景；需自备算力与运维，能力依赖基座与投入。

不少团队会混合用：对外产品用闭源保体验，内部或敏感场景用开源部署。

产品与模型别搞混

很多人会把 ChatGPT 和 GPT-4.5（或 GPT-4、GPT-4o）混在一起说，其实一个是产品名，一个是模型名：ChatGPT 是你打开网页或 App 用的那个对话产品，GPT-4.5 是它背后用来「算」的那套参数与算法。一个产品里可能在不同场景用不同模型（例如免费用较小模型、付费用 GPT-4.5），同一个模型也可能被多个产品调用（例如微软 Bing、Copilot 也会用 GPT 系模型）。

第三节与大模型的沟通

前面两节把「LLM 是什么」「现在有哪些模型和产品」都捋了一遍，但真要用起来，还有一道坎：怎么跟大模型说清楚你的需求。模型没有读心术，你给什么它就按什么理解和生成；说得好，一次出好结果，说得糊，来回改几轮还是跑偏。本节就讲和大模型沟通的基本思路，不玩玄学，只讲能立刻用上的东西。后面用 Cursor、Trae 等编程助手时，本质也是在「跟模型沟通」，这一节打底，第四节再上工具会顺很多。

Prompt 是什么？

Prompt 就是你发给大模型的那段话——可以是问题、指令、一段背景说明，或者「角色 + 任务 + 约束」的组合。模型根据这段文字（以及当前对话里之前的轮次）来理解你要什么，再生成回复。所以：你表达得越清楚、越结构化，模型越容易给到你想要的结果。

很多人第一次用会习惯性问一句「帮我写个登录」或「这段代码有啥问题」，太简略，模型只能猜你的技术栈、语言、运行环境、代码风格，猜错了就白跑一趟。把「用什么语言、在什么项目里、要达成什么效果、有什么限制」简单写几句，效果会明显不一样。

说清楚比说得多更重要

和大模型沟通，信息量要够，但别堆废话。重点是「角色 + 任务 + 上下文 + 约束」四块说全，而不是写小作文。

角色：一句话告诉模型「你是什么身份」或「从什么角度回答」。例如：「你是一个有十年经验的 Android 开发，熟悉 Kotlin 和 Jetpack。」
任务：具体要它做什么。例如：「帮我在 home/dialog 包下写一个抽奖弹窗，样式参考我发的这张图。」
上下文：和任务相关的关键信息——文件路径、技术栈、已有代码的约定、接口名等。缺了这些，模型只能瞎猜。
约束：不要什么、必须用什么、格式要求等。例如：「用自绘 View 实现，不要用多个 ImageView 拼」「中奖概率加起来必须是 100%」。

把上面四点用自然语言写几行，往往比发一大段模糊描述管用。分点写、用小标题（如「要求」「约束」），模型也更容易按你的结构来答。

常见坑：太泛、太碎、缺约束

太泛：「帮我优化一下」「这段代码有问题吗」——模型不知道你要的是性能、可读性、修 bug 还是加注释，只能给一个「平均」答案，经常不对味。
太碎：一次只丢一行代码、一个函数名，没有任何背景，模型不知道在什么项目、什么场景下用，生成的代码容易和你的工程对不上。
缺约束：不说明「用 Kotlin」「不要用已废弃的 API」「必须兼容 API 21」，模型可能按默认习惯来，结果你要大改。

改进方式就是：哪怕多写一两句，把角色/任务/上下文/约束点一下，再让模型生成，省的是你后面好几轮返工。

多轮对话：拆任务、逐步收窄

复杂需求不要指望「一句话搞定」。更稳的方式是：先给一个清晰但不太长的一轮说明，看模型输出，再根据结果追问、补约束、纠偏。

例如：先让模型「用 Kotlin 写一个带转盘动画的抽奖 View，支持 4 个奖品、概率可配」。等它给出第一版，再补充「转盘要缓动减速停、指针指向的奖品高亮」「把概率改成从资源读取」……这样一轮轮收窄，比一次性写一大段需求、模型理解偏了再推倒重来要高效。

多轮时有个小技巧：把上一轮里你认可的部分或需要修改的点说清楚（例如「上一版的 onDraw 逻辑保留，只改一下奖品数据的来源」），避免模型「忘记」前面约定或重复你已经否掉的方案。

大模型的计费规则

用 API 或带额度限制的产品时，计费会直接影响你怎么用、用多长上下文、多长回复。了解基本规则，可以少踩坑、按需选模型和套餐。

按 Token 计费

绝大多数大模型按 Token 计费（第一节讲过，Token 是模型眼中的「最小单位」）。一次请求里通常有两部分：

输入 Token（Input）：你发的提示词 + 系统提示 + 对话历史 + 塞进去的文档/代码等，模型要「读」的都会算进输入。
输出 Token（Output）：模型生成的那段回复，一个字一个字蹦出来的都算输出。

一般规律：输出比输入贵。因为生成时要自回归地一个一个算，算力占用更大；输入可以批量编码，相对便宜。所以长回复、多轮长对话、或者让模型「先想再答」的思考型模型，输出 Token 会很多，账单更容易上去。

国内外头部模型厂商的 API 价格（参考）

下面列出海外两家（OpenAI、Anthropic）与国内两家（阿里通义、DeepSeek）的 API 价格，均为按百万 Token 计费的官方/公开报价，便于对比。价格可能随厂商调价变动，具体以各厂商官网或最新文档为准。

海外

厂商	模型	输入（/百万 Token）	输出（/百万 Token）	备注
OpenAI	GPT-5.4	$2.50（缓存 $0.25）	$15.00	上下文 1M；定价页
OpenAI	GPT-5 mini	$0.25（缓存 $0.025）	$2.00	轻量、低成本；同上
Anthropic	Claude Opus 4.6	$5.00	$25.00	旗舰；定价页
Anthropic	Claude Sonnet 4.6	$3.00	$15.00	常用性价比型号；同上
Anthropic	Claude Haiku 4.5	$1.00	$5.00	高吞吐、低成本；同上

国内

厂商	模型	输入（/百万 Token）	输出（/百万 Token）	备注
DeepSeek	DeepSeek-V3.2（Chat）	2 元（缓存命中 0.2 元）	3 元	人民币；定价页
DeepSeek	DeepSeek-V3.2（Reasoner）	4 元（缓存命中 1 元）	16 元	思考模式，输出更长；同上
阿里云	通义千问（Qwen）	约 0.5 元起（因型号不同）	按型号	部分型号曾官宣 0.5 元/百万 Token 档位；以阿里云百炼/开放平台为准

以上仅为文本推理类 API 的典型价格；Batch、缓存、区域等可能有额外规则或折扣，请以官网为准。

为什么 Token 这么贵？成本占比大致怎样？

大模型按 Token 收费，背后是实打实的算力和运维成本，业内评估大模型 TCO（总拥有成本） 时，一个经典的成本拆分逻辑如下：

1. 核心成本构成

芯片 / GPU（含显存、算力）：约 50%
- 核心痛点： 硬件采购成本（CAPEX）极高，且面临 3-5 年的快速折旧压力。
- 关键资产： 除了算力本身，高性能显存（如 HBM3e）和互联带宽是主要溢价点。
电力消耗：约 20% ～ 30%
- 隐形支出： 不仅是芯片运行耗电，还包括巨大的散热（液冷/空冷）开销。
- 能效比： 机房的 PUE 指标直接决定了运营成本的下限。
基础设施与人力：约 20%
- 硬件配套： 高速网络交换机（InfiniBand）、存储系统及机房空间租赁。
- 研发运维： 包含算法优化（如算力利用率提升）及万卡集群的日常维护。

2. 训练 vs. 推理：成本重心的移位

维度	训练 (Training)	推理 (Inference)
主要成本项	GPU 折旧 + 网络带宽	电费 + 显存占用
成本特征	一次性、爆发式的高投入	持续性、随并发量增长的边际投入
优化核心	提高算力利用率 (MFU)	降低单次 Token 的生成成本

3. 行业洞察

硬件即门槛： 芯片成本占比最高，意味着资本密集度极高，中小玩家更倾向于租用算力。训练与大规模推理级 (数据中心)芯片通常不零售，以 8 卡服务器或整机柜形式销售，顶级整机如 DGX B200（含 8 张 B200）的起售价通常在 50 万美元（约 360 万人民币）以上。
电力即瓶颈： 随着模型参数增加，电力供应和散热能力正在成为算力中心扩张的物理上限。
软件即杠杆： 优秀的算法团队通过模型量化、剪枝和推理引擎优化，可以将同样的硬件产出提升数倍，从而大幅摊薄单位成本。

总结： 算力是入场券，电力是生命线，而算法优化则是决定最终利润率的胜负手。

第四节 AI Agent

前面说过，大模型很聪明，但没有记忆，每次对话你都要把「整段沟通过程 + 新问题」一起塞进上下文；而且模型不能主动查你的日历、读你的文件、改你的代码，只能根据你这次贴进对话框的内容来生成文字。

可现实里的需求往往是：

帮我把这份需求文档拆成任务列表并排期
根据会议录音写一份纪要再发邮件给参会人
按我描述把这个功能从零实现出来

这些都不是「问一句、答一句」能完成的，需要多步规划、查数据、调工具、执行操作、根据结果再决定下一步。单靠「你贴一段、模型回一段」做不到，必须有一种系统能理解你的目标 → 自己拆步骤 → 调用各种工具（查库、读文件、改代码、发请求等）→ 多轮执行直到完成。

这种系统就是 AI Agent（智能体）。

AI Agent 会理解并拆解目标、决定先做什么后做什么、在需要时调用 MCP/搜索/执行等工具获取信息或执行动作、根据执行结果反思或重试，直到任务完成或你叫停。

常见的 AI Agent 有哪些

下面只列有代表性软件的几类；边界会越来越模糊，这里按常见叫法粗分。

通用对话 / 任务型：ChatGPT 的 Advanced 模式、Claude 的 Projects 等，接上联网/文档/日历后可帮你做规划、写作、信息整理。你给一个目标（如「整理我本周待办并按优先级排序」），它可能去查待办、日历，再生成清单或建议。
个人 / 桌面执行型 Agent：能真正替你执行操作（读文件、回邮件、订票、写代码、修 bug 等），而不只是给建议。近期爆火的 OpenClaw（因图标像龙虾，常被叫「龙虾」或「养龙虾」）就是这一类：开源、可部署在本地或云端，能 24 小时跑任务、跨应用订票订酒店、自动写代码修 bug、运营账号等，用得越久越按你的习惯来。大厂也做了同类产品，如腾讯的 QClaw / WorkBuddy、小米的 miclaw、字节的 ArkClaw 等。是的，龙虾（OpenClaw）也是 AI Agent 的一种，属于「能执行、能调工具、多轮干活」的那一类。
编程助手（代码 Agent）：面向写代码、改代码，能读项目文件、改多份代码、执行终端、接 MCP（Figma、数据库、Git 等）。你给的目标类似「把这个需求实现出来」「把这段从 Java 迁到 Kotlin」，它自己规划步骤、读文件、改代码、遇错再试。代表产品有 Cursor、Trae、GitHub Copilot 等，本节后面会重点说这类。
办公 / 写作：微软 Copilot for Microsoft 365、Notion AI 等，能根据邮件、日程、网盘文档帮你生成周报、会议纪要、邮件草稿，或按流程汇总、改写。

此外还有各类企业用的客服 / 问答 Agent、钉钉/飞书/企微里的协同与审批类 Agent 等，形态很多，不一一列。你只要记住：Agent = 能「自己规划步骤 + 调工具 + 多轮执行」的 AI 系统；

编程助手

AI 编程助手本质上仍然是一个中介 / 协调者，但这个中介和背后的大模型之间往往会有多轮来回，而不是「一轮组织上下文 + 一次调用就搞定」。更贴近的过程是：你在输入框里提交需求或指令，助手先把这句话（加上一点必要背景）交给大模型，让大模型先读懂需求、帮忙拆解和出一个大致计划；助手再根据这份计划去决定「应该看哪些文件、哪段代码、哪些文档」、如何组织成下一轮要给模型看的「相关上下文」，然后带着这些上下文再次、甚至多次调用大模型，让它生成或修改具体代码。每一轮拿到的输出，助手都会解析结果（例如改了哪几个文件、有没有语法问题、还差哪些步骤），必要时再触发下一轮调用，最后把一整组改动以 diff 的形式落到编辑器里，替你完成增删改。

也就是说：你只负责说清楚要什么，选哪些范围参与这次请求；助手负责「组织上下文 → 调模型 → 解析并落码」这一整条链路。此外，很多助手还支持配置 MCP（Model Context Protocol） 等扩展：把设计稿、数据库、API、文档源接进来，让模型在生成代码时能用到更多外部信息；有的还支持项目级或团队级的规则 / 系统提示（如 Cursor 的 Rules），在每次请求前自动带上「用 Kotlin」「遵循本项目的命名约定」等约束，相当于内置的持久 Prompt。

能力边界要心里有数：助手不会先通读整个仓库再下笔，它只是在这一轮里，根据你的描述和你选中的文件/目录（或它自己检索到的相关片段），在有限范围内理解和生成。所以：需求拆得越细、描述得越清楚（角色 / 任务 / 约束，第三节那一套），输出越靠谱；适合的是「独立小模块、工具方法、单文件/单函数级」的改写或生成，大而模糊的指令容易跑偏，需要多轮收窄。

常见产品一览

下面只介绍本文重点涉及的两款：Cursor 与 Trae，特点与能力以当前公开信息为准，便于对号入座。具体功能与定价以各产品官网为准。

产品	开发方	主要特点（当前版本）	适用场景
Cursor	Cursor	类 VS Code，多标签对话、Agent/Ask 模式；支持 Multi-Agents 并行、Composer 编码模型、内置 AI 出图（架构图/流程图）、代码归因（Blame）；可切换 Claude/GPT/DeepSeek，支持 Rules、Skills、MCP；沙盒终端、语音模式等	强对话式生成、多轮改代码、前端/全栈/移动端、需项目级约定
Trae	字节跳动	AI 原生 IDE：Builder 模式从 0 到 1 建项目（用户偏好高）、SOLO 模式 Agent 自主推进任务；10 万文件级全仓库检索、10+ 种上下文（文件/设计稿/图等）；集成大量 MCP（如 Figma、Supabase）；国内/国际版，补全延迟与构建耗时近年大幅优化	快速原型、全栈/Web、国内团队、从零搭项目

如何选择

同一类需求（比如「帮我写个函数」）Cursor 和 Trae 都能做，差异主要在：背后的模型能否切换、补全与对话/Agent 的侧重、上下文怎么组织、有没有项目级约定（Rules）。具体选哪个，建议自己亲自试一轮再定。

笔者的体验是：Cursor + Claude 算目前最强搭档，代码理解和多轮改写的表现都很稳；但 Claude 在中国用不了——不是翻墙能解决的，而是 Anthropic 对大陆/港澳的地区与账户限制（见下）。在国内用 Cursor 时切到其内置或其它可用模型（如 Cursor 默认模型、DeepSeek 等），也能完成日常开发；Trae 国内版可直接用，适合不想折腾环境的团队。

Claude 在中国为什么用不了？前因后果与办法

前因：Anthropic 明确不支持中国大陆、香港、澳门的用户直接访问 Claude（网页端、API、Claude Code 等）。原因包括其声称的合规、数据安全与商业策略，以及美方所谓的「国家安全风险」、防止技术通过中国实体外流等。2025 年 9 月起，又进一步禁止中国资本控股超过 50% 的企业（含在海外注册的子公司）使用 Claude，无过渡期、全线产品生效。所以：不是「网络被墙」，而是服务方主动对地区/企业身份做限制；个人用户即使用 VPN 注册或登录，也会面临 IP/支付/风控检测，2025 年底还出现过大规模封号，单纯翻墙并不稳。

后果：国内个人想直接用 claude.ai 或官方 API，要么被拦在「Unsupported Region」之类提示，要么用 VPN 后仍可能被封；企业若属「中国资本控股」，则被明确禁止使用。

办法：① 不依赖 Claude：在 Cursor 里改用其它已接入模型（如 GPT、DeepSeek 等），或直接用 Trae、国产大模型等做编程助手。② 仍想用 Claude 能力时：通过国内镜像/中转站（部分支持支付宝等）、API 中转服务（请求转发到 Claude API，国内直连）、或 Poe 等第三方平台间接用，需自行甄别合规与稳定性。③ 企业场景：若属被禁主体，只能弃用 Claude，改用国产或其它地区允许的模型与产品。

下面列一下 Cursor 与 Trae 的定价，便于按预算取舍（具体以官网为准，可能随政策调整）。

产品	档位	价格（参考）	说明
Cursor	Hobby（免费）	$0	每月有限次数 AI 对话、Tab 补全有限
Cursor	Pro	$20/月（年付约 $16/月）	含一定额度智能体请求、无限 Tab 补全、可用 Claude/GPT 等前沿模型
Cursor	Pro+	$60/月	约为 Pro 的 3 倍用量
Cursor	Ultra	$200/月	高用量、优先新功能；团队版约 $40/用户/月
Trae	国内个人版	免费	含 AI、超级补全、SOLO 等，具体以官网为准
Trae	国内企业版	69 元/席/月（1 人起购）	团队协作与管控
Trae	国际版 Pro	约 $10/月（首月有优惠约 $3）	快速队列额度、多模型等，以官网为准

增强大模型能力

为了让 Agent 更方便、也更「靠谱」地完成用户的复杂需求，业界在实践中逐渐抽象出了几类通用的增强手段——比如让 AI 先记住一套「固定规矩」的 Rules，把「怎么做某类事」写成可复用套路的 Skills，以及让 AI 能安全地去「用外部工具和数据」的 MCP。

简单理解就是：你按照 Agent 要求的方式把这些东西配置好，Agent 就能在此基础上，自动做更多原本需要你手动查资料、点来点去、写流程的工作。
本节下面只会简单讲清它们分别是什么、适合什么场景、原理大致如何，不会展开成一步步的实操教程；具体怎么配置、怎么写文件，Cursor、Trae 以及各家产品官网和社区里已有大量图文与视频，可以按需自行查阅。

Rules：让 AI 记住项目约定

Rules 的中文就是「规则」——指大模型输出内容要遵守的规则。
你可以把它理解成：事先写好的、每次和 AI 对话时都会自动生效的一批约定，模型在生成回复时必须按这些约定来，不用你每次再说一遍。在编程助手（如 Cursor）里，Rules 通常以项目里的配置文件或设置里的「规则」形式存在（例如 .cursor/rules/ 目录下的文件、或根目录的 RULE.md）。

应用场景举例：

语气与风格：「所有回复用正式、书面语，不要用网络梗或口语」；
长度与格式：「总结类回复不超过 200 字」「数字一律保留两位小数」；
边界与安全：「只根据我提供的内容回答，不要编造我没给过的信息」「涉及公司名称、金额时一律用 XX 替代」；
语言：「回复统一用简体中文」。

一旦把这些写成 Rules，之后每次对话 AI 都会默认遵守，你不用反复说「请简短一点」「别瞎编」。
在写代码的场景里，Rules 同理：

本项目用 Kotlin
新代码必须带注释
不要用已废弃的写法

原理概括：Rules 的文案在每次把请求发给模型之前，由助手自动拼进本次对话的「开头」（相当于系统级的固定说明）。模型看到的完整输入 = 这些规则 + 你选中的内容 + 你的问题，所以会把规则当作默认前提来生成，相当于你不用每次都重复的「持久设定」。

Skills：可复用的「能力包」

Skills 的中文就是「技能」是指 AI 做某类事情时要按什么步骤来做。
Rules 管的是「输出要遵守什么规矩」（语气、格式、不许做什么）；
Skills 管的是「这类事该怎么一步步做」——先做什么、后做什么、要注意哪些坑。写好一份 Skill，以后每次做这类事时，只要在对话里提一下，AI 就会按你写好的流程来，不会漏步、也不会顺序乱掉。

为什么需要 Skills？
如果没有一套相对完整、稳定的流程，每次你让 AI 做同一类事时，它都会「现场发挥」：有时候步骤全、有时候漏一步，有时候顺序乱了，有时候细节处理方式完全不一样。对写代码、写文档、写周报这类需要可重复、可对比、可审查的工作来说，这种「随机性」会让你很难信任它的产出。把「怎么做」写成 Skill，相当于先把这类任务的最佳实践固化下来，再让 AI 按这个套路执行——少靠临时发挥，多靠固定流程，输出会稳定很多。

应用场景举例：

写会议纪要：Skill 里写「先列出时间、参会人、议题，再按议题逐条写结论与待办，最后提炼 3 条行动项；每条待办要有负责人和截止日」；
写周报：写「先写本周完成事项（3～5 条），再写进展与风险，最后写下周计划；每条一句话，不展开」；
整理用户反馈：写「先按「功能 / 体验 /  Bug」分类，再每条写「现象 + 建议」，最后汇总出现频率最高的前 5 条」。

一旦写好，之后只要说「按会议纪要 Skill 整理一下这段录音」或「按周报 Skill 生成」，AI 就会按这套步骤来。
在写代码的场景里，Skills 同理：

写自定义 View 时先定义属性、再 onMeasure、再 onDraw，注意 padding 自己处理
在本项目加新页面要先建 Fragment 和 ViewModel、再注册路由、再注入依赖

自己写 Skill，或者去 Skill 市场「拿来用」

Skill 不一定要你从零写起：很多工具（包括 Cursor 在内）都在做或计划做「Skill 市场 / 模板市场」，由官方或社区提供各类可复用 Skill，例如「写单元测试」「写周报」「生成接口文档」「重构某种常见代码坏味道」等。你可以：

自己为项目写专用 Skill：只服务你这一套业务和代码库；
到 Skill 市场挑选通用 Skill：像装插件一样「装好就用」，适合常见任务。

这样一来，复杂一点的「怎么做」就不完全靠你脑子记，也不完全靠 AI 临场发挥，而是沉淀在一份份 Skill 里，被不断复用和打磨。

原理概括：Skill 的文案是一段结构化的「怎么做」说明。当你在对话里 @ 引用某个 Skill 时，助手会把这段说明加入本次请求的上下文。模型根据「你当前的需求 + Skill 里的步骤与注意点」来生成，相当于每次都按同一套套路走。

MCP：AI 的「外挂能力」

MCP 的全称是 Model Context Protocol，中文常叫「模型上下文协议」，是指让 AI 能用上「外面的东西」（比如你的日历、公司的文档、数据库、设计稿），而不只能看你贴进对话框的那几段字。

你可以把它理解成：给 AI 接「外挂」的一套标准方式。没有 MCP 时，模型只能根据你这次对话里输入的文字（以及助手自带的少数能力，比如读当前打开的文件）来回答；有了 MCP，在你自己配置好、授权的前提下，AI 可以按协议去调用这些外部工具，把查到的、读到的结果再拿来参与生成回复，你不用再把整份文档、整张表都复制粘贴进对话框。

解析：更具体一点看，MCP 就是一份大家共同遵守的「对接协议」：一边是 Agent / 编程助手，另一边是现有的软件系统（数据库、文档库、Git、设计工具、业务系统等）。只要两边都按 MCP 的约定做一点适配——

软件系统这边：把自己的某些或全部能力，按照 MCP 规定的格式「包装」成对外的工具接口（例如「按条件查库」「按路径读文档」「获取某个 issue 的详情」）；
Agent 这边：学会用 MCP 规定的方式去调用这些接口，并把返回结果接回到对话的上下文里。

这样一来，Agent 就可以「像人一样」去调这些系统的能力，但过程是标准化的：你不用为每个系统单独写一套对接逻辑，而是统一走 MCP 这条路。结果有两个好处：一是大模型上下文里的数据会更精准、实时、贴合业务，不是凭印象乱猜；二是大模型的「能力上限」被这些外部系统撑了起来——它不再只是「会说」，而是能「查实情」「看真数」「读真文档」再来做判断和生成。在编程助手（如 Cursor）或其它支持 MCP 的产品里，你可以在设置里「添加 MCP 服务」——比如接上某个数据库、某个文档库、Figma、Git 等，本质都是在做这一步：让现有系统按 MCP 暴露能力，让 Agent 按 MCP 使用能力。

应用场景举例：

① 查日历：接上日历 MCP 后，说「我明天有什么安排？」，AI 通过 MCP 查你的日程，再根据结果回答或帮你排期；
② 读文档：接上文档/网盘类 MCP 后，说「把某某文件夹里最近那份需求文档的要点总结一下」，AI 调工具读到内容后再总结，你不用先打开文档复制一大段贴进来；
③ 查实时数据：接上股票、天气、汇率等 MCP 后，说「查一下某某股票最新价」或「北京明天天气如何」，AI 调工具拿到最新数据再回答。

原理概括：MCP 定义了一组「工具」的接口（叫什么名字、要传什么参数、返回什么格式）。在对话过程中，当模型觉得需要某条外部信息或要执行某个动作时，助手会代你调用对应的 MCP 工具，把返回的结果再拼进当前对话的上下文，模型基于「你原来的问题 + 刚拿到的结果」继续生成。也就是说：模型本身不会直接连你的数据库或读你的磁盘，而是走「你的请求 → 助手按协议调 MCP → 工具返回结果 → 结果写回上下文 → 模型再根据新上下文输出」这条链路，间接获得「外挂」能力。每个 MCP 服务能访问什么、能执行什么，由你配置时的权限和范围决定，不会默认拿到整个磁盘或全部权限。

第五节其它

GEO

GEO 的全称是 Generative Engine Optimization，直译是「生成式引擎优化」，可以粗暴地理解成：给 AI「做 SEO」。传统 SEO 是想办法让搜索引擎（Google、百度）在搜索结果里优先展示你的网站；GEO 则是想办法让各种大模型（ChatGPT、Claude、Kimi 等）在回答问题时优先「想到」你、推荐你。只要模型是从互联网上学来的，只要它会「根据网上看到的内容来总结」，那谁往网上堆的内容多、话说得响亮、结构写得像「权威答复」，谁就越有机会变成它的「标准答案」。

2026 年的 315 晚会就点名曝光了这一套玩法：一些公司打着 GEO 优化的旗号，对外宣称「只要付钱，就能把你的产品做成主流 AI 的优先推荐，甚至变成标准答案」。记者实测时，先虚构了一款根本不存在的智能手环，再用所谓的「力擎 GEO 优化系统」批量生成十几篇软文发到网上，结果两个主流大模型真的在回答「推荐哪款智能手环」时，把这款完全虚构的产品排在了前面。这其实就是给 AI「投毒」：用成堆的虚假或极度偏颇的内容，去影响大模型学习和检索时看到的「世界」，让它在不知情的情况下把假的当真的转述给用户。

这背后已经形成一条小产业链：一头是卖 GEO 软件、卖「AI 排名优化服务」的服务商；一头是专门帮人「灌网」的发稿平台和灰产工作室，按篇数、按套餐收钱。一旦这套东西被用在金融、医疗、教育、安全等领域，后果会非常严重：普通人问 AI 要的是靠谱建议，拿到的却可能是被人花钱「优化」过的软文答案。对我们这些用 AI 工具的人来说，GEO 这件事提醒的只有一句话：AI 模型看到的世界，是有人在往里写的；所以凡是和钱、健康、安全相关的结论，永远不要只信 AI 一家之言。

第一节 起点

语言模型在干什么？

Token：模型眼中的「最小单位」

上下文

大模型幻觉的本质

从「小」语言模型到「大」语言模型

GPT 与 BERT：两条路线

演化过程

爆发点

当时中国团队的产品发布路径

为什么 DeepSeek 被称为「蒸馏」？

第二节 当前格局

按用户/场景：谁在用、用什么

主要公司及代表模型（按热度排名，版本以当前最新为准）

海外（按热度从高到低）

国内（按热度从高到低）

设计师、产品与创意行业常用 AI 产品

图像生成

视频生成

设计 / UI 与排版

产品与文档

闭源 vs 开源

产品与模型别搞混

第三节 与大模型的沟通

Prompt 是什么？

说清楚比说得多更重要

常见坑：太泛、太碎、缺约束

多轮对话：拆任务、逐步收窄

大模型的计费规则

按 Token 计费

国内外头部模型厂商的 API 价格（参考）

为什么 Token 这么贵？成本占比大致怎样？

第四节 AI Agent

常见的 AI Agent 有哪些

编程助手

常见产品一览

如何选择

Claude 在中国为什么用不了？前因后果与办法

增强大模型能力

Rules：让 AI 记住项目约定

Skills：可复用的「能力包」

MCP：AI 的「外挂能力」

第五节 其它

GEO

第一节起点

第二节当前格局

第三节与大模型的沟通

第五节其它