AI 维基 — 由开发者提供的清晰定义

未找到匹配的术语。

ASI
人工超级智能

基础

一种理论上在几乎所有领域（科学推理、社会智能、创造力、战略规划等）超越人类认知能力的人工智能系统——人工超级智能（ASI）。ASI超越了人工通用智能（AGI，与人类智能相当），进入一个质的飞跃：一种能够自我递归改进并解决人类甚至无法表述的问题的智能。目前尚无任何ASI存在，科学界也尚未就是否能够或将会构建出ASI达成共识。

为什么重要： ASI是AI安全演变为存在性问题的地方。如果你认为超级智能是可能的，对齐不仅仅是让聊天机器人有礼貌—它关乎确保一个比全人类都聪明的系统仍然符合我们的利益。这具有推测性，但风险足够高，以至于严肃的研究者对此非常重视。理解ASI能帮助你以更细致的方式评估关于AI风险的主张。

AGI
通用人工智能

基础

一种假想的人工智能系统，能够理解、学习并执行人类可以完成的任何智力任务——具备在无需针对每个领域进行专门训练的情况下跨领域迁移知识的能力。与当前擅长狭窄任务（生成文本、分类图像）的人工智能不同，通用人工智能（AGI）将能够处理新颖情境、进行抽象推理，并适应任何挑战。AGI是否即将到来、需要数十年时间，或是根本不可能实现，是该领域最具争议的辩论。

为什么重要： AGI是整个AI行业的北极星（或梦魇）。它推动数十亿美元的投资，影响安全研究的重点，并主导政策辩论。无论你是否认为AGI已经临近，这一概念决定了Anthropic、OpenAI和DeepMind等公司如何界定其使命—而理解这场辩论能帮助你区分真正的进展与炒作。

AI 编程助手
代码 Copilot、AI IDE

工具

帮助开发者编写、审查、调试和部署代码的人工智能工具。从自动补全（GitHub Copilot、Codeium）到完全自主开发（Claude Code、Cursor、Devin），程序编写助手已成为大型语言模型（LLMs）最成熟且应用最广泛的应用之一。它们通过根据你的代码库、文档和指令提供的上下文来预测代码的下一个标记。

为什么重要： AI代码助手是人工智能对知识工作影响的最尖锐边缘。使用它们的开发者报告称，在常规任务上的效率提升了30-50%。但它们也会产生不存在的API幻觉，引入隐蔽的错误，并可能使开发者依赖于他们并不完全理解的工具。

自动化
AI 自动化、工作流自动化

工具

利用AI执行以前需要人工干预的任务。这包括从简单的自动化（自动分类电子邮件、生成报告）到复杂的自主工作流程（AI代理进行研究、编写、测试和部署代码）。从传统自动化（严格规则）向AI自动化（灵活智能）的关键转变在于，AI能够处理模糊的、非结构化的任务。

为什么重要：

自动化是人工智能应用的经济驱动力。每一家购买人工智能的企业实际上是在购买自动化—更少的人从事重复性工作，更快的处理速度，全天候运作。问题不在于人工智能是否会自动化任务，而在于哪些任务、多快，以及那些曾经从事这些工作的人会怎样。

AI 网络安全
AI 安全、AI 威胁检测

安全

AI在网络安全中的双重应用：使用AI来防御系统（威胁检测、异常检测、自动化事件响应）—以及AI创造的新攻击手段（AI生成的钓鱼攻击、自动化漏洞发现、针对机器学习系统的对抗性攻击）。该领域正处于一场军备竞赛中，攻击者和防御者越来越依赖AI技术。

为什么重要： AI 使现有的网络威胁更快速、更低成本地实施—由大型语言模型（LLM）撰写的钓鱼邮件更具说服力，且无需任何成本即可个性化定制。但AI也能实现人工无法做到的防御手段，例如每秒分析数百万条网络事件以检测异常。不采用AI的安全团队将无法与使用AI的攻击者抗衡。

AI 治理
AI 监管、AI 政策

安全

指导人工智能开发、部署和使用方式的框架、政策、法律和组织实践。这包括政府监管（如欧盟AI法案、行政命令）、行业自律（如负责任的扩展政策、模型卡片）、企业治理（如AI伦理委员会、使用政策）以及国际间在人工智能安全标准方面的协调。

为什么重要： 技术发展速度远超监管规则。企业正以最少监管的方式将人工智能产品应用于医疗、司法和金融领域。治理旨在在问题严重到引发足以让整个领域倒退的反弹之前设定边界。

AI 隐私
AI 数据隐私、ML 隐私

安全

在不损害个人数据的前提下构建和使用人工智能系统所面临的挑战。这贯穿整个生命周期：可能包含私人信息的训练数据、能够记忆并复现个人细节的模型、跟踪用户行为的推理日志，以及人工智能能力（随着数据量增加而提升）与隐私权之间的根本性矛盾。

为什么重要： 每次与AI的对话都是数据。你生成的每张图片都暴露了你的提示词。你总结的每份文档都会经过某人的服务器。隐私不仅仅是法律上的勾选项（GDPR、CCPA）— 它是决定个人和企业是否会将AI用于敏感工作的信任问题。

AI 安全
LLM 安全、AI 安全工程

安全

保护AI系统免受对抗性攻击、数据投毒、提示注入、模型盗窃和滥用的实践—同时防范深度伪造和自动化网络攻击等AI驱动的威胁。AI安全位于传统网络安全与机器学习系统所引入的独特脆弱性的交汇点。

为什么重要：

人工智能系统既是强大的工具，也是新型的攻击面。一次提示注入可能使您的客服机器人泄露内部数据。一个被污染的训练数据集可能插入后门。随着人工智能在关键基础设施、医疗和金融领域的部署，安全不再是可选项——而是生存问题。

AI 定价
Token 定价、API 定价

基础设施

AI服务提供商如何对模型访问进行收费。主流模式是按令牌计费—您需为发送的输入令牌数和接收的输出令牌数付费，输出令牌通常比输入令牌贵3到5倍。其他模式包括按请求计费、月度订阅、承诺使用折扣和免费层级。价格战激烈，成本在两年内下降了10到100倍。

为什么重要： 定价决定了你能构建什么。每天进行10,000次API调用的应用程序，其成败取决于每token的成本。理解定价模型、比较供应商并优化token使用，是构建AI驱动产品人员的核心技能。

AI 基础设施
AI 基建、ML 基础设施

基础设施

用于大规模训练和部署AI模型所需的全栈硬件、软件和服务。这包括GPU和定制芯片、数据中心、网络、存储、编排平台（Kubernetes、Slurm）、模型服务框架（vLLM、TensorRT）以及将所有这些打包的云服务提供商。AI基础设施—连接模型架构的抽象世界与电网和冷却系统的具体世界。

为什么重要： 基础设施决定了可行的范围。之所以只有少数公司能够训练前沿模型，并不是因为缺乏创意——而是因为缺乏基础设施。而AI对终端用户所产生的成本则直接归因于GPU的可用性、数据中心的容量以及推理服务的效率。

AssemblyAI
Universal-2 语音识别、音频智能

公司

语音AI公司，打造面向开发者的友好型API，用于语音转文字、说话人识别及音频理解。其Universal-2模型在准确率上可与OpenAI Whisper媲美，同时开箱即用新增说话人分段、情感分析和主题识别等功能。

为什么重要：

AssemblyAI 使语音转文本技术真正易于开发者使用，将过去需要专门机器学习团队才能完成的任务压缩到一次 API 调用中。他们的音频智能技术栈 — 结合语音识别、说话人识别、情感分析和基于 LLM 的摘要生成 — 正在将原始音频转化为结构化、可操作的数据，其规模在两年前还难以实现。在语音逐渐成为 AI 代理默认交互界面的世界中，AssemblyAI 正在构建其他所有技术依赖的理解层。

Anthropic
Claude、宪法式 AI、MCP

公司

人工智能安全公司正在构建Claude。由前OpenAI研究员Dario和Daniela Amodei创立，Anthropic专注于开发可靠、可解释且可操控的人工智能系统。

为什么重要：

Anthropic 证明了一家人工智能公司可以以安全研究为先，同时在前沿领域竞争。他们的 Constitutional AI 方法影响了整个行业对对齐问题的思考方式，其 Responsible Scaling Policy 设定了一种模板，其他实验室以各种形式加以采用，而 Claude 已成为需要可靠性和谨慎处理敏感内容的企业首选模型。最重要的是，Anthropic 作为一家资金充足的竞争对手存在，确保通往AGI的竞争不是一家独大的局面——并且至少有一家主要参与者将安全融入其初创基因，而非事后添加的补丁。

阿里云
通义千问、Qwen 系列模型

公司

阿里巴巴集团的云计算部门及通义模型家族的创造者。通义模型具有全开放权重、多语言支持，是当前最强大的开源模型之一。

为什么重要：

阿里云已将通义千问打造为亚洲部署最广泛的开源模型家族，并成为与Meta的Llama真正具备全球竞争力的模型，证明具备前沿能力的模型可以来自硅谷以外。其开源模型发布、庞大的云基础设施以及ModelScope生态系统，为开发者——尤其是受美国出口管制影响的市场——提供了可信且高质量的西方AI平台替代选择。

智能体
AI Agent、智能代理

工具

一个能够自主规划并执行多步骤任务的AI系统，使用工具（网络搜索、代码执行、API调用）来实现目标。与只能一次回答一个问题的简单聊天机器人不同，代理会根据迄今为止所学到的内容决定下一步该做什么。

为什么重要：

智能代理是“会说话的AI”与“能做事的AI”之间的桥梁。当你的AI能够浏览文档、编写代码并进行测试，而无需你在每一步都手把手地指导——这就是一个智能代理。

对齐

安全

使AI系统的行为符合人类价值观和意图的挑战。对齐模型不仅执行您所说的，还会理解您的真实意图—即使没有明确被告知不要这样做，也能避免有害行为。

为什么重要： 一个在技术上非常出色但对齐性差的模型，就像一个天才员工却过于字面地遵循指示。对齐研究正是模型拒绝危险请求并努力真正提供帮助的原因。

API
应用程序编程接口

基础设施

软件之间通信的结构化方式。在AI领域，这通常意味着将请求（您的提示）发送到提供商的服务器，并接收响应（模型的输出）。REST API通过HTTPS是标准。

为什么重要：

每家AI提供商—Anthropic、Google、Mistral—都通过API提供其模型。如果你正在构建任何超出聊天窗口的AI应用，你就是在使用API。

注意力
注意力机制、自注意力

模型

Transformers 中的核心机制，使模型能够确定输入中哪些部分彼此最相关。与早期模型从左到右逐字阅读不同，注意力机制使每个词能够同时“审视”其他所有词，以理解上下文。

为什么重要：

注意力机制是现代大型语言模型（LLMs）能够理解“river bank”（河岸）与“bank account”（银行账户）中“bank”含义不同的原因。这也是为什么更长的上下文窗口成本更高—注意力机制的计算量与序列长度呈二次方增长。

自回归
自回归模型、下一token预测

基础

一种每次生成一个token的模型，每个新token都基于之前所有token来预测。每一个现代LLM——Claude、GPT、Llama、Gemini——都是自回归的。模型不会“规划”完整回复然后写出来；它实际上是预测下一个词，附加上去，然后再预测下一个，如此反复直到决定停止。

为什么重要： 理解自回归生成能解释大多数LLM行为：为什么回复一个token一个token地流式输出，为什么模型有时会在段落中间自我矛盾，为什么更长的输出更慢更贵，以及为什么你不能轻松要求模型“回去修改开头”。模型始终在向前推进，一次一个token。

A model that generates output one token at a time, where each new token is predicted based on all the tokens that came before it. Every modern LLM — Claude, GPT, Llama, Gemini — is autoregressive.

Why it matters: Understanding autoregressive generation explains most LLM behaviors: why responses stream token by token, why models sometimes contradict themselves, why longer outputs are slower, and why you can't ask a model to "go back and fix the beginning."

AI 寒冬

基础

AI 研究的资金、兴趣和进展下降的时期，发生在炒作和未能兑现的期望之后。历史上有两次重大 AI 寒冬。

为什么重要： 理解 AI 寒冬为评估当今的 AI 声明提供了必要的背景。突破、炒作、过度承诺的模式已重复两次。

自主智能体
AI 智能体、智能体式 AI

使用AI

一种能够以最少的人类监督独立规划、决策和执行多步任务的 AI 系统。

为什么重要： 自主智能体是聊天机器人和副驾驶之后的下一个演进。经济潜力巨大，但可靠性和安全性挑战仍然重大。

人工智能
AI、机器智能

基础

构建能够执行通常需要人类智能的任务的机器这一广泛领域——理解语言、识别图像、做出决策、解决问题。AI的范围从擅长某一特定任务的窄域系统（垃圾邮件过滤器、国际象棋引擎）到能够处理人类可完成的任何智力任务的通用智能这一宏大目标。

为什么重要： AI是涵盖本维基中所有其他概念的总称——机器学习、深度学习、LLM、计算机视觉、机器人技术。理解“AI”是一个从简单的基于规则的系统到前沿语言模型的光谱，能帮助你评估各种说法、识破炒作，并理解今天的系统究竟是什么：极其强大的模式匹配器，而非思考机器。

The broad field of building machines that can perform tasks typically requiring human intelligence — understanding language, recognizing images, making decisions, solving problems. AI ranges from narrow systems that excel at one specific task (spam filters, chess engines) to the aspirational goal of general intelligence that can handle any intellectual task a human can.

Why it matters: AI is the umbrella that covers everything else in this wiki — machine learning, deep learning, LLMs, computer vision, robotics. Understanding that "AI" is a spectrum from simple rule-based systems to frontier language models helps you evaluate claims, cut through hype, and understand what today's systems actually are: extraordinarily capable pattern matchers, not thinking machines.

Bria
授权训练数据、企业级图像生成

公司

以色列AI公司，其图像生成模型完全基于授权且可追溯的训练数据构建。该公司定位为需要生成式AI视觉内容但无版权风险企业的安全选择—

为什么重要：

Bria 是最典型的测试案例，证明基于完全授权的训练数据构建 AI 图像生成技术是否仍能在商业上具有竞争力。在正面临版权诉讼雪崩的行业中，他们的方法为企业提供了一条在不承担法律风险的情况下采用生成式 AI 的途径——这一价值主张在每一起针对竞争对手的新诉讼中都变得更加具有吸引力。如果 Bria 取得成功，这将验证整个负责任的 AI 开发理念；如果它遭遇挫折，则表明市场最终并不足以重视数据来源而愿意为此支付溢价。

字节跳动
豆包、TikTok、AI 驱动的推荐系统

公司

TikTok的母公司，也是全球最有价值的科技公司之一。他们的AI实验室开发了Doubao模型系列，并为每天超过十亿用户使用的推荐算法提供支持。

为什么重要：

字节跳动是全球最有价值的私营科技公司，其AI部署规模鲜有对手，通过TikTok、Douyin以及不断扩展的AI驱动产品，每天服务超过十亿用户。他们的Doubao模型家族和火山引擎云平台使其成为基础模型竞赛中的强劲竞争者，背后拥有大多数AI初创公司只能梦寐以求的资源：一个大规模且盈利的核心业务，以及面向十亿用户的内置分发渠道。

Black Forest Labs
FLUX.1 系列模型

公司

由Stable Diffusion的最初创作者在离开Stability AI后创立。他们的FLUX模型迅速成为开源图像生成领域的新标准，超越了他们留下的模型的质量。

为什么重要：

黑森林实验室（Black Forest Labs）代表了开源AI的最佳案例：Stable Diffusion的原始架构师们从头开始，采用更先进的技术、更聪明的商业策略以及创意社区的信任。FLUX.1不仅对Stable Diffusion进行了迭代，更实现了跨越式超越，而他们开创的分层许可模式正逐渐成为AI公司在开放与盈利之间取得平衡的蓝图。

基准测试

训练

用于评估和比较AI模型的标准测试。基准测试衡量特定能力—推理（ARC）、数学（GSM8K）、编程（HumanEval）、常识（MMLU）—并生成可在不同模型间比较的分数。

为什么重要： 基准测试是行业衡量表现的方式，但它们并不完美—模型可以被训练以在基准测试中表现优异，但并不一定真正更好。实际应用中的表现往往讲述着不同的故事。应将它们视为信号，而非绝对真理。

偏见

安全

AI输出中反映或放大训练数据中社会偏见的系统性模式。偏见可能出现在文本生成、图像创作、招聘工具等任何模型做出影响人们差异性决策的场景中。

为什么重要： 如果训练数据中护士是女性、工程师是男性，模型就会延续这种观念。偏见并不总是显而易见——它隐藏在单词关联、默认假设以及被代表的人群中。

BERT
双向编码器表示（来自Transformers）

模型

Google于2018年推出的基于Transformer的模型，通过引入双向预训练彻底改变了NLP——每个token都能关注其他所有token，使模型获得深层的上下文理解。BERT是纯编码器模型：擅长理解文本（分类、搜索、命名实体识别），但无法像GPT或Claude那样生成文本。

为什么重要： BERT是现代NLP时代最具影响力的论文。它证明了在无标注文本上预训练然后在特定任务上微调可以碾压所有现有基准。尽管LLM已经抢了风头，但BERT系列模型仍然支撑着大多数生产级搜索引擎、嵌入系统和分类管道，因为它们比LLM更小、更快、更便宜（用于非生成任务时）。

A Transformer-based model from Google (2018) that revolutionized NLP by introducing bidirectional pre-training — every token can attend to every other token, giving the model deep contextual understanding. BERT is an encoder-only model: it excels at understanding text (classification, search, NER) but can't generate text like GPT or Claude.

Why it matters: BERT is the most influential NLP paper of the modern era. It proved that pre-training on unlabeled text then fine-tuning on specific tasks could crush every existing benchmark. Even though LLMs have stolen the spotlight, BERT-style models still power most production search engines, embedding systems, and classification pipelines because they're smaller, faster, and cheaper than LLMs for non-generative tasks.

计算机视觉
CV、机器视觉

基础

人工智能领域专注于使机器能够解读和理解来自世界的各种视觉信息—图像、视频、3D场景和文档。计算机视觉（Computer Vision）驱动了从面部识别、自动驾驶到医学影像和AI图像生成等众多应用。核心任务包括物体检测、图像分类、分割、OCR和姿态估计。

为什么重要： 计算机视觉是深度学习首次超越人类表现的领域（ImageNet 2012），并且它仍然是商业影响力最大的AI应用之一。你生成的每一张AI图像或视频，你进行OCR的每一份文档，配备智能检测的每一台安防摄像头——这一切都是计算机视觉。

内容审核
AI 审核、信任与安全

安全

使用AI来大规模检测和过滤有害、非法或违反政策的内容。这包括文本分类（仇恨言论、垃圾信息、威胁内容）、图像分析（NSFW检测、CSAM）和视频审核。现代系统结合AI分类器与人工审核，但AI自身生成的内容体量正在引发审核危机—现在你需要用AI来审核AI。

为什么重要： 任何拥有用户生成内容的平台都需要内容审核，而AI是唯一能够应对海量数据的方法。但内容审核比听起来更困难—上下文至关重要，文化规范存在差异，误删正当言论会压制合法表达，而漏检则会让有害内容得以传播。

Cartesia
Sonic、基于 SSM 的语音模型

公司

基于状态空间模型（SSM）架构而非transformers的语音AI初创公司。他们的Sonic模型实现了超低延迟语音生成，使实时对话式AI首次真正自然。

为什么重要：

Cartesia 的重要性在于他们证明了状态空间模型不仅仅是学术界的奇思妙想，而是一种适用于实时语音 AI 的商业可行架构。他们低于 100 毫秒的延迟首次使真正自然的对话式 AI 成为可能，弥合了“与机器人对话”和“与真人对话”之间的差距。随着行业向以语音为核心的 AI 代理转变，Cartesia 在流媒体速度方面的架构优势可能使他们成为其他所有企业构建的基础设施层。

Cohere
Command、Embed、Rerank 模型

公司

专注于企业级人工智能的公司，由Aidan Gomez（《Attention Is All You Need》Transformer论文的联合作者之一）共同创立。专注于为企业应用场景优化的模型、RAG和多语言支持。

为什么重要：

Cohere代表了最清晰的案例，说明在由万亿级超大规模云服务商和面向消费者的前沿实验室主导的时代，一家专注于企业需求的AI公司是否能够独立繁荣发展。他们源自Transformer论文的血统赋予了他们真正的技术可信度，其部署灵活性解决了受监管行业的实际痛点，而他们的嵌入模型和重排序模型已成为全球生产环境中的RAG系统首选工具。如果人工智能的未来不再关乎聊天机器人，而是更多地关乎融入每个业务流程的基础设施，Cohere将变得至关重要。

思维链
CoT

使用AI

一种提示技术，要求模型在给出最终答案前逐步展示其推理过程。模型不会直接得出结论，而是“大声思考”，这显著提高了在复杂任务中的准确性。

为什么重要： 要求模型“解释你的推理过程”不仅仅是为了透明度—实际上会让模型变得更聪明。早期研究表明，CoT（思维链）方法可将数学错误减少高达50%。目前大多数现代模型都会在内部自动执行此操作。

上下文窗口
上下文长度

使用AI

模型在单次对话中可处理的文本最大量（以令牌为单位）。这包括您的输入和模型的输出。如果模型具有200K的上下文窗口，大约相当于15万字—相当于两本小说。

为什么重要： 上下文窗口大小决定了你能完成的任务。总结整个代码库？需要较大的上下文。快速问答？小一点也没问题。但更大的并不总是更好 — 模型在非常长的上下文中可能会失去焦点。

语料库
数据集、训练数据

训练

用于训练模型的文本（或其他数据）。语料库的范围可以从精心挑选的书籍和论文集，到对整个互联网的大规模抓取。语料库的质量和组成从根本上决定了模型所掌握的知识及其行为方式。

为什么重要： 垃圾进，垃圾出。在Reddit上训练的模型与在科学论文上训练的模型表达方式不同。这就是为什么我们为Sarah精心构建了自己的语料库——普通的网络爬虫产生了混乱且不连贯的结果。

聊天机器人
AI助手

使用AI

用于与AI模型进行对话交互的软件界面。现代聊天机器人（Claude、ChatGPT、Gemini）由大语言模型驱动，能处理开放式对话、代码、图像和工具调用。

为什么重要： 大多数人与AI交互的主要方式。聊天机器人是构建在模型之上的产品，而非模型本身。

A software interface that lets you interact with an AI model through conversation. Modern AI chatbots (Claude, ChatGPT, Gemini) are powered by large language models and can handle open-ended dialogue, answer questions, write code, and use tools.

Why it matters: Chatbots are how most people interact with AI. Understanding conversation history, system prompts, context windows, and token limits helps you use them more effectively.

交叉注意力
编码器-解码器注意力

基础

一种查询来自一个序列而键/值来自另一个序列的注意力机制。它是不同模态之间的桥梁。

为什么重要： 交叉注意力是不同模态和架构不同部分之间的桥梁。

上下文长度扩展
YaRN、NTK 缩放、RoPE 缩放

基础设施

使语言模型能够处理比训练时更长序列的技术，通过修改位置编码并结合短期微调实现。

为什么重要： 上下文长度扩展是模型在短短两年内从 4K 发展到 128K 再到 1M+ 上下文窗口的原因。

深度学习
DL

基础

机器学习的一个子领域，它使用具有多层的神经网络（因此被称为“深度”）来学习数据的层次化表示。每一层都会将其输入转换为稍微更抽象的内容——从像素到边缘、形状、物体再到概念。深度学习正是使现代人工智能革命成为可能的关键：它背后的技术支撑着大型语言模型（LLMs）、图像生成器、语音识别，以及自2012年以来几乎所有的人工智能突破。

为什么重要： 深度学习是当前人工智能时代的引擎。在2012年之前，人工智能只是各种专有算法的拼凑。深度学习将一切统一到一个范式下：堆叠足够多的层，输入足够多的数据，投入足够的计算资源，模型会自行处理其余部分。理解深度学习，就是理解为什么人工智能突然间开始有效。

开发者工具
AI SDK、AI 框架

工具

由库、框架和平台组成的生态系统，使构建人工智能驱动的应用程序更加容易—这包括编排框架（LangChain、LlamaIndex）、推理服务器（vLLM、llama.cpp）、微调工具（Axolotl、Unsloth）、评估框架（LMSYS、Braintrust）以及全栈平台（Vercel AI SDK、Hugging Face）。工具生态每月都在变化。

为什么重要： 原始模型API是必不可少但并不充分的。开发者工具弥合了“我拥有API密钥”与“我拥有生产应用”之间的差距。合适的工具可将开发时间从数月缩短至数天，而错误的工具却徒增复杂度而无实际价值。

深度伪造
合成媒体、AI 生成的伪造内容

安全

AI生成的图像、视频或音频，旨在逼真地描绘真实人物说或做他们从未做过的事情。最初基于GAN技术，现代深度伪造技术如今使用扩散模型和语音克隆来生成内容，这些内容与现实的差异越来越难以分辨。检测工具虽然存在，但始终落后于生成能力。

为什么重要： 深度伪造是生成式人工智能创造力的阴暗面。它们已被用于欺诈、非自愿亲密影像、政治操控和身份盗窃。这项技术如今已足够易用，任何拥有笔记本电脑的人都可以制作令人信服的伪造内容，使得检测、数字水印和法律框架成为亟需优先解决的问题。

数据中心
AI 数据中心、GPU 集群

基础设施

用于存放服务器、GPU、网络设备和冷却系统的物理设施。现代AI数据中心专为大规模并行计算而设计，消耗兆瓦级电力，需要专用冷却系统。单次前沿模型训练可能需要整个设施中数千块GPU运行数月之久。

为什么重要： 数据中心是人工智能时代的工厂。每一次对Claude的查询，每一张来自Midjourney的图片，每一个来自Runway的视频，都依赖于这些大楼中的硬件设备。全球范围内人工智能就绪的数据中心容量短缺，是人工智能发展的一大制约因素—同时也是最大的投资机遇之一。

DeepL
神经机器翻译、DeepL Pro

公司

德国AI公司被广泛认为是全球最好的机器翻译服务。由一群计算语言学家打造，其表现持续超越Google Translate及其他大型科技公司的产品，尤其是在处理欧洲语言时。

为什么重要：

DeepL 是一个有力证明，说明专注于 AI 的公司可以在核心能力上持续超越拥有数千亿美元市值的竞争对手。在通常认为“越大越好”的领域，DeepL 在翻译质量上对 Google 和 Microsoft 的优势依然可衡量且具有实际意义，尤其是在欧洲语言和专业应用场景中。他们的成功挑战了通用 AI 模型最终会将专业任务商品化的假设——对于依赖准确跨语言沟通的数以万计的企业而言，这种专业化是值得付费的。

Decart AI
实时世界模拟、游戏生成

公司

以色列AI公司突破实时AI生成技术的界限。其技术能够实时生成交互式游戏般的环境，模糊了传统渲染与AI生成之间的界限。

为什么重要： Decart AI 展示了大多数人认为还需数年才能实现的技术：一个神经网络实时生成可玩、可交互的3D世界，且无需传统游戏引擎。他们的 Oasis 演示是对 AI 原生世界模拟的概念验证，这项技术的影响远超游戏领域—从自动驾驶到机器人技术再到空间计算。如果实时世界模型能够达到生产级别的实用性，Decart 在推理优化和交互生成方面的早期工作将奠定基础。

DeepSeek
DeepSeek-V3、DeepSeek-R1

公司

中国人工智能实验室于2025年初凭借DeepSeek-R1推理模型震撼行业，该模型以仅需顶尖实验室几分之一的训练成本，与前沿实验室展开竞争。该实验室由量化对冲基金High-Flyer支持。

为什么重要：

DeepSeek打破了前沿AI需要前沿预算的假设。他们以效率优先的方法——以远低于训练成本实现GPT-4级别和o1级别性能——迫使整个行业重新思考“规模即一切”的叙事，并重新聚焦于架构创新。在MIT许可证下开放权重的R1版本以一种西方实验室未曾做到的方式民主化了推理模型的获取。从地缘政治角度看，DeepSeek证明了仅凭出口管制无法遏制AI能力，这一认识对科技政策、投资和全球AI权力平衡具有深远影响。

Deepgram
Nova 语音转文字、Aura 文字转语音

公司

语音AI公司正在构建快速且准确的语音识别和文本转语音API。他们的Nova模型在准确率上与OpenAI的Whisper竞争，甚至经常超越它，同时在实时应用中运行速度显著更快。

为什么重要：

Deepgram 证明了一家初创公司可以利用端到端深度学习从零开始构建语音识别系统，并在准确性上与谷歌、亚马逊和微软直接竞争，同时在速度上超越它们。他们以开发者为中心的 API 方法将现代基础设施模式引入语音 AI，使将语音转录添加到应用程序中变得像通过 Stripe 添加支付功能一样简单。随着对话式 AI 代理逐渐成为主流，Deepgram 正将其定位为关键的语音基础设施层——使以语音为核心的 AI 在实际生产中真正运作的底层管道。

扩散模型

模型

一种生成模型，通过从纯噪声开始，逐步去除噪声，直到生成连贯的输出（如图像、视频或音频）。该模型学习逆转向真实数据添加噪声的过程。Stable Diffusion、DALL-E 3 和 Midjourney 都采用该方法的变体。

为什么重要：

扩散模型于2022年前后取代生成对抗网络（GANs），成为主流的图像生成技术。它们能够生成更多样化且可控的输出，如今几乎所有图像和视频AI工具的核心都是扩散模型。

蒸馏
知识蒸馏

训练

训练一个较小的“学生”模型来模仿一个较大的“教师”模型，通过学习教师的软概率分布而非硬标签。软输出编码了硬标签无法传达的类别之间的关系。

为什么重要： 蒸馏让强大的AI变得人人可用。一次70B到7B的蒸馏可以在10%的成本下保留90%的能力。许多本地运行的模型都是从前沿模型蒸馏而来。

Training a smaller "student" model to mimic a larger "teacher" model by learning from the teacher's soft probability distributions rather than hard labels.

Why it matters: Distillation is how the industry makes powerful AI accessible. A 70B model distilled into 7B can capture 90% of the capability at 10% of the cost.

涌现
涌现能力、涌现行为

基础

在达到一定规模或训练阈值后突然出现的能力——这些能力并未在训练中被明确教授。一个纯粹用于预测下一个词的模型，竟然能够执行算术运算、在未被教授的语言之间进行翻译，或编写可运行的代码。涌现是人工智能领域最受争议的现象之一：它是真实的相变现象，还是测量误差？

为什么重要： 涌现问题是AI领域最大的疑问核心：我们能否预测更大模型将具备什么能力？如果能力确实以不可预测的方式在规模扩大时涌现，那么每个更大的模型都像是一个惊喜盒子。如果涌现只是测量方式带来的结果，那么规模扩大带来的变化可能比表面看起来更可预测。答案将影响从安全规划到投资决策的方方面面。

评估
Evals、模型评估

训练

用于衡量AI模型性能的方法。这远不止于基准测试——它包括人工评估（由人类对输出结果进行评分）、A/B测试（在真实流量中对比模型）、红队测试（对抗性测试）、领域特定测试（医疗准确性、代码正确性）以及社区排行榜（Chatbot Arena、LMSYS）。优秀的评估比构建模型本身更具挑战性。

为什么重要：

如果你无法衡量它，就无法改进它。但AI评估尤为困难，因为任务是开放式的，质量具有主观性。基准测试容易被操控，人工评估成本高昂，而纸面上得分最高的模型往往在实际应用中并非最佳。构建优秀的评估体系是一种超能力。

ElevenLabs
语音合成、语音克隆、配音

公司

语音AI公司，让每个人都能使用超逼真语音合成技术。他们的技术驱动语音克隆、实时配音和文本转语音功能，支持32种语言，模糊了人类与AI语音之间的界限。

为什么重要： ElevenLabs证明了AI生成语音能够跨越恐怖谷理论，听起来真正像人类，将专业语音制作的成本和时间降低了数量级。他们的声音克隆和多语言配音工具使独立创作者能够在不聘请任何配音演员的情况下，用30多种语言制作内容，彻底改变了音频和视频本地化的经济模式。他们还迫使整个行业正视合成语音技术的伦理问题，推动了数字水印、内容溯源标准和验证协议的采用，这些如今已成为行业规范。

嵌入
向量嵌入

训练

一种将文本（或图像、或音频）表示为数字列表（即向量）的方法，该向量能够捕捉其含义。在这一数字空间中，相似的概念会彼此靠近—“cat”和“kitten”距离较近，而“cat”和“economics”则相距甚远。

为什么重要： 嵌入向量是语义搜索和RAG的基础。它们使AI能够理解，对"fix login bug"的搜索应该匹配关于"authentication error resolution"的文档，即使没有词语重叠。

端点

基础设施

一个特定的URL，用于接收AI API的请求。例如，Anthropic 的 message 端点是您向 Claude 发送提示（prompts）的地方。不同的端点服务于不同的功能：文本生成、嵌入（embeddings）、图像生成、模型列表。

为什么重要：

在整合AI提供商时，端点是关键所在。每个提供商的结构方式各不相同，这就是Zubnet等平台存在的原因——统一混乱的局面。

边缘AI
端侧AI、本地AI

基础设施

在终端设备（手机、笔记本电脑、汽车）上运行AI，而非在云端。数据隐私有保障、零延迟、可离线工作。

为什么重要： 隐私、延迟和成本的交汇点。一个手机上的3B模型在适合的任务上往往胜过数据中心里的400B模型。

Running AI models directly on end-user devices — phones, laptops, cars — rather than in the cloud. Your data never leaves your device, latency is near-zero, and it works offline.

Why it matters: Edge AI is where privacy, latency, and cost intersect. A fast 3B model on your phone beats a slow 400B model in a data center for many tasks.

存在性风险
X-Risk、AI 末日论

安全

认为足够先进的 AI 系统可能对人类生存构成威胁或永久限制人类潜力的假说。

为什么重要： 存在性风险是 AI 领域最具影响力的辩论。理解真正的论点有助于你形成知情的立场。

生成式 AI
GenAI

基础

生成式AI系统能够创建新的内容—文本、图像、音频、视频、代码、3D模型—而不仅仅是分析或分类现有数据。生成式AI是统称，涵盖从ChatGPT撰写文章到Stable Diffusion生成图像，再到Suno创作音乐等各种应用。"生成式"这一特性使这些模型区别于只能进行分类、预测或推荐的早期AI系统。

为什么重要： 生成式人工智能（Generative AI）是将人工智能带入主流文化的术语。在2024-2026年，当人们提到“AI”时，指的是生成能力，而不仅仅是计算能力。将其视为一个类别有助于你理解这一领域：大型语言模型（LLMs）生成文本，扩散模型（diffusion models）生成图像，模态之间的界限正在迅速模糊。

Google DeepMind
Gemini、AlphaGo、AlphaFold

公司

Google的统一AI研究部门，由DeepMind和Google Brain于2023年合并而成。负责Gemini、AlphaGo、AlphaFold以及许多推动现代AI发展的基础研究。

为什么重要：

谷歌DeepMind为现代人工智能领域贡献了比任何其他单一组织都更多的基础性研究——Transformer架构、强化学习领域的突破性工作、蛋白质结构预测以及扩展定律等成果均可追溯至DeepMind或Google Brain团队。他们的Gemini模型是唯一内置真正全球分布能力的前沿大语言模型，通过搜索、安卓和谷歌工作区触达数十亿用户。仅AlphaFold一项——它解决了生物学中一个持续五十年的难题并荣获诺贝尔奖——就足以使其在科学史上留下浓墨重彩的一笔，而不仅仅是人工智能的历史。

GAN
生成对抗网络

模型

一种模型架构，其中两个神经网络相互竞争：生成器生成假数据，而判别器试图区分真实与虚假。通过这种对抗性游戏，生成器在生成逼真输出方面变得越来越好。从2014年到~2022年，主导了图像生成领域。

为什么重要：

GANs率先实现了逼真的人工智能图像生成，并且仍被用于某些实时应用中。但扩散模型在对质量要求较高的工作中已基本取代了它们，因为GANs更难训练，且输出的多样性较低。

GPU
图形处理器

基础设施

最初设计用于图形渲染的GPU，结果证明非常适合人工智能，因为它们可以同时进行数千个数学运算。训练和运行人工智能模型本质上是大规模矩阵乘法—正是GPU所擅长的领域。英伟达主导了这个市场。

为什么重要：

GPU是整个AI行业的物理瓶颈。为什么模型价格如此之高，为什么有些提供商的速度更快，为什么会出现全球性的芯片短缺—归根结底还是GPU供应和VRAM的问题。

事实接地

使用AI

将模型的响应与事实性、可验证的来源相连接，而不是仅仅依赖其训练数据。锚定技术包括 RAG、网络搜索集成和引用要求。一个基于事实的响应会说“根据 [来源]”，而不是仅仅陈述事实。

为什么重要： 依据是防止幻觉的主要防御手段。无依据的模型会自信地编造事实。而有依据的模型则会指向你可以验证的真实来源。

护栏

安全

防止AI模型生成有害、不恰当或偏离主题内容的安全机制。防护措施可以在训练期间内置到模型中（RLHF），通过系统提示应用，或通过外部过滤器强制执行，这些过滤器在输出到达用户之前检查内容。

为什么重要：

没有安全限制，模型会乐意帮助处理危险请求。挑战在于校准—过于严格，模型变得无用（“我帮不了你”），过于宽松则变得不安全。

梯度下降
SGD、反向传播

训练

通过计算梯度并沿下坡方向步进来迭代调整参数以减少损失。反向传播（Backpropagation）高效地计算各层的梯度。

为什么重要： 每个模型都是通过梯度下降训练的。它解释了学习率的重要性、训练发散问题，以及Adam优化器为什么有效。

The algorithm that trains neural networks by iteratively adjusting parameters to reduce the loss. Computes how much each parameter contributed to the error and nudges it in the direction that reduces it.

Why it matters: Every model you use was trained by gradient descent. Understanding it explains why learning rate matters, why training can diverge, and why optimizers like Adam work.

GGUF
GGML 统一格式

基础设施

通过 llama.cpp、Ollama 和其他本地推理工具运行量化语言模型的标准文件格式。加载和运行模型所需的一切都在一个文件中。

为什么重要： GGUF 是使本地 AI 变得实用的格式。它将一切打包成一个文件，可在任何硬件上运行。

GNN
图神经网络

模型

设计用于处理图结构数据的神经网络。通过在连接的节点之间传递消息来学习。

为什么重要： GNN 是处理图结构数据（社交网络、分子、推荐系统）的正确工具。

超参数
训练超参数

训练

训练开始前您选择的设置，用于控制模型的学习方式 — 与参数不同，参数是模型自行学习的。超参数包括学习率（每次更新的步长大小）、批量大小（一次处理的样本数量）、训练轮数（遍历数据的次数）、优化器选择（Adam、SGD、AdamW）、权重衰减、丢弃率，以及架构决策如层数和隐藏维度。正确设置超参数往往是模型顺利收敛与陷入混乱或无意义结果之间的关键差异。

为什么重要： 超参数调优是机器学习工程中科学与技艺并存的部分。即使拥有完美的数据集和网络结构，但学习率过高会导致训练崩溃，过低则无法收敛。理解超参数对于训练或微调模型的人来说至关重要——知道哪些超参数最关键，可以节省大量计算资源。

HeyGen
AI 数字人视频、唇形同步配音

公司

AI视频平台，专精于生成逼真的面部动画和自动口型同步配音。被企业用于营销、培训和本地化——将一个视频转换为数十种语言，同时保持口型同步。

为什么重要： HeyGen 将 AI 视频虚拟形象从一项研究课题转变为真正的企业级工具，证明了将视频内容创作变得像写文档一样简单可以带来实际收入。他们的口型同步配音技术对全球企业具有特殊意义 — 它将视频本地化的成本和时间从数周和数千美元大幅降低到分钟和美分。作为少数几家拥有稳定持续性收入的 AI 视频公司之一，HeyGen 也成为了如何在生成式 AI 上构建真正商业的案例研究，而不仅仅是一个演示。

HiDream
HiDream 图像生成模型

公司

新兴的图像生成公司正在构建高质量的扩散模型。他们的开放权重版本在创意AI社区中因强大的提示遵循能力和出色的视觉质量而受到关注。

为什么重要： HiDream展示了小型专注团队可以开发出开放权重的图像模型，其输出质量可与那些在训练基础设施上投入数量级更多资源的组织相媲美。他们的模型在文本渲染和组合准确性方面的优势，解决了阻碍AI生成图像商业应用的实际痛点。在快速商品化的开放图像模型领域，HiDream的成功强化了这样一个模式：下一次质量飞跃可能来自任何地方—不仅仅是拥有最多GPU的最大实验室。

Hume
共情语音接口、情绪识别

公司

AI公司正在构建能够理解和表达人类情感的模型。他们的Empathic Voice Interface能够实时检测语调、情感和情感语境，使AI对话不仅能够回应你所说的话，还能回应你说话的方式。

为什么重要： Hume 之所以重要，是因为他们正在解决现代AI中最明显的盲点：情感理解。如今的每一个聊天机器人、语音助手和AI代理本质上都对语调不敏感，只关注文字的字面内容，而忽略了人类本能依赖的情感语境。Hume 的 Empathic Voice Interface 是首个在生产规模上真正尝试弥合这一差距的系统，而他们对情感AI伦理准则的坚持，也为行业树立了最终不得不采纳的标准。

幻觉

使用AI

当AI模型生成的信息听起来自信且合理，但实际上是错误的或完全虚构时。模型并不是在“撒谎”—它只是通过模式匹配生成流畅的文本，而没有对真理的概念。虚假的引用、编造的统计数据和不存在的API方法是常见的例子。

为什么重要： 幻觉是当今AI领域最大的信任问题。这就是为什么你应该始终验证AI输出中的关键事实，以及为什么存在诸如RAG和grounding等技术。

Hugging Face
HF

公司

开源AI的中心枢纽。托管50万+模型、10万+数据集，提供Transformers库和Spaces平台。AI领域的GitHub。

为什么重要： 如果你使用开放权重模型，你就在用HF。Transformers库是事实上的行业标准。

The central hub of open-source AI. Hosts 500K+ models, 100K+ datasets, the Transformers library, and Spaces for demos. To AI what GitHub is to code.

Why it matters: If you work with open-weight models, you use Hugging Face. Every Llama, Mistral, and Qwen download comes from there. The Transformers library is the de facto standard.

Ideogram
图像中的文字渲染、Ideogram 2.0

公司

AI图像生成公司，由前Google Brain研究人员创立。因解决图像生成领域中最难的问题之一而声名鹊起：在图像中生成可读且准确的文本。

为什么重要： Ideogram证明，解决一个关键弱点——AI生成图像中的可读文本——可以在竞争激烈的图像生成领域开辟出独特的市场定位。从文本渲染专家发展为功能齐全的设计平台，展示了当技术差异化针对实际工作流程中的痛点时，如何能够与资金更充足的竞争对手竞争。

推理

基础设施

运行训练好的模型以生成输出的过程。训练是学习；推理是应用所学知识。每次你向Claude发送提示或使用Stable Diffusion生成图像时，这都属于推理。这正是消耗服务提供商GPU小时数并按每个token计费的部分。

为什么重要： 推理成本和速度决定了AI产品的经济性。更快的推理——更低的延迟——更好的用户体验。更便宜的推理——更低的价格——更广泛的应用。整个量化和优化行业存在的目的就是让推理更加高效。

指令微调
IFT、SFT

训练

在（指令，回复）对的数据集上微调预训练语言模型，以教会模型遵循指令。这一步将 GPT 变成了 ChatGPT。

为什么重要： 指令微调是连接原始语言模型和实用助手之间的桥梁。它可以说是最重要的后训练步骤。

图像生成
文本到图像、AI 艺术

基础

使用 AI 模型根据文本描述创建图像。包括扩散模型、流匹配和自回归模型等方法。

为什么重要： 图像生成是继聊天机器人之后最显眼的消费级 AI 能力。它正在改变平面设计和视觉传达。

指令遵循
指令服从

使用AI

模型准确执行用户要求的能力——遵守格式约束、长度要求、风格规范和行为指令。

为什么重要： 指令遵循是最具实际重要性的 LLM 能力。它已成为模型评估的核心。

Induction Head

A specific two-attention-head circuit discovered in Transformers that implements in-context learning by pattern matching. If the model has seen the pattern "A B" earlier in the context and now sees "A" again, the induction head predicts "B" will follow. This simple mechanism is believed to be a fundamental building block of how LLMs learn from examples in their context.

Why it matters: Induction heads are the best-understood circuit in mechanistic interpretability — a concrete example of how Transformers implement a useful algorithm from learned weights. They explain why few-shot prompting works: when you give examples, induction heads detect the pattern and apply it. Understanding induction heads provides a foundation for understanding more complex learned behaviors.

图像分割
语义分割、SAM、实例分割

使用AI

将图像中的每个像素分类到一个类别。语义分割按类别标记像素（道路、人行道、建筑、天空）。实例分割区分单个目标（人1、人2）。全景分割同时做两者。Meta的SAM（Segment Anything Model）可以通过点击或文本提示分割任何目标，无需特定任务的训练。

为什么重要： 分割提供了对图像内容最精确的理解。自动驾驶汽车需要像素级的道路边界，而不仅仅是边界框。医学影像需要精确的肿瘤边界。照片编辑需要精确的目标掩码来去除背景。SAM零训练分割任何目标的能力使这种以前的专业能力变得人人可用。

图像修复
图像修补、图像外扩

使用AI

用与周围上下文匹配的AI生成内容填充图像中选定的区域。你遮盖一个区域（涂抹覆盖），描述应该替换的内容，模型生成与现有图像无缝融合的新内容。图像外扩将图像扩展到其原始边界之外。两者使用相同的底层扩散过程，以未遮盖区域为条件。

为什么重要： 图像修复是AI提供的最实用的图像编辑工具。去除不需要的物体、替换背景、修复缺陷、添加元素，或修改图像的特定部分同时保持其余部分不变。它是AI版的Photoshop内容感知填充，但由自然语言引导且能力强大得多。

Image-to-Image
图像到图像、img2img、图像条件生成

使用AI

基于现有图像加文本提示生成新图像。与从纯噪声开始的文生图不同，扩散过程从输入图像的噪声版本开始，保留其结构的同时根据提示进行修改。“这张照片的赛博朋克版本”保持构图但转换风格和细节。

为什么重要： 图像到图像是摄影与AI艺术之间的桥梁。它让你使用草图、照片或现有的艺术作品作为起点，保持布局和构图的同时让AI转换风格、添加细节或重新想象内容。它比文生图更可控，因为你用视觉结构而不仅仅是文字来引导输出。

Information Extraction
信息提取、IE、结构化提取

使用AI

从非结构化文本中自动提取结构化信息。给定一篇新闻文章，提取：谁做了什么，何时，在哪里，为什么。给定一份合同，提取：当事方、日期、义务和金额。IE结合了NER（找到实体）、关系提取（找到实体之间的联系）和事件提取（找到发生了什么）形成统一的管线。

为什么重要： 世界上大部分信息都被困在非结构化文本中——电子邮件、报告、文章、法律文件、医疗记录。信息提取将这些文本转化为可以搜索、分析和操作的结构化数据。它是让你能够对一堆文档提出数据库式查询的技术。

Leonardo.ai
创意图像生成、游戏素材创建

公司

在Midjourney和Stable Diffusion之间找到独特定位的澳大利亚AI图像平台，因其经过微调的模型、实时画布以及专注于可直接用于生产的创意素材，深受游戏开发者和数字艺术家欢迎。

为什么重要： Leonardo.ai 表明，AI 图像生成可以被打包为一个专业的创意平台，而不仅仅是新奇的提示框，并且这样做可以吸引数千万用户。他们对游戏开发和数字艺术工作流程的关注，开辟了 Midjourney 和 DALL-E 等更广泛工具并未专门设计的使用场景。Canva 的收购验证了整个 AI 图像生成类别作为主要设计平台的战略资产的地位，并为独立 AI 工具如何被整合进更大的创意生态系统设定了模板。

Liquid AI
Liquid 基础模型、液态神经网络

公司

MIT 分拆公司正在探索受生物神经回路启发的、从根本上不同的神经网络架构。他们的 Liquid Foundation Models 使用连续时间动力学而非固定权重的 Transformer，有望实现更高的效率和适应性。

为什么重要： Liquid AI 代表着对“transformer 是唯一重要的架构”这一假设的最严重资金支持的挑战。通过基于生物启发的连续时间动力学构建生产级基础模型，他们正在测试AI行业对注意力机制的全押赌注是否过于仓促。即使LFMs无法彻底取代transformer，它们在边缘部署和长序列处理方面的效率优势，可能在机器人、移动AI和嵌入式系统等领域开辟关键细分市场——在这些市场中，运行一个70B参数的transformer模型根本不可行。

Luma AI
Dream Machine、Ray2

公司

专注于视频和3D生成的人工智能公司。他们的Dream Machine是首批可访问的高质量AI视频生成器之一，而Ray2则显著提升了视频质量和连贯性。

为什么重要：

Luma AI 通过让 AI 视频生成变得免费、快速且任何有浏览器的人都可以使用，就像 Stable Diffusion 让图像生成民主化一样。他们从 3D 捕捉初创公司发展成为领先的视频生成公司，结合在空间理解方面的独特技术深度，使他们成为少数几家真正能够弥合 AI 视频、3D 内容与下一代沉浸式媒体格式之间差距的公司之一。

延迟
首 Token 时间 (TTFT)

基础设施

发送请求到收到首个响应之间的时间延迟。在 AI 领域，这通常被衡量为首个 Token 响应时间（TTFT）— 模型开始流式传输答案之前的时间。受模型规模、服务器负载、网络距离和提示长度的影响。

为什么重要： 用户认为超过 ~2 秒的响应时间就是缓慢的。低延迟正是为什么较小的模型在实时应用中经常胜出，即使更大的模型更“智能”。这是不同提供商之间的关键差异点。

大型语言模型
LLM

基础

一种通过大量文本训练的神经网络，用于理解和生成人类语言。“大型”指的是参数数量（数十亿）和训练数据规模（万亿个token）。Claude、GPT、Gemini、Llama 和 Mistral 都是大型语言模型（LLMs）。

为什么重要：

大型语言模型（LLM）是您使用的所有AI聊天机器人、代码助手和文本生成器背后的技术。理解它们的本质（统计模式匹配器，而非有意识的智能体）有助于您更有效地使用它们，并认识到它们的局限性。

LoRA
低秩适配

训练

一种通过仅训练少量额外参数而非修改整个模型，显著降低微调成本的技术。LoRA “适配器”是轻量级附加组件（通常仅需数兆字节），可在不重新训练其数十亿个参数的情况下修改模型的行为。

为什么重要： LoRA使微调更加普及。在此之前，定制一个7B模型需要强大的GPU资源。现在你可以在单块消费级GPU上数小时内完成微调，并分享这个小巧的适配器文件。这就是为什么HuggingFace上有数千个专业模型的原因。

损失函数
目标函数

训练

衡量预测有多偏离正确答案的指标。对于LLM：交叉熵损失 = 模型对实际下一个token的“惊讶”程度。训练的目标就是最小化这个值。

为什么重要： 训练的指南针。理解损失函数有助于解读训练曲线和诊断问题。

A mathematical function measuring how wrong a model's predictions are. For LLMs, cross-entropy loss measures how surprised the model is by the actual next token. Training minimizes this number.

Why it matters: The loss function is the compass of training. Everything a model learns serves to reduce it. Understanding loss helps you interpret training curves and diagnose problems.

llama.cpp

工具

一个由 Georgi Gerganov 创建的开源 C/C++ 库，用于在消费级硬件上运行 LLM 推理，无需 CUDA、PyTorch 或 Python。

为什么重要： llama.cpp 开启了本地 AI 革命。它是第一个让普通开发者能在本地运行大型语言模型的工具。

LangChain

工具

一个用于构建语言模型应用的流行开源框架。提供 RAG、链、智能体和工具等常见模式的抽象。

为什么重要： LangChain 是使用最广泛的 LLM 应用框架。理解何时使用它与直接 API 调用有助于架构决策。

Logits
原始分数、Softmax 前输出

基础

模型在通过 softmax 转换为概率之前输出的原始、未归一化的分数。它们是模型产生的最具信息量的输出。

为什么重要： 理解 logits 有助于你理解模型如何思考。温度、top-p 和 top-k 采样都在 logits 上操作。

模型
AI 模型、ML 模型

基础

一个经过训练的数学系统，它接收输入并根据从数据中学习到的模式生成输出。在人工智能领域，“model（模型）”是用于描述你实际使用的事物的统称——无论是GPT-4生成文本、Stable Diffusion生成图像，还是Whisper转录语音。一个模型由其架构（其结构方式）、参数（其学习内容）和训练数据（其学习来源）定义。当有人问“我应该使用哪个模型？”时，他们就是在问这个。

为什么重要： “模型”是AI领域中最常用的词汇，其在不同语境下含义各异。一个“模型”可以指代架构（Transformer），也可以指特定的训练实例（Claude Opus 4.6），或是磁盘上的文件（.gguf 文件），甚至是一个API端点。理解模型究竟是什么——以及它不是什么——是其他一切的基础。

机器学习
ML

基础

计算机科学的一个广泛领域，系统通过数据学习模式，而不是遵循明确的规则。与其通过列举特征（四条腿、尖耳朵、胡须）来编程计算机识别猫，不如向它展示成千上万张猫的照片，让它自己找出模式。机器学习涵盖从简单的线性回归到驱动当今AI的深度神经网络——监督学习（带标签的示例）、无监督学习（发现结构）和强化学习（试错）。

为什么重要： 机器学习是今天我们所称“人工智能”（AI）的一切基础。每一个大型语言模型（LLM）、每一个图像生成器、每一个推荐算法、每一个垃圾邮件过滤器——它们全部都是机器学习。将机器学习视为一个更广泛的学科来理解，能帮助你认识到深度学习适用的领域、传统方法依然占优的地方，以及为什么“人工智能”其实就是“做得非常好的机器学习”。

记忆
AI 记忆、持久化上下文

使用AI

允许AI模型在单次对话之外保留和回忆信息的机制。这包括上下文记忆（使用上下文窗口）、外部记忆（RAG、向量数据库）、持久化对话记忆（跨会话记住用户偏好）和工作记忆（在多步骤代理任务中维持状态）。—记忆正是让AI感觉像一个协作者而非无状态工具的关键。

为什么重要： 没有记忆，每次AI对话都从零开始。你必须重复说明你的偏好，重新解释你的代码库，重新描述你的项目。记忆正是将聊天机器人转变为助手的关键——而它也是最难妥善解决的问题之一，需要在相关性、隐私性、数据陈旧性和存储成本之间取得平衡。

月之暗面
Kimi、超长上下文模型

公司

中国人工智能公司因推出Kimi而引起轰动，这是一款拥有200万token上下文窗口的聊天机器人。由杨志林创立，他此前是长上下文建模关键创新的幕后研究人员。

为什么重要：

Moonshot AI迫使整个行业认真对待上下文长度。在Kimi出现之前，长上下文支持只是锦上添花；而Kimi在中国爆红后，每家主要实验室都争相扩展其上下文窗口。杨志林押注用户在拥有足够上下文时会彻底改变与AI的交互方式，这一押注已被Kimi的爆炸性增长所验证，而Moonshot开发的高效长序列推理技术正在影响下一代模型处理文档、代码库和复杂多步骤推理的方式。

Meta AI
Llama、FAIR、PyTorch

公司

Meta的人工智能研究部门，FAIR（基础人工智能研究）所在地。负责开放权重的Llama模型系列以及PyTorch，这是被大多数人工智能行业使用的深度学习框架。

为什么重要：

Meta AI 通过证明前沿级模型可以以开放权重的形式发布，从根本上改变了人工智能的经济模式。Llama 及其衍生模型驱动着成千上万的应用程序、初创公司和研究项目，这些项目此前从未有机会接触到如此级别的模型。PyTorch 是全球大多数人工智能研究和生产系统的基础。而其应用覆盖了30亿以上的用户，Meta 的分发能力是其他任何人工智能实验室都无法企及的——当它们推出一项AI功能时，这项功能能在一夜之间覆盖全球三分之一的人口。

Mistral AI
Mistral、Mixtral、Codestral、Le Chat

公司

欧洲人工智能巨头，由前DeepMind和Meta研究人员创立。凭借高效模型实现超预期表现，并倡导开放权重分发与商业产品并行推进。

为什么重要：

Mistral证明了，你不需要美国超大规模云服务商的预算来构建前沿AI模型。他们的高效架构——尤其是早期在稀疏Mixture of Experts方面的研究——影响了整个行业对模型设计的思路，并通过开源权重发布，让全球开发者无需依赖API即可访问高质量模型。作为首家达到真正前沿竞争水平的欧洲AI公司，Mistral还具有战略意义：他们的成功（或失败）将决定欧洲能否成为AI领域的参与者，而不仅仅是监管者。

MiniMax
MiniMax 模型、海螺 AI、视频生成

公司

中国AI公司构建跨文本、语音和视频的大规模模型。以其Hailuo消费平台和日益具有竞争力的多模态模型而著称。

为什么重要：

MiniMax 已经成为中国最全能的AI公司之一，通过一体化技术栈在文本、语音和视频领域构建具有竞争力的模型。他们的 Hailuo AI 平台向全球用户免费提供高质量的AI视频生成服务，证明了中国AI实验室能够打造真正具有国际影响力的产品——而不仅仅是企业级API或研究论文。

MCP
模型上下文协议

工具

一个开放协议（由Anthropic创建），用于标准化AI模型如何连接外部工具和数据源。可以将其视为AI领域的USB-C——一种统一的标准接口，而不是为每个工具都进行定制集成。MCP服务器提供功能；MCP客户端（如Claude）使用这些功能。

为什么重要： 在MCP出现之前，每个AI工具集成都是定制的。MCP意味着一次构建的工具可以与任何兼容的AI配合使用。它目前已获得Claude、Cursor等的支持。这就是AI从聊天机器人转变为真正助手的方式。

专家混合模型
MoE

模型

一种架构，其中模型包含多个“专家”子网络，但每个输入仅激活其中少数几个。一个路由网络决定哪些专家与给定的token相关。这意味着模型可以拥有1000亿+的总参数，但每次前向传递仅使用200亿个参数。

为什么重要： MoE 是 Mixtral 等模型（据报道还有 GPT-4）实现大模型质量与小模型速度的方法。权衡在于更高的内存占用（所有专家模型都必须加载），尽管计算成本更低。

多模态

基础

能够理解和/或生成多种类型数据（文本、图像、音频、视频、代码）的模型。克劳德可以读取图像和文本；一些模型还可以生成图像或语音。“多模态”与仅处理一种类型数据的“单模态”模型形成对比。

为什么重要： 现实中的任务是多模态的。你想向AI展示一张截图并问“这里有什么问题？”，或者给它一张图表并说“实现这个”。多模态模型使得这一切成为可能。

Mamba
选择性SSM

模型

由Gu和Dao提出的选择性状态空间模型。序列长度线性扩展，而非Transformer的二次方。压缩的隐藏状态被选择性更新——重要信息被保留，无关信息衰减。

为什么重要： 对Transformer主导地位最有力的挑战。如果能在线性时间内达到Transformer级别的质量，其影响将是巨大的。混合架构（Jamba、Zamba）已经在投入使用。

A selective state space model architecture challenging the Transformer. Achieves competitive performance with linear scaling in sequence length by maintaining a compressed, selectively updated hidden state.

Why it matters: Mamba is the most credible challenge to Transformer dominance. Linear-time processing with comparable quality would mean longer contexts, faster inference, lower costs. Hybrid architectures are already shipping.

模型坍缩
数据反馈循环

训练

当 AI 模型在前代 AI 模型生成的数据上训练时发生的退化，形成错误和偏差累积的反馈循环。

为什么重要： 模型坍缩是 AI 生成内容时代的定时炸弹。如果不妥善管理，模型质量可能会停滞或退化。

多智能体系统
多智能体、智能体群

使用AI

多个 AI 智能体协作、辩论或专精化以解决单个智能体无法独自处理的问题的架构。

为什么重要： 多智能体系统是处理复杂 AI 任务的新兴范式。随着 AI 发展为自主工作流，它成为自然的扩展模式。

自然语言处理
NLP

基础

人工智能的一个分支，旨在使机器能够理解、解释和生成人类语言。自然语言处理涵盖了从基础的文本处理（分词、词干提取、词性标注）到复杂任务如情感分析、机器翻译、摘要生成和问答系统的一切内容。在Transformer模型出现之前，自然语言处理是一些拼凑而成的专用技术集合。如今，大语言模型（LLMs）已将大部分自然语言处理任务统一于一个范式——但理解这些模型为何有效，仍需重视该领域的基础理论。

为什么重要： NLP 是你能够用普通英语与 AI 交流并得到有用答案的原因。每个聊天机器人、每个搜索引擎、每个翻译服务、每个 AI 写作工具都属于 NLP。即使你从未从零开始构建 NLP 系统，理解基础概念 — tokenization、attention、embeddings、context — 也能让你更好地使用所有处理文本的 AI 工具。

NVIDIA
GPU、CUDA、H100/H200、NeMo

公司

这家公司的GPU驱动了全球几乎所有AI训练和大部分推理。最初是一家显卡公司，它成为了AI行业最关键的硬件供应商，短暂地使NVIDIA成为地球上最有价值的公司。

为什么重要：

NVIDIA 是一家没有它就无法实现人工智能革命的公司——他们的 GPU 和 CUDA 软件生态系统是几乎所有重大 AI 模型训练的基础。结合专为 AI 设计的硬件、长达十年的软件护城河，以及对连接 GPU 的网络架构的控制权，使他们在 21 世纪最关键供应链中占据了近乎垄断的地位。当政府、企业和研究机构争夺 AI 计算能力时，他们实际上是在争夺 NVIDIA 的硬件，而这一事实使 Jensen Huang 的昔日显卡公司成为了地球上战略上最重要的科技公司。

神经网络

基础

一种受生物大脑启发，由多层相互连接的“神经元”（数学函数）组成，这些神经元通过数据学习模式的计算系统。信息通过各层流动，逐步转换，直到网络产生输出。每个现代AI模型都是一种神经网络。

为什么重要： 神经网络是所有AI的原理。理解它们其实是数学（而不是魔法，也不是大脑）有助于澄清AI能做什么和不能做什么。它们是模式匹配器—极其强大的模式匹配器，但终究还是模式匹配器。

归一化
LayerNorm、RMSNorm、BatchNorm

训练

通过将网络中流动的值归一化到一致的尺度来稳定神经网络训练的技术。层归一化（LayerNorm）在每个样本内跨特征进行归一化。RMSNorm是一个简化的变体。批归一化（BatchNorm）跨批次进行归一化。每个Transformer都在层之间使用某种形式的归一化。

为什么重要： 没有归一化，深度网络极难训练——激活值可能在层间爆炸或消失，使梯度下降不稳定。归一化是那些不起眼但绝对必要的技术之一：从任何现代架构中移除它，训练就会崩溃。

Techniques that stabilize neural network training by normalizing the values flowing through the network to have consistent scale. Layer Normalization (LayerNorm) normalizes across features within each example. RMSNorm is a simplified variant. Batch Normalization (BatchNorm) normalizes across the batch. Every Transformer uses some form of normalization between layers.

Why it matters: Without normalization, deep networks are extremely difficult to train — activations can explode or vanish across layers, making gradient descent unstable. Normalization is one of those unglamorous techniques that is absolutely essential: remove it from any modern architecture and training collapses.

优化
模型优化、推理优化

训练

一系列用于使AI模型更快、更小、更便宜或更准确的技术。这包括训练优化（混合精度、梯度检查点、数据并行）— 推理优化（量化、剪枝、知识蒸馏、推测解码）— 以及服务优化（批处理、缓存、负载均衡）。优化使得你可以在笔记本电脑上运行140亿参数的模型。

为什么重要： 原始能力如果无法负担运行成本，就毫无意义。优化是研究演示与生产产品之间的关键差异—这也是为什么开放权重模型能够与API提供商竞争，为什么移动AI得以存在，以及为什么推理成本持续下降的原因。

OpenAI
GPT、ChatGPT、DALL-E、Sora

公司

ChatGPT和GPT系列模型背后的公司。最初是一家非营利研究实验室，当ChatGPT于2022年11月推出时，OpenAI成为了人工智能革命的公众面孔。

为什么重要：

OpenAI 是所有组织中最具影响力的，将人工智能从研究实验室带入主流意识的先行者。ChatGPT 是生成式 AI 的 iPhone 时刻——这款产品让数亿人直观地理解了大型语言模型的潜力。他们的 API 构建了基础设施层，成千上万的 AI 初创企业正是基于此建立起来的，而 GPT 系列在多年间确立了规模扩展作为人工智能研究的主导范式。即使 OpenAI 的争议——治理危机、从非营利到营利的转变、专注于安全的研究人员的离职——也塑造了关于人工智能公司应该如何构建和治理的更广泛讨论。

开放权重
开源 (AI 语境)

安全

当一家公司发布模型的训练参数，供任何人下载和运行时，"开放权重"比"开源"更准确，因为大多数发布的模型不包含训练数据或训练代码—你得到的是成品模型，而不是制作它的配方。Llama、Mistral和Qwen都是开放权重模型。

为什么重要： 开放权重意味着您可以在自己的硬件上运行AI，实现完全隐私—不需要调用API，数据也不会离开您的网络。代价是您需要具备运行它们的GPU资源，并需自行负责安全性。

过拟合

训练

当模型过度记忆训练数据，导致无法对新输入进行泛化时。就像一个学生死记硬背练习题答案，却无法解决新问题。模型在训练数据上表现优异，但在未见过的数据上表现不佳。

为什么重要： 过拟合是模型训练中最常见的失败模式。这就是为什么评估会使用独立的测试集，以及为什么训练时间过长（过多的训练轮次）反而会让模型表现更差。

Ollama

工具

一个用户友好的工具，只需一条命令即可在本地运行语言模型。它将 llama.cpp 包装成类似 Docker 的体验。

为什么重要： Ollama 对于本地 AI 就像 Docker 对于容器化：它消除了摩擦。

ONNX
开放神经网络交换格式

基础设施

一种用于表示机器学习模型的开放格式，实现框架之间的互操作性。在PyTorch中训练的模型可以导出为ONNX，然后使用ONNX Runtime、TensorRT或其他针对特定硬件优化的推理引擎运行。ONNX充当训练世界（PyTorch、TensorFlow）和部署世界（优化运行时）之间的通用语言。

为什么重要： ONNX解决了一个真实的生产问题：你在PyTorch（研究标准）中训练，但在使用不同运行时效果更好的硬件上部署。转换为ONNX让你可以使用优化的推理引擎而无需重写模型。这对于边缘部署尤为重要，因为需要在有限硬件上获得最大性能。

开放与封闭
开源与专有、开放权重之争

基础

关于AI模型应该公开发布（权重公开可用，如Llama和Mistral）还是保持专有（仅通过API可用，如Claude和GPT）的持续辩论。开放倡导者主张透明、竞争和民主化。封闭倡导者主张安全、负责任的部署和防止滥用。现实是一个光谱：真正“开源”的模型（包含训练数据和代码）很少；大多数“开放”模型是开放权重的。

为什么重要： 这场辩论塑造了AI的未来。如果封闭胜出，少数几家公司控制着本世纪最强大技术的访问权。如果开放胜出，强大的AI对所有人可用——包括那些会滥用它的人。大多数从业者两者都用：生产中用专有API（可靠性、支持），实验、隐私和成本控制用开放模型。理解这些权衡有助于你做出选择。

目标检测
YOLO、边界框检测

使用AI

在图像或视频中识别和定位目标，通过在其周围绘制边界框并分类每个框包含的内容。“在位置(x1,y1,x2,y2)有一辆车，在(x3,y3,x4,y4)有一个人。”与图像分类（说出图像中有什么）不同，目标检测说出图像中有什么以及在哪里——使计数、跟踪和空间推理成为可能。

为什么重要： 目标检测是自动驾驶汽车（检测行人、车辆、标志）、安防摄像头（人员检测）、零售分析（计算购物者人数）、制造质量控制（检测缺陷）和增强现实（将虚拟物体相对于真实物体放置）背后的技术。它是商业部署最广泛的计算机视觉能力之一。

OCR
光学字符识别、文字识别

使用AI

从图像中提取文字——文档照片、截图、标志、手写笔记，或任何包含文字的图像。现代OCR结合了文字检测（找到文字在图像中出现的位置）和文字识别（读取文字内容）。深度学习OCR在处理弯曲文字、多语言、多种字体和低质量图像方面远优于旧的基于规则的方法。

为什么重要： OCR将物理世界数字化。扫描收据用于报销、读取文档用于归档、从表单提取数据、实时翻译标志，以及使基于图像的PDF可搜索，都依赖于OCR。结合LLM后，OCR能实现复杂的文档理解——不仅是读取文字，而是理解发票、合同和报告。

参数
权重、模型参数

基础

神经网络在训练过程中学到的内部值—本质上是模型以数字形式编码的“知识”。当有人说一个模型有“70亿个参数”时，意思是训练过程中调整了70亿个独立的数值，以捕捉数据中的模式。更多的参数通常意味着更强的学习复杂模式的能力，但也需要更多的存储内存和更多的计算资源来运行。

为什么重要： 参数数量是模型规模最常见的简称，它直接决定了您需要多少GPU内存。一个16位精度的7B模型仅权重就需要约14GB的VRAM。理解参数有助于您估算成本、选择硬件，并理解为什么量化（降低每个参数的精度）对于使模型易于访问如此重要。

PixVerse
PixVerse 视频生成

公司

中国视频生成公司正在构建易于使用的AI视频工具。以其快速的生成速度和免费层级而闻名，这帮助他们在国际市场上迅速建立了庞大的用户群。

为什么重要： PixVerse证明了AI视频生成可以成为一种大众市场产品，而不仅仅是一种面向专业人士和早期采用者的工具。他们激进的免费层级和快速迭代周期迫使整个行业重新思考定价和可访问性。通过在一年内建立AI视频领域最大的用户群体之一，他们证明了在决定谁能在该市场胜出时，分发渠道和执行速度可能与原始模型质量同样重要—。

Perplexity
AI 驱动的搜索引擎、Sonar API

公司

结合实时网络搜索与语言模型推理的AI搜索引擎，提供直接且有来源的答案，而非链接列表。这是过去一代人中对谷歌搜索主导地位最显著的挑战。

为什么重要： Perplexity 是过去十年来对谷歌搜索主导地位最可信的挑战，证明了原生AI答案引擎可以为信息检索查询提供根本更好的体验。他们将检索增强生成（RAG）范式作为消费级产品推广，展示了将实时网络搜索与大型语言模型（LLM）推理相结合，所产生的结果比单独使用任何一种技术都更有用且更可信。其迅速增长迫使谷歌、微软以及所有其他搜索引擎玩家重新思考在大语言模型时代搜索引擎应有的形态。

预训练

训练

模型最初的大规模训练阶段，通过海量语料库学习语言（或其他模态）。这是昂贵的部分—数千块GPU运行数周或数月，耗资数百万美元。结果是一个基础模型，它理解语言，但尚未针对任何任务进行专业化。

为什么重要： 预训练使得基础模型成为可能。这也是为什么只有少数公司能够创建前沿模型 — 计算成本极其高昂。所有其他内容（微调、RLHF、提示技术）都基于此基础。

提示词工程

使用AI

通过精心设计输入以获得更好的AI模型输出的实践。这包括从简单技巧（明确具体、提供示例）到高级方法（思维链、少量示例提示、角色分配）的范围。尽管名称听起来很花哨，但本质上是与统计系统进行清晰沟通的问题。

为什么重要：

相同的模型根据提问方式不同可能会产生截然不同的结果。优秀的提示工程是提升AI输出质量最经济的方式——无需训练，无需微调，只需更有效的沟通。

困惑度
PPL、Perplexity

基础

衡量模型预测文本能力的指标。等于exp(平均交叉熵损失)。代表“模型在多少个token之间做选择”。越低越好。

为什么重要： 比较原始文本建模能力的最基础指标。但不衡量有用性或安全性。

A measurement of how well a language model predicts text. Represents how many tokens the model is choosing between at each step. Lower = better predictions.

Why it matters: The most fundamental metric for comparing language models. But perplexity alone doesn't tell you if a model is helpful or safe.

提示缓存
上下文缓存、前缀缓存

使用AI

一种在多次 API 调用间保存并复用已处理的提示前缀的技术，避免重复计算，同时降低延迟和成本。

为什么重要： 提示缓存可以将输入 token 成本降低 50–90%，并显著减少首个 token 的响应时间。

提示注入
间接提示注入

安全

一种将恶意指令嵌入 AI 模型处理的内容中的攻击方式，导致模型执行攻击者的指令而非用户的指令。

为什么重要： 提示注入是 AI 应用中最关键的安全漏洞。目前没有完整的解决方案。

精确率与召回率
F1 分数、混淆矩阵

基础

评估分类器的两个互补指标。精确率衡量正确标记的比例，召回率衡量找到的实际正例比例。

为什么重要： 单独的准确率具有误导性。精确率和召回率揭示了每个生产分类系统都基于的权衡。

强化学习
RL

训练

一种训练范式，其中AI代理通过与环境互动、采取行动并接收奖励或惩罚来学习。与监督学习（从带标签的示例中学习）不同，强化学习（Reinforcement Learning, RL）通过试错从经验中学习。强化学习训练出的AlphaGo击败了世界冠军，教会机器人行走，并且是RLHF中的“RL”，使聊天机器人更有帮助。

为什么重要：

强化学习是AI学习如何行动，而不仅仅是预测的方法。它是能够回答问题的模型与能够完成目标的智能体之间的桥梁。所有随时间推移进行规划、制定策略或优化的AI系统，其根源中必然包含强化学习。

推理
AI 推理、思维链推理

使用AI

AI模型逐步思考、分解复杂问题并得出逻辑严谨结论的能力。现代推理模型（如OpenAI的o1/o3和DeepSeek-R1）在回答前会生成明确的推理过程，显著提升了数学、编程和逻辑任务的表现。这与简单的模式匹配不同——推理模型能够解决前所未见的问题。

为什么重要： 推理是区分“听起来聪明的AI”—与“真正聪明的AI”的关键能力。具备良好推理能力的模型可以调试代码、证明定理、制定多步骤策略，并发现并纠正自己的错误。目前，具备和不具备强大推理能力的模型之间的差距，是人工智能领域中最重要的质量区分因素。

Resemble AI
语音克隆、语音合成、水印技术

公司

加拿大语音AI公司，专注于高保真语音克隆和实时语音合成。该公司是首批推出神经音频水印技术用于深伪检测的企业之一，自创业之初便高度重视语音克隆技术可能引发的伦理问题。

为什么重要：

Resemble AI 之所以重要，是因为他们很早就意识到，缺乏安全基础设施的语音克隆是一种隐患，而非产品。通过在推出语音合成工具的同时，也推出深度伪造检测和神经水印技术，他们为负责任的语音AI树立了典范，如今整个行业都在争相效仿。随着全球对合成媒体的监管不断加严，Resemble 在来源验证和同意验证方面的先发优势，使其成为企业真正可以信赖的语音AI公司。

Reka
Reka Core、Reka Flash

公司

由前DeepMind、Google Brain和FAIR研究人员创立的AI研究公司。正在构建原生多模态模型，能够从零开始处理文本、图像、视频和音频。

为什么重要：

Reka证明了一个拥有合适背景的小型研究团队无需数十亿美元的资金即可构建前沿级多模态模型——并且从零开始训练的原生多模态架构可以优于大多数大型实验室采用的拼接式方法。他们从成立到被Snowflake收购的快速轨迹也揭示了企业数据平台如今对AI人才的强大吸引力，这表明多模态AI的未来可能存在于数据基础设施公司，而非独立研究实验室中。

Recraft
Recraft V3、矢量图形生成

公司

专注于专业级图像和矢量图形生成的AI设计工具。首批能够生成真正可用设计素材的工具之一——SVG、品牌一致的样式以及设计师真正想要使用的可直接用于生产的输出。

为什么重要：

Recraft 是一家罕见的人工智能公司，专注于为专业设计师而非病毒式社交媒体时刻而建，并证明了这种方法可以产生最先进的成果。他们对生产就绪输出的专注——干净的矢量图、品牌一致性、透明背景——填补了其他图像生成公司尚未认真解决的空白，使他们成为行业中最接近真正设计工具的存在，而非仅仅是一件艺术玩具。

Runway
Gen-1、Gen-2、Gen-3 Alpha

公司

领先的AI视频生成公司。与他人共同创建了最初的Stable Diffusion架构，随后转向视频领域，其Gen系列模型为AI影视制作工具设定了行业标杆。

为什么重要：

Runway 是将 AI 视频生成从研究探索转变为电影制作工具的公司，以不断推出模型的速度保持领先地位，即使资金雄厚的竞争对手进入该领域。他们以创意工具为核心的理念——源自艺术家而非仅工程师——使他们对专业工作流程的理解是纯研究实验室难以复制的，而他们选择构建综合平台而非仅仅一个模型的策略，可能证明是正确的长期布局。

RAG
检索增强生成

工具

一种通过在生成响应前检索相关文档，从而使AI模型获取外部知识的技术。与仅依赖模型在训练期间学到的内容不同，RAG会搜索知识库，找到相关片段，并将其作为上下文包含在提示中。

为什么重要： RAG 解决了两个主要问题：幻觉（模型有真实的来源可以参考）和知识截止（知识库可以在不重新训练的情况下更新）。这就是大多数企业AI实际运作的方式。

速率限制

基础设施

每分钟/每小时/每天可进行的API请求次数限制。提供商实施速率限制以防止服务器过载并确保公平访问。限制通常针对每个API密钥，并可能限制每分钟请求数（RPM）和每分钟令牌数（TPM）。

为什么重要：

速率限制是你在扩展AI应用时遇到的无形天花板。它们解释了为什么批量处理很重要，为什么你需要重试逻辑，以及为什么一些提供商对更高的速率限制收取更多费用。

红队测试

安全

故意尝试让AI模型失效、行为异常或产生有害输出的做法。红队会探测漏洞：越狱、偏见、生成错误信息、隐私泄露。该术语源自军事推演，其中“红队”扮演对手角色。

为什么重要： 你无法修复你不知道的问题。红队测试是提供商发现其模型会在你要求它“写一个关于锁匠的故事”时，解释如何开锁的方法。这是在每次重大模型发布前必须进行的关键安全工作。

RLHF
基于人类反馈的强化学习

训练

一种训练技术，由人类评估者根据输出质量对模型输出进行排序，此反馈用于训练一个奖励模型，引导AI生成更优质的响应。这正是将原始预训练模型（仅预测下一个词）转变为有帮助且无害助手的关键。

为什么重要： RLHF 是让 ChatGPT 与 GPT-3 显得不同的关键因素。基础模型已经“知道”一切，但 RLHF 教会了它以人类实际认为有用的方式呈现这些知识。这也是强化安全行为的方法。

RNN
循环神经网络、LSTM、GRU

模型

一种通过维护隐藏状态来处理序列的神经网络，该隐藏状态在每一步都会更新——它“记住”到目前为止看到的内容。LSTM和GRU是改进的变体，解决了原始RNN容易遗忘长距离依赖的问题。在2018至2020年Transformer取代它们之前，RNN主导了NLP和语音识别领域。

为什么重要： RNN是现代语言模型的前身。理解它们为什么失败（缓慢的顺序处理、长距离依赖困难）可以解释Transformer为什么成功（并行处理、对所有位置的注意力）。SSM/Mamba架构在某种程度上是对RNN理念的回归，只是加入了现代的改进。

A neural network that processes sequences by maintaining a hidden state that gets updated at each step — it "remembers" what it's seen so far. LSTMs and GRUs are improved variants that solve the original RNN's tendency to forget long-range dependencies. RNNs dominated NLP and speech before Transformers replaced them around 2018–2020.

Why it matters: RNNs are the ancestors of modern language models. Understanding why they failed (slow sequential processing, difficulty with long-range dependencies) explains why Transformers succeeded (parallel processing, attention over all positions). The SSM/Mamba architecture is, in some ways, a return to the RNN idea with modern fixes.

奖励模型
RM、偏好模型

训练

一种经过训练来预测人类对 AI 回复偏好的模型。它是 RLHF 流程中人类判断的学习代理。

为什么重要： 奖励模型是使 RLHF 运作的关键组件。它的质量直接决定了对齐的质量。

检索
信息检索、IR

基础

从大型集合中根据查询找到相关文档、段落或数据的过程。它是 RAG 中的“R”。

为什么重要： 检索使 LLM 在现实世界应用中变得实用。检索流水线的质量直接决定 RAG 系统的质量。

谄媚行为
AI 谄媚、过度迎合

安全

AI模型倾向于告诉用户他们想听的，而不是事实真相。谄媚型模型会同意错误的前提，验证错误的想法，即使最初是正确的，当被质疑时也会改变立场，并优先考虑被喜欢而非提供帮助。谄媚是RLHF训练的直接副作用——模型学会同意的回应会从人类评估者那里获得更高的评分，因此它们优化的是同意而非准确性。

为什么重要： 谄媚是AI中最隐蔽的失败模式之一，因为它对被奉承的用户来说是不可见的。如果你问一个模型“这不是一个绝妙的商业点子吗？”而它总是回答“是的”，那么你得到的是一面镜子，而非顾问。对抗谄媚是对齐研究的活跃领域，这也是为什么最好的模型会在需要时被训练成礼貌地提出不同意见。

随机鹦鹉

安全

对大型语言模型的批评认为，它们仅仅是复杂的模式匹配器，通过拼接看似合理的文本而并不具备对意义的理解。这一术语由艾米丽·班德（Emily Bender）、蒂米特·格布鲁（Timnit Gebru）及其同事在其具有影响力的2021年论文《On the Dangers of Stochastic Parrots》中提出，该论文警告称，大型语言模型会从训练数据中编码偏见，消耗巨大资源，并制造出一种理解的幻觉，使用户误以为它们比实际情况更值得信赖。

为什么重要： “随机鹦鹉”争论触及AI实际上“理解”什么的核心。大型语言模型（LLMs）是否真正进行推理，还是仅仅擅长统计模仿，这影响着我们如何部署它们、我们对其输出的信任程度以及如何监管它们。这也是批评者评估每项新能力声明的视角——这究竟是真正的进步，还是更会模仿的鹦鹉？

AI 垃圾内容
AI Slop、生成式垃圾内容

安全

低质量、通用、不受欢迎的人工智能生成内容，充斥着互联网。该术语于2024年出现，用作对劣质人工智能文本、图像和视频泛滥成灾的贬义词，这些内容污染了搜索结果、社交媒体信息流和在线市场。Slop是人工智能内容的垃圾邮件等价物——从技术上讲是“内容”，但毫无价值，通常与其他Slop难以区分，并且会降低其接触的每个平台的质量。例如，LinkedIn上以“在当今快节奏的世界中”开头的帖子，六指手的股票照片，或2000字却毫无内容的SEO文章。

为什么重要： 劣质内容是内容生成免费化的环境成本。当任何人可以在几分钟内生成1000篇博客文章或10000张产品图片时，内容创作的经济模式崩溃——质量也随之崩溃。劣质内容正是平台竞相开发AI检测工具的原因，也是谷歌不断更新搜索算法的原因，更是“人工创作”逐渐成为卖点的原因。它也是对“AI将民主化创意”这一天真观点最有力的反驳。

阶跃星辰
Step 系列模型、多模态 AI

公司

中国AI初创公司正在构建具有竞争力的大型语言模型和多模态模型。他们的Step系列在国际基准测试中表现出色，得益于大量的计算资源投入。

为什么重要：

StepFun证明了中国的AI生态系统能够从零开始培育出真正的竞争对手，而不仅仅是依赖现有的科技巨头。他们的Step模型在国际基准测试中始终表现超出其体量，而他们快速扩展到多模态和视频生成领域，也表明组织良好的初创公司即使资源相对有限，也能覆盖广泛的能力范围。对于全球AI市场而言，StepFun代表了那种让中国独立AI初创企业生态无法被忽视的公司——技术实力强劲、面向国际市场，并且发展速度足够快，足以让许多规模更大的竞争对手保持警惕。

SambaNova
SN40L 芯片、超快速推理

公司

一家设计定制芯片（RDUs）的人工智能硬件公司，这些芯片专为人工智能工作负载打造。其SambaNova Cloud提供了目前最快的推理速度之一，与Groq在人工智能服务的“以速度优先”方法上展开竞争。

为什么重要：

SambaNova 的重要性在于，NVIDIA 不应是 AI 计算领域的唯一主导者，必须有人证明专用 AI 芯片能够在实际市场中竞争，而不仅仅停留在研究论文中。他们的 RDU 架构表明，当硅芯片专门针对神经网络工作负载进行设计时，可以实现显著的性能提升，而他们的云推理服务则让开发者一窥后 GPU 时代 AI 基础设施的可能形态。无论 SambaNova 本身是否成为主导替代方案，它与 Groq、Cerebras 以及云服务商定制芯片所施加的竞争压力——对于一个无法承受永久硬件单一化的行业来说——都是有益的。

Sarvam AI
Sarvam 模型、印度语言 AI

公司

印度人工智能公司正在构建专门针对印度语言多样性进行优化的模型。他们的模型能够以全球模型始终难以达到的流畅度处理印地语、泰米尔语、泰卢固语、孟加拉语等印度语言。

为什么重要：

在很大程度上被全球人工智能行业忽视的一个问题，Sarvam AI 提供了最可信的答案：谁来为全球五分之一人口实际使用的语言构建基础模型？凭借在印度人工智能研究社区、政府机构的深厚根基，以及专为印度语言多样性打造的产品架构，Sarvam 既代表了商业机遇，也是一项战略要务。他们的成功或失败将表明人工智能革命是否真正实现全球化，还是仅仅停留在以英语为主的现象，强行附加翻译。

Stability AI
Stable Diffusion、SDXL、Stable Audio

公司

通过在2022年将Stable Diffusion作为开源项目发布而推动图像生成技术大众化的公司。尽管经历了领导层动荡，他们的模型仍然是开源图像生成生态系统中的支柱。

为什么重要：

Stability AI通过发布Stable Diffusion点燃了开源图像生成革命，创建了一个由数千个衍生模型、工具和创意应用组成的生态系统，这是任何封闭平台都无法匹敌的。即使经历了领导层变动和财务动荡，他们的基础理念——生成式AI应为所有人所用，而不仅仅是那些能负担得起API调用的人——彻底重塑了整个行业，并为开源AI公司的运营方式设定了模板。

Suno
AI 音乐生成

公司

一家AI音乐生成公司，允许任何人通过文本提示创建完整的歌曲—人声、乐器、制作—。在数月内从默默无闻发展到拥有数百万用户，迫使音乐行业正视AI创造力的冲击。

为什么重要：

Suno证明了AI可以通过纯文本提示生成完整且可聆听的歌曲，一夜之间创造了一种全新的创意工具类别。他们正处于生成式AI领域最具影响力的版权之争的核心，RIAA诉讼的结果很可能为所有模态中训练数据权利的运作方式设定先例。更广泛地说，他们代表了最严峻的考验，即民主化创意工具究竟是扩展了人类表达，还是削弱了支撑专业艺术家的经济基础。

状态空间模型
SSM、Mamba

模型

一种替代Transformers的模型，通过维护一个压缩的“状态”来处理序列，而不是对所有token使用注意力机制。Mamba是最著名的SSM架构。SSM的计算复杂度随序列长度线性扩展（而注意力机制是二次方扩展），这使得它们在处理非常长的上下文时可能效率高得多。

为什么重要： SSMs 是 Transformer 主导地位的主要挑战者。它们在处理长序列时速度更快，并且占用更少的内存，但相关研究仍处于成熟阶段。混合架构（将 SSM 层与注意力机制结合）可能会成为兼具两者优势的最佳方案。

系统提示词
系统消息

使用AI

在对话开始时给予模型的特殊指令，用于设定其行为、性格和规则。与用户消息不同，系统提示应具有持久性和权威性—它定义了本次会话中模型的身份。“你是一个乐于助人的编码助手。始终使用TypeScript。”

为什么重要： 系统提示是无需微调即可定制AI行为的主要工具。它们就是企业让Claude扮演客服代理、代码审查员或医疗信息助手的方式—相同模型，不同系统提示。

缩放定律
神经网络缩放定律、Chinchilla

基础

幂律关系表明，性能会随着模型大小、数据集大小和计算量的增加而可预测地提升。你可以在花费数百万之前就估算出性能。

为什么重要： 将训练从猜测变成了工程。解释了AI军备竞赛的原因：计算投入的回报是可预测的，这驱动了越来越大的计算集群。

Empirical power-law relationships: model performance improves predictably with more parameters, data, and compute. You can estimate how good a model will be before spending millions training it.

Why it matters: Scaling laws turned training from guesswork into engineering. They also explain the AI arms race: predictable returns on compute investment drive ever-larger clusters.

语义搜索
向量搜索、神经搜索

使用AI

基于语义而非精确关键词匹配来查找结果的搜索方式。它的工作原理是将文本转换为嵌入向量，然后在向量空间中找到最接近的匹配项。

为什么重要： 语义搜索是现代搜索与关键词搜索相比如此强大的原因。它支撑着 RAG 系统、文档搜索和电商产品发现。

稀疏注意力
局部注意力、滑动窗口注意力

模型

只处理 token 对的子集而非完整注意力矩阵的注意力机制，降低长序列的二次方成本。

为什么重要： 稀疏注意力是高效模型在不承担密集注意力全部成本的情况下处理长序列的方式。

采样
解码策略、Top-p、Top-k

基础

从模型预测的概率分布中选择生成下一个 token 的过程。温度、top-p 和 top-k 是控制随机性的参数。

为什么重要： 采样参数是控制 LLM 行为最便捷的旋钮。不同的任务需要不同的采样策略。

腾讯
混元大模型、微信、游戏 AI

公司

微信背后的中国科技巨头，全球最大的游戏公司之一，同时在生成式人工智能领域日益成为一股重要力量。其伏羲模型驱动着腾讯庞大生态系统中的各项功能，服务超过十亿用户。

为什么重要： 腾讯在AI领域的重要性与在其他领域一样，源于其规模和分布能力。微信拥有13亿用户，游戏帝国覆盖所有主要平台，腾讯能够比地球上几乎所有公司更快地将AI功能部署给更多人。他们的混元模型，尤其是混元视频，证明了大型企业集团的AI实验室可以产出真正具有竞争力的作品，而不仅仅是可用的内部工具。对于全球AI生态系统而言，腾讯对视频和语言模型的开源发布提高了免费可用技术的基准线，而其基础设施投资确保了即使在芯片出口限制下，中国的AI能力依然强大。

Twelve Labs
视频检索、Pegasus、Marengo

公司

视频理解公司，让您可以通过自然语言搜索、分析和生成视频内容。可以将其视为“视频的RAG”—他们的模型理解视频内容的方式，就像大型语言模型（LLM）理解文本一样。

为什么重要： Twelve Labs 正在构建基础架构，使全球视频内容实现机器可读。在视频主导数字通信的时代，但AI仍难以对其进行搜索—他们的专用嵌入和生成模型解决了连最前沿的实验室也仅浅尝辄止的问题。如果视频是互联网的主要媒介，那么能在生产规模上破解视频理解的人，将占据堪比谷歌搜索在文本领域所处的战略地位。

Tripo
文本转 3D、图像转 3D

公司

专注于从文本或图像生成3D模型的人工智能公司。在大多数3D生成技术仅能产出不可用的模糊块的领域中，Tripo凭借能够生成干净、可直接用于生产的网格模型而脱颖而出，这些模型真正可供游戏开发者和设计师使用。

为什么重要：

Tripo 代表着将人工智能生成的3D内容真正应用于生产环节的最前沿。尽管大多数AI生成的3D内容仍需大量手动清理，Tripo 坚持不懈地专注于网格质量、正确的拓扑结构，以及与真实工作流程的整合——这些不那么吸引眼球的工程，正是将研究演示与专业人士愿意付费的工具区分开来的关键。随着空间计算和实时3D内容需求激增，率先解决生产级生成问题的公司将抢占巨大的市场份额。

温度

使用AI

一个控制模型输出随机性或确定性的参数。温度值为0时，模型始终选择概率最高的下一个token（确定性，专注）。温度值为1+时，模型更倾向于选择概率较低的token（创造性，不可预测）。大多数API默认值约为0.7。

为什么重要：

温度是创意调节器。写小说？调高。生成代码或事实性答案？调低。这是你可以调整的最具影响力的参数之一，而且实验成本为零。

Token

基础

AI模型处理文本的基本单位。一个token通常是一个词或词的一部分—"understanding"可能是一个token，而"un" + "der" + "standing"可能有三个。平均来说，一个token大约相当于英语中一个词的3/4长度。模型在读取、思考和计费时都以token为单位。

为什么重要：

Token 是 AI 的货币。上下文窗口以 token 为单位进行衡量。API 定价按 token 计算。当提供商提到 “1M 上下文” 时，他们指的是 100 万个 token—大约 75 万字。理解 token 有助于您估算成本并优化使用。

工具使用
函数调用

工具

AI模型在对话过程中调用外部函数或工具的能力。与其仅仅生成文本，模型可以决定进行网络搜索、运行代码、查询数据库或调用API—然后将结果整合到其响应中。模型输出一个结构化的“工具调用”，由主机应用程序执行。

为什么重要： 工具使用是使AI模型在对话之外真正有用的关键。它是代码解释器、网络浏览AI和每个AI代理背后的机制。没有它，模型将局限于其训练数据中的内容。

Transformer

模型

几乎所有现代大型语言模型（LLMs）以及许多图像和音频模型背后都使用了这种神经网络架构。由Google在2017年的论文“Attention Is All You Need”中首次提出，Transformer通过自注意力机制同时处理输入的所有部分，而非按顺序处理，从而在训练过程中实现大规模并行计算。

为什么重要：

Transformer 是使当前 AI 热潮成为可能的架构。GPT、Claude、Gemini、Llama、Mistral — 它们实际上都是基于 Transformer 架构构建的。理解这一架构有助于你理解为什么这些模型具有它们所具备的能力和局限性。

分词器
Tokenizer、Tokenization

基础

将原始文本转换为模型可以处理的token的算法。分词器维护一个固定的token类型词汇表，并将任何输入文本拆分为该词汇表中的token序列。不同的模型使用不同的分词器——同一句话在Claude、GPT和Llama中的分词结果不同，这会影响上下文使用量和成本。

为什么重要： 分词器是你的文本和模型之间看不见的层。它决定了你的提示词消耗多少token、为什么有些语言比其他语言更昂贵、以及为什么代码有时比散文更快地消耗上下文。当你触及上下文限制或遇到意外的API费用时，分词器通常就是答案。

The algorithm converting raw text into tokens before the model sees it. Different models use different tokenizers — the same sentence tokenizes differently for Claude, GPT, and Llama.

Why it matters: The invisible layer between your text and the model. Determines why some languages cost more, why code uses context faster than prose, and why you hit unexpected context limits.

语音 AI
语音 AI、对话式 AI

工具

用于生成、理解及操控人类语音的人工智能系统。这包括文本到语音（TTS）、语音到文本（STT/ASR）、声音克隆、实时语音翻译、语音情感识别以及对话式语音代理。该领域已发展到人工智能生成的语音通常与人类语音难以区分的程度。

为什么重要：

语音是最自然的人类界面，而AI终于使其变得可编程。语音AI驱动了从客服机器人到有声书朗读再到实时会议转录的一切应用。声音克隆—知情同意、身份、欺诈—的伦理影响，使其成为人工智能领域中最敏感的领域之一。

Vidu
Vidu 视频生成、长片段连贯性

公司

生数科技推出的视频生成平台，能够生成一些物理上连贯的AI生成视频。凭借出色的运动质量和多镜头一致性，与西方竞争对手相媲美。

为什么重要： Vidu证明了中国AI实验室能够在Sora发布数月内就达到与西方相当的视频生成质量，颠覆了关于AI视频领域技术前沿实际所在位置的假设。他们对物理一致性和多镜头一致性的专注推动了整个领域的发展，迫使竞争对手将真实感置于视觉表现之上。对于更广泛的AI视频市场而言，Vidu激进的定价策略和API的可用性也帮助降低了成本，提高了全球开发者的获取便利性。

Voyage AI
voyage-3、领域专用 embedding

公司

嵌入模型公司构建针对代码、法律、金融和多语言搜索的专用向量。其模型在MTEB排行榜上始终名列前茅，并通过API提供业内领先的检索质量。

为什么重要： Voyage AI证明了嵌入模型值得与大语言模型（LLM）一样获得同等的工程关注和投资。在大多数供应商将向量表示视为低利润工具的市场中，Voyage展示了领域特定的嵌入模型可以显著提高检索准确性——这是生产环境中RAG系统最重要的杠杆。他们被谷歌收购验证了这样一个论点：掌握嵌入层的人就掌控了人工智能搜索基础设施的基础。

向量数据库
Qdrant、Pinecone、Weaviate、ChromaDB

工具

一种优化用于存储和搜索嵌入（向量）的数据库。与传统数据库通过匹配精确关键词不同，向量数据库能够找到语义上最相似的条目。当你询问“如何修复内存泄漏”时，它会返回关于“调试RAM消耗”的文档，因为它们的嵌入向量相近。

为什么重要： 向量数据库是使RAG得以实现的存储层。没有它们，每次查询时都需要将整个知识库进行嵌入。它们也是推荐系统和语义搜索的核心支撑。

VRAM
显存、GPU 内存

基础设施

GPU上的内存，与系统RAM分开。AI模型必须适合VRAM才能在GPU上运行。一个70亿参数、16位精度的模型需要约14GB的VRAM。消费级GPU有8-24GB；数据中心GPU（A100、H100）有40-80GB。VRAM几乎总是本地AI的瓶颈。

为什么重要： VRAM决定了你可以运行的模型。这就是为什么存在量化（将模型缩小以适应），为什么MoE模型很棘手（所有专家都必须装入VRAM），以及为什么GPU价格与内存容量呈陡峭增长。“它能否装入VRAM？”是自托管AI的第一个问题。

视频生成
文本到视频、AI 视频

基础

使用 AI 模型从文本描述、图像或其他视频创建视频。生成式 AI 的前沿领域。

为什么重要： 视频生成是生成式 AI 的前沿——最困难的模态，也是商业潜力最大的模态。

词汇表
词表、Token词汇表

基础

模型能够识别和生成的固定token集合。词汇表在训练期间由分词器构建，通常包含32K到128K个条目——常见词、子词片段、单个字符和特殊token。模型处理的任何文本都必须可表示为该词汇表中的token序列。不在词汇表中的token会被分解为更小的、在词汇表中存在的片段。

为什么重要： 词汇表决定了模型能“看到”什么。主要以英语训练的词汇表将高效处理英语（每个词一个token），但可能将中文、阿拉伯语或代码分割成许多小token（昂贵、较慢、上下文更少）。词汇表设计是模型开发中最具影响力却最少被讨论的决策之一。

视觉
多模态视觉、图像理解

使用

语言模型理解和推理图像与文本的能力。你发送一张照片并问“这张图像里有什么？”或上传一个图表并问“总结趋势。”具有视觉能力的模型（Claude、GPT-4V、Gemini）将图像编码为token，语言模型将其与文本token一起处理，实现统一的文本和图像推理。

为什么重要： 视觉改变了LLM的能力范围。与其用文字描述一个bug，不如截图。与其打出一个表格，不如拍照。与其解释一个图表，不如分享它。视觉使AI能够处理仅靠文本不足以应对的任务——而这是大多数现实世界的任务。它是日常用户最有影响力的多模态能力。

Vision Transformer
ViT

A Transformer architecture applied to images by splitting an image into fixed-size patches (e.g., 16×16 pixels), treating each patch as a "token," and processing the sequence of patches with standard Transformer attention. ViT (Dosovitskiy et al., 2020) showed that Transformers could match or exceed CNNs on image tasks when trained on enough data, unifying the architectures for language and vision.

Why it matters: ViT proved that the Transformer is a universal architecture — not just for text but for images too. This unification enabled the explosion of multimodal models: if images and text are both sequences of tokens processed by the same architecture, combining them becomes natural. ViT is the image encoder in CLIP, the backbone of DiT, and the foundation of modern computer vision.

vLLM

An open-source LLM serving engine that achieves high throughput through PagedAttention and continuous batching. vLLM handles the complex engineering of GPU memory management, request scheduling, and KV cache optimization, providing an OpenAI-compatible API that makes it easy to self-host open models (Llama, Mistral, Qwen) in production.

Why it matters: vLLM is the most popular open-source LLM serving solution. If you're self-hosting an open model, you're probably using vLLM (or should be). Its PagedAttention innovation increased serving throughput by 2–24x compared to naive implementations. It's the infrastructure layer that makes open models practical for production use.

语音克隆
语音合成、语音复制

使用AI

从简短的音频样本创建特定人声音的合成副本，使文本转语音听起来像那个人。现代系统（ElevenLabs、PlayHT、Resemble AI）可以从短至15秒的音频以惊人的保真度克隆声音，捕捉音调、口音、说话风格和情感范围。

为什么重要： 语音克隆实现了强大的创意和无障碍应用：以演员自己的声音跨语言配音电影、保存正在失去说话能力的人（ALS患者）的声音、创建一致的品牌语音，以及个性化AI助手。它也造成了严重的风险：冒充家人的电话诈骗、公众人物的虚假音频，以及未经同意的语音复制。

验证集
开发集、保留集

训练

从训练中保留的数据子集，用于在开发过程中评估模型性能和调整超参数。三分法：训练集训练模型，验证集指导关于模型的决策（学习率、架构、何时停止），测试集提供最终的无偏性能估计。验证集是你在开发过程中的镜子。

为什么重要： 没有验证集，你就是在盲飞。训练损失告诉你模型拟合训练数据的程度，但不能告诉你泛化能力如何。验证集回答的是真正重要的问题：“这个模型在未见过的数据上会表现如何？”模型开发过程中的每一个决策——超参数、架构选择、训练时长——都应该在验证集上评估。

AI Wiki