Zubnet AI学习 › Wiki

AI Wiki

AI概念,由建造者解释,而非教科书。没有术语墙。没有学术门槛。清晰、实用的定义。

324 术语 8 分类 2026年4月更新
💡
每日术语
Loading...
🧭 学习路径
入门
我刚接触AI
AIChatbotPromptLLMTokenContext WindowHallucination
开发者
我在构建AI应用
APIStructured OutputStreamingFunction CallingRAGSemantic SearchModel Serving
深入理解
AI到底是怎么工作的?
NeuronLayerActivation FunctionGradient DescentTransformerAttentionAutoregressive
本地AI
在我的电脑上运行AI
Open WeightsQuantizationGGUFllama.cppOllamaVRAMEdge AI
安全
AI安全与对齐
AlignmentGuardrailsRed TeamingPrompt InjectionConstitutional AIAI EthicsAI Regulation
ML工程师
我想训练模型
DatasetLoss FunctionTransfer LearningFine-TuningLoRARLHFDPO
未找到匹配的术语。
A
ASI
人工超级智能
基础
一种理论上在几乎所有领域(科学推理、社会智能、创造力、战略规划等)超越人类认知能力的人工智能系统——人工超级智能(ASI)。ASI超越了人工通用智能(AGI,与人类智能相当),进入一个质的飞跃:一种能够自我递归改进并解决人类甚至无法表述的问题的智能。目前尚无任何ASI存在,科学界也尚未就是否能够或将会构建出ASI达成共识。
为什么重要: ASI是AI安全演变为存在性问题的地方。如果你认为超级智能是可能的,对齐不仅仅是让聊天机器人有礼貌—它关乎确保一个比全人类都聪明的系统仍然符合我们的利益。这具有推测性,但风险足够高,以至于严肃的研究者对此非常重视。理解ASI能帮助你以更细致的方式评估关于AI风险的主张。
AGI
通用人工智能
基础
一种假想的人工智能系统,能够理解、学习并执行人类可以完成的任何智力任务——具备在无需针对每个领域进行专门训练的情况下跨领域迁移知识的能力。与当前擅长狭窄任务(生成文本、分类图像)的人工智能不同,通用人工智能(AGI)将能够处理新颖情境、进行抽象推理,并适应任何挑战。AGI是否即将到来、需要数十年时间,或是根本不可能实现,是该领域最具争议的辩论。
为什么重要: AGI是整个AI行业的北极星(或梦魇)。它推动数十亿美元的投资,影响安全研究的重点,并主导政策辩论。无论你是否认为AGI已经临近,这一概念决定了Anthropic、OpenAI和DeepMind等公司如何界定其使命—而理解这场辩论能帮助你区分真正的进展与炒作。
AI 编程助手
代码 Copilot、AI IDE
工具

帮助开发者编写、审查、调试和部署代码的人工智能工具。从自动补全(GitHub Copilot、Codeium)到完全自主开发(Claude Code、Cursor、Devin),程序编写助手已成为大型语言模型(LLMs)最成熟且应用最广泛的应用之一。它们通过根据你的代码库、文档和指令提供的上下文来预测代码的下一个标记。

为什么重要: AI代码助手是人工智能对知识工作影响的最尖锐边缘。使用它们的开发者报告称,在常规任务上的效率提升了30-50%。但它们也会产生不存在的API幻觉,引入隐蔽的错误,并可能使开发者依赖于他们并不完全理解的工具。
自动化
AI 自动化、工作流自动化
工具

利用AI执行以前需要人工干预的任务。这包括从简单的自动化(自动分类电子邮件、生成报告)到复杂的自主工作流程(AI代理进行研究、编写、测试和部署代码)。从传统自动化(严格规则)向AI自动化(灵活智能)的关键转变在于,AI能够处理模糊的、非结构化的任务。

为什么重要:

自动化是人工智能应用的经济驱动力。每一家购买人工智能的企业实际上是在购买自动化—更少的人从事重复性工作,更快的处理速度,全天候运作。问题不在于人工智能是否会自动化任务,而在于哪些任务、多快,以及那些曾经从事这些工作的人会怎样。

AI 网络安全
AI 安全、AI 威胁检测
安全
AI在网络安全中的双重应用:使用AI来防御系统(威胁检测、异常检测、自动化事件响应)—以及AI创造的新攻击手段(AI生成的钓鱼攻击、自动化漏洞发现、针对机器学习系统的对抗性攻击)。该领域正处于一场军备竞赛中,攻击者和防御者越来越依赖AI技术。
为什么重要: AI 使现有的网络威胁更快速、更低成本地实施—由大型语言模型(LLM)撰写的钓鱼邮件更具说服力,且无需任何成本即可个性化定制。但AI也能实现人工无法做到的防御手段,例如每秒分析数百万条网络事件以检测异常。不采用AI的安全团队将无法与使用AI的攻击者抗衡。
AI 治理
AI 监管、AI 政策
安全
指导人工智能开发、部署和使用方式的框架、政策、法律和组织实践。这包括政府监管(如欧盟AI法案、行政命令)、行业自律(如负责任的扩展政策、模型卡片)、企业治理(如AI伦理委员会、使用政策)以及国际间在人工智能安全标准方面的协调。
为什么重要: 技术发展速度远超监管规则。企业正以最少监管的方式将人工智能产品应用于医疗、司法和金融领域。治理旨在在问题严重到引发足以让整个领域倒退的反弹之前设定边界。
AI 隐私
AI 数据隐私、ML 隐私
安全
在不损害个人数据的前提下构建和使用人工智能系统所面临的挑战。这贯穿整个生命周期:可能包含私人信息的训练数据、能够记忆并复现个人细节的模型、跟踪用户行为的推理日志,以及人工智能能力(随着数据量增加而提升)与隐私权之间的根本性矛盾。
为什么重要: 每次与AI的对话都是数据。你生成的每张图片都暴露了你的提示词。你总结的每份文档都会经过某人的服务器。隐私不仅仅是法律上的勾选项(GDPR、CCPA)— 它是决定个人和企业是否会将AI用于敏感工作的信任问题。
AI 安全
LLM 安全、AI 安全工程
安全

保护AI系统免受对抗性攻击、数据投毒、提示注入、模型盗窃和滥用的实践—同时防范深度伪造和自动化网络攻击等AI驱动的威胁。AI安全位于传统网络安全与机器学习系统所引入的独特脆弱性的交汇点。

为什么重要:

人工智能系统既是强大的工具,也是新型的攻击面。一次提示注入可能使您的客服机器人泄露内部数据。一个被污染的训练数据集可能插入后门。随着人工智能在关键基础设施、医疗和金融领域的部署,安全不再是可选项——而是生存问题。

AI 定价
Token 定价、API 定价
基础设施

AI服务提供商如何对模型访问进行收费。主流模式是按令牌计费—您需为发送的输入令牌数和接收的输出令牌数付费,输出令牌通常比输入令牌贵3到5倍。其他模式包括按请求计费、月度订阅、承诺使用折扣和免费层级。价格战激烈,成本在两年内下降了10到100倍。

为什么重要: 定价决定了你能构建什么。每天进行10,000次API调用的应用程序,其成败取决于每token的成本。理解定价模型、比较供应商并优化token使用,是构建AI驱动产品人员的核心技能。
AI 基础设施
AI 基建、ML 基础设施
基础设施
用于大规模训练和部署AI模型所需的全栈硬件、软件和服务。这包括GPU和定制芯片、数据中心、网络、存储、编排平台(Kubernetes、Slurm)、模型服务框架(vLLM、TensorRT)以及将所有这些打包的云服务提供商。AI基础设施—连接模型架构的抽象世界与电网和冷却系统的具体世界。
为什么重要: 基础设施决定了可行的范围。之所以只有少数公司能够训练前沿模型,并不是因为缺乏创意——而是因为缺乏基础设施。而AI对终端用户所产生的成本则直接归因于GPU的可用性、数据中心的容量以及推理服务的效率。
AssemblyAI
Universal-2 语音识别、音频智能
公司
语音AI公司,打造面向开发者的友好型API,用于语音转文字、说话人识别及音频理解。其Universal-2模型在准确率上可与OpenAI Whisper媲美,同时开箱即用新增说话人分段、情感分析和主题识别等功能。
为什么重要:

AssemblyAI 使语音转文本技术真正易于开发者使用,将过去需要专门机器学习团队才能完成的任务压缩到一次 API 调用中。他们的音频智能技术栈 — 结合语音识别、说话人识别、情感分析和基于 LLM 的摘要生成 — 正在将原始音频转化为结构化、可操作的数据,其规模在两年前还难以实现。在语音逐渐成为 AI 代理默认交互界面的世界中,AssemblyAI 正在构建其他所有技术依赖的理解层。

Anthropic
Claude、宪法式 AI、MCP
公司

人工智能安全公司正在构建Claude。由前OpenAI研究员Dario和Daniela Amodei创立,Anthropic专注于开发可靠、可解释且可操控的人工智能系统。

为什么重要:

Anthropic 证明了一家人工智能公司可以以安全研究为先,同时在前沿领域竞争。他们的 Constitutional AI 方法影响了整个行业对对齐问题的思考方式,其 Responsible Scaling Policy 设定了一种模板,其他实验室以各种形式加以采用,而 Claude 已成为需要可靠性和谨慎处理敏感内容的企业首选模型。最重要的是,Anthropic 作为一家资金充足的竞争对手存在,确保通往AGI的竞争不是一家独大的局面——并且至少有一家主要参与者将安全融入其初创基因,而非事后添加的补丁。

阿里云
通义千问、Qwen 系列模型
公司
阿里巴巴集团的云计算部门及通义模型家族的创造者。通义模型具有全开放权重、多语言支持,是当前最强大的开源模型之一。
为什么重要:

阿里云已将通义千问打造为亚洲部署最广泛的开源模型家族,并成为与Meta的Llama真正具备全球竞争力的模型,证明具备前沿能力的模型可以来自硅谷以外。其开源模型发布、庞大的云基础设施以及ModelScope生态系统,为开发者——尤其是受美国出口管制影响的市场——提供了可信且高质量的西方AI平台替代选择。

智能体
AI Agent、智能代理
工具

一个能够自主规划并执行多步骤任务的AI系统,使用工具(网络搜索、代码执行、API调用)来实现目标。与只能一次回答一个问题的简单聊天机器人不同,代理会根据迄今为止所学到的内容决定下一步该做什么。

为什么重要:

智能代理是“会说话的AI”与“能做事的AI”之间的桥梁。当你的AI能够浏览文档、编写代码并进行测试,而无需你在每一步都手把手地指导——这就是一个智能代理。

安全
使AI系统的行为符合人类价值观和意图的挑战。对齐模型不仅执行您所说的,还会理解您的真实意图—即使没有明确被告知不要这样做,也能避免有害行为。
为什么重要: 一个在技术上非常出色但对齐性差的模型,就像一个天才员工却过于字面地遵循指示。对齐研究正是模型拒绝危险请求并努力真正提供帮助的原因。
API
应用程序编程接口
基础设施

软件之间通信的结构化方式。在AI领域,这通常意味着将请求(您的提示)发送到提供商的服务器,并接收响应(模型的输出)。REST API通过HTTPS是标准。

为什么重要:

每家AI提供商—Anthropic、Google、Mistral—都通过API提供其模型。如果你正在构建任何超出聊天窗口的AI应用,你就是在使用API。

注意力
注意力机制、自注意力
模型
Transformers 中的核心机制,使模型能够确定输入中哪些部分彼此最相关。与早期模型从左到右逐字阅读不同,注意力机制使每个词能够同时“审视”其他所有词,以理解上下文。
为什么重要:

注意力机制是现代大型语言模型(LLMs)能够理解“river bank”(河岸)与“bank account”(银行账户)中“bank”含义不同的原因。这也是为什么更长的上下文窗口成本更高—注意力机制的计算量与序列长度呈二次方增长。

自回归
自回归模型、下一token预测
基础
一种每次生成一个token的模型,每个新token都基于之前所有token来预测。每一个现代LLM——Claude、GPT、Llama、Gemini——都是自回归的。模型不会“规划”完整回复然后写出来;它实际上是预测下一个词,附加上去,然后再预测下一个,如此反复直到决定停止。
为什么重要: 理解自回归生成能解释大多数LLM行为:为什么回复一个token一个token地流式输出,为什么模型有时会在段落中间自我矛盾,为什么更长的输出更慢更贵,以及为什么你不能轻松要求模型“回去修改开头”。模型始终在向前推进,一次一个token。
A model that generates output one token at a time, where each new token is predicted based on all the tokens that came before it. Every modern LLM — Claude, GPT, Llama, Gemini — is autoregressive.
Why it matters: Understanding autoregressive generation explains most LLM behaviors: why responses stream token by token, why models sometimes contradict themselves, why longer outputs are slower, and why you can't ask a model to "go back and fix the beginning."
基础
AI 研究的资金、兴趣和进展下降的时期,发生在炒作和未能兑现的期望之后。历史上有两次重大 AI 寒冬。
为什么重要: 理解 AI 寒冬为评估当今的 AI 声明提供了必要的背景。突破、炒作、过度承诺的模式已重复两次。
自主智能体
AI 智能体、智能体式 AI
使用AI
一种能够以最少的人类监督独立规划、决策和执行多步任务的 AI 系统。
为什么重要: 自主智能体是聊天机器人和副驾驶之后的下一个演进。经济潜力巨大,但可靠性和安全性挑战仍然重大。
人工智能
AI、机器智能
基础
构建能够执行通常需要人类智能的任务的机器这一广泛领域——理解语言、识别图像、做出决策、解决问题。AI的范围从擅长某一特定任务的窄域系统(垃圾邮件过滤器、国际象棋引擎)到能够处理人类可完成的任何智力任务的通用智能这一宏大目标。
为什么重要: AI是涵盖本维基中所有其他概念的总称——机器学习、深度学习、LLM、计算机视觉、机器人技术。理解“AI”是一个从简单的基于规则的系统到前沿语言模型的光谱,能帮助你评估各种说法、识破炒作,并理解今天的系统究竟是什么:极其强大的模式匹配器,而非思考机器。
The broad field of building machines that can perform tasks typically requiring human intelligence — understanding language, recognizing images, making decisions, solving problems. AI ranges from narrow systems that excel at one specific task (spam filters, chess engines) to the aspirational goal of general intelligence that can handle any intellectual task a human can.
Why it matters: AI is the umbrella that covers everything else in this wiki — machine learning, deep learning, LLMs, computer vision, robotics. Understanding that "AI" is a spectrum from simple rule-based systems to frontier language models helps you evaluate claims, cut through hype, and understand what today's systems actually are: extraordinarily capable pattern matchers, not thinking machines.
激活函数
ReLU、GELU、SiLU、Swish
基础
应用于神经元输出的数学函数,为网络引入非线性。没有激活函数,无论多少层深的神经网络都只能学习线性关系。ReLU、GELU和SiLU/Swish是现代架构中最常见的激活函数。
为什么重要: 激活函数是深度学习能够工作的根本原因。一叠线性变换不过是一个大的线性变换而已。层与层之间的激活函数让网络能够学习复杂的非线性模式——那些使神经网络强大的曲线、边缘和微妙关系。
A mathematical function applied to a neuron's output that introduces non-linearity into the network. Without activation functions, a neural network — no matter how many layers deep — would only be able to learn linear relationships. ReLU, GELU, and SiLU/Swish are the most common in modern architectures.
Why it matters: Activation functions are the reason deep learning works at all. A stack of linear transformations is just one big linear transformation. Activation functions between layers let the network learn complex, non-linear patterns — the curves, edges, and subtle relationships that make neural networks powerful.
AI伦理
负责任的AI、道德AI
安全
对AI开发和部署引发的道德问题的研究:AI系统延续了哪些偏见?AI出错时谁会受到伤害?AI的决策应如何解释?当自主系统造成损害时谁应负责?AI伦理涵盖公平性、透明度、问责制、隐私和AI系统的社会影响。
为什么重要: AI系统影响着数十亿人在招聘、贷款、刑事司法、医疗保健和内容审核方面的决策。这些决策编码了价值观——包含了谁的数据、优化了什么结果、咨询了谁。AI伦理不是一个抽象的哲学练习;它是关于AI系统是使世界更公平还是更不公平的实际问题。
The study of moral questions raised by AI development and deployment: What biases do AI systems perpetuate? Who is harmed when AI makes mistakes? How should AI decisions be explained? Who is responsible when an autonomous system causes damage? AI ethics encompasses fairness, transparency, accountability, privacy, and the societal impact of AI systems.
Why it matters: AI systems make decisions affecting hiring, lending, criminal justice, healthcare, and content moderation for billions of people. These decisions encode values — whose data was included, what outcomes were optimized for, who was consulted. AI ethics isn't an abstract philosophical exercise; it's the practical question of whether AI systems make the world more fair or less.
AI监管
欧盟AI法案、AI政策
安全
管理AI系统开发和部署的法律和政策。欧盟AI法案(2024年)是最全面的,按风险等级对AI系统进行分类并相应施加要求。美国采取了更针对具体行业的方法,通过行政命令和机构指南来推进。中国有针对生成式AI、深度伪造和推荐算法的法规。
为什么重要: 监管塑造了AI公司可以构建什么、必须如何构建以及必须披露什么。欧盟AI法案影响任何服务欧洲用户的公司。理解监管环境对于任何构建或部署AI的人来说越来越必要——不合规可能意味着罚款、禁令或法律责任。
Laws and policies governing the development and deployment of AI systems. The EU AI Act (2024) is the most comprehensive, classifying AI systems by risk level and imposing requirements accordingly. The US has taken a more sector-specific approach with executive orders and agency guidelines. China has regulations targeting generative AI, deepfakes, and recommendation algorithms.
Why it matters: Regulation shapes what AI companies can build, how they must build it, and what they must disclose. The EU AI Act affects any company serving European users. Understanding the regulatory landscape is increasingly necessary for anyone building or deploying AI — non-compliance can mean fines, bans, or liability.
公司
Apple的设备端与云端AI系统,集成于iPhone、iPad和Mac中。Apple Intelligence在Apple Silicon上本地运行较小的模型以处理隐私敏感任务(文本改写、摘要、图像生成),并将复杂请求路由到Apple的私有云计算服务器。它还在用户同意下集成外部模型(如ChatGPT)以处理超出自身能力的任务。
为什么重要: Apple Intelligence代表了全球市值最高公司的消费者AI战略,覆盖超过十亿台设备。其对隐私的强调(设备端处理、具有可验证安全性的私有云计算)提供了一种与OpenAI和Google的云优先方法不同的模式。如果Apple在AI上做对了,它将为数十亿非技术用户普及设备端AI。
Apple's on-device and cloud AI system, integrated across iPhone, iPad, and Mac. Apple Intelligence runs smaller models locally on Apple Silicon for privacy-sensitive tasks (text rewriting, summarization, image generation) and routes complex requests to Apple's Private Cloud Compute servers. It also integrates external models (like ChatGPT) with user consent for tasks beyond its own capabilities.
Why it matters: Apple Intelligence represents the consumer AI strategy of the world's most valuable company, reaching over a billion devices. Its emphasis on privacy (on-device processing, Private Cloud Compute with verifiable security) offers a different model than the cloud-first approach of OpenAI and Google. If Apple gets AI right, it normalizes on-device AI for billions of non-technical users.
公司
一家以色列AI公司,以Jamba闻名,这是首个生产级混合架构,将Transformer注意力层与Mamba SSM层相结合。AI21由AI研究人员(包括Yoav Shoham)创建,自2017年以来一直在构建语言模型,早于ChatGPT。其模型可通过API和云提供商获取。
为什么重要: AI21 Labs之所以重要,是因为Jamba证明了混合Transformer-SSM架构在实践中是可行的,而不仅仅停留在研究论文中。通过交错注意力层和Mamba层,Jamba以低于同等质量纯Transformer模型的内存使用量实现了256K的上下文窗口。这种混合方法可能是LLM架构的未来。
An Israeli AI company known for Jamba, the first production-grade hybrid architecture that combines Transformer attention layers with Mamba SSM layers. AI21 was founded by AI researchers (including Yoav Shoham) and has been building language models since 2017, predating ChatGPT. Their models are available via API and through cloud providers.
Why it matters: AI21 Labs matters because Jamba proved that hybrid Transformer-SSM architectures work in practice, not just in research papers. By interleaving attention and Mamba layers, Jamba achieves a 256K context window with lower memory usage than pure Transformer models of similar quality. This hybrid approach may be the future of LLM architecture.
数据标注
数据标签、数据注释
训练
为原始数据添加标签、标记或元数据以便用于监督学习的过程。标注图像意味着在物体周围绘制边界框。标注文本意味着标记实体、情感或意图。为RLHF标注意味着按质量对模型回复进行排序。标注是将原始数据转化为训练数据的人力劳动。
为什么重要: 标注是监督AI的朴素基础。每个标注数据集、每个微调模型、每个对齐的助手都依赖于花费数小时正确标注数据的人类标注者。标注的质量直接决定模型质量——不一致或有偏差的标注会产生不一致和有偏差的模型。它是构建AI系统中最劳动密集且通常最昂贵的部分。
智能体工作流
Agent架构、AI工作流
使用
一种AI智能体编排多步骤过程的设计模式——规划、执行工具、评估结果并迭代——以完成复杂任务。与单次提示-回复交换不同,智能体工作流涉及循环:智能体采取行动、观察结果、决定下一步做什么,并持续进行直到任务完成或需要人类输入。
为什么重要: 智能体工作流是AI从“回答问题”到“执行工作”的转变方式。聊天机器人一次回答一个问题。智能体工作流则研究一个主题、撰写草稿、审查其准确性并修改——全部自主完成。这种模式正在代码生成(Cursor、Claude Code)、研究(Perplexity、Deep Research)和企业自动化中兴起。
AI基准测试
MMLU、HumanEval、ARC、HellaSwag
基础
用于测量和比较AI模型能力的标准化测试。MMLU测试57个学科领域的知识。HumanEval测试代码生成。ARC测试科学推理。HellaSwag测试常识推理。GSM8K测试数学。基准分数提供了比较模型的通用语言,尽管它们有显著的局限性。
为什么重要: 基准测试是行业的计分方式。当Anthropic说Claude在MMLU上得分X%、在HumanEval上得分Y%时,这些数字只有在你知道基准测试什么、如何评分以及它们的局限性时才有意义。理解基准有助于你看穿营销声明,评估哪个模型真正最适合你的具体用例。
The convolutional neural network that won the 2012 ImageNet competition by a massive margin, triggering the deep learning revolution. Created by Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton, AlexNet reduced the image classification error rate from 26% to 16% — a gap so large it convinced the computer vision community that deep learning was fundamentally superior to hand-engineered features.
Why it matters: AlexNet is the "before and after" moment in AI history. Before 2012, most AI researchers worked on feature engineering and non-neural methods. After AlexNet, deep learning became the dominant paradigm. Every modern AI system — GPT, Claude, Stable Diffusion — traces its lineage to the paradigm shift that AlexNet triggered. It's the Big Bang of modern AI.
Adam优化器
Adam、AdamW
训练
训练神经网络最广泛使用的优化算法。Adam(自适应矩估计)将动量(使用过去梯度的移动平均)与自适应学习率(按过去梯度幅度的倒数缩放更新)结合。AdamW添加了解耦的权重衰减以获得更好的正则化。几乎所有现代LLM都使用AdamW训练。
为什么重要: Adam在广泛的任务和超参数范围内表现良好,使其成为默认优化器。理解它能解释为什么训练“大多数时候都能工作”(Adam逐参数自适应)以及为什么有时不行(Adam的内存需求是模型参数的2倍,这对大模型很重要)。在90%的情况下,它也是“我应该用哪个优化器?”的答案。
AI可观测性
LLM监控、AI追踪、LLMOps
基础设施
监控和理解生产环境中AI系统的行为——实时追踪输入、输出、延迟、成本、错误和质量指标。AI可观测性就像应用监控(Datadog、New Relic),但专门针对AI:追踪提示-响应对、检测质量退化、监控幻觉,以及对异常行为发出警报。
为什么重要: 部署AI系统而没有可观测性就像盲目飞行。你不知道模型是否比平时产出更多幻觉,延迟是否在攀升,某种特定类型的查询是否在失败,或成本是否在飙升。AI可观测性将“看起来能用”变成“我们知道它能用,也知道什么时候不能用”。这是演示和生产系统的区别。
AWS Bedrock
Amazon Bedrock
公司
Amazon Web Services的托管平台,通过统一API访问和部署来自多个提供商(Anthropic、Meta、Mistral、Cohere、Stability AI、Amazon自己的Titan模型)的基础模型。Bedrock处理模型托管、扩展和微调,让企业无需管理GPU基础设施就能使用AI。它还提供护栏、知识库(RAG)和智能体能力。
为什么重要: AWS Bedrock是大多数财富500强公司访问AI模型的方式。其多模型方法让企业通过单一API比较和切换提供商(Claude、Llama、Mistral),避免供应商锁定。对于已经在AWS上的公司(大多数大型公司),Bedrock是AI采用阻力最小的路径——相同的账户、相同的计费、相同的合规框架。
A/B Testing for AI
AI的A/B测试、在线评估、分流测试
基础设施
通过将真实用户随机分配到两个AI系统变体(不同的模型、提示或配置)来比较它们,并衡量哪个在关键指标上表现更好。与离线评估(基准测试、测试集)不同,A/B测试揭示变更如何影响实际用户行为——参与度、满意度、任务完成率和收入。
为什么重要: 离线指标并不总能预测真实世界的表现。在基准测试上得分更高的模型可能产生用户不太喜欢的回应。提高质量的提示更改可能增加延迟到用户放弃的程度。A/B测试是知道变更是否真正改善用户体验的唯一方法。这是每个主要AI产品做出部署决策的方式。
Attention Visualization
注意力可视化、注意力图、注意力热力图
基础
通过将注意力权重显示为热力图来可视化Transformer模型“关注”什么。对于每个查询token,注意力图显示它分配给每个其他token的权重。高权重(亮点)表示强注意力——模型认为这些token与当前计算高度相关。
为什么重要: 注意力可视化是窥视Transformer内部并理解其推理的最直观方式。当模型将“le chat noir”翻译为“the black cat”时,注意力图显示“black”强烈关注“noir”,“cat”关注“chat”。这有助于调试模型行为、理解失败和建立对注意力工作方式的直觉。
B
Bria
授权训练数据、企业级图像生成
公司
以色列AI公司,其图像生成模型完全基于授权且可追溯的训练数据构建。该公司定位为需要生成式AI视觉内容但无版权风险企业的安全选择—
为什么重要:

Bria 是最典型的测试案例,证明基于完全授权的训练数据构建 AI 图像生成技术是否仍能在商业上具有竞争力。在正面临版权诉讼雪崩的行业中,他们的方法为企业提供了一条在不承担法律风险的情况下采用生成式 AI 的途径——这一价值主张在每一起针对竞争对手的新诉讼中都变得更加具有吸引力。如果 Bria 取得成功,这将验证整个负责任的 AI 开发理念;如果它遭遇挫折,则表明市场最终并不足以重视数据来源而愿意为此支付溢价。

字节跳动
豆包、TikTok、AI 驱动的推荐系统
公司
TikTok的母公司,也是全球最有价值的科技公司之一。他们的AI实验室开发了Doubao模型系列,并为每天超过十亿用户使用的推荐算法提供支持。
为什么重要:

字节跳动是全球最有价值的私营科技公司,其AI部署规模鲜有对手,通过TikTok、Douyin以及不断扩展的AI驱动产品,每天服务超过十亿用户。他们的Doubao模型家族和火山引擎云平台使其成为基础模型竞赛中的强劲竞争者,背后拥有大多数AI初创公司只能梦寐以求的资源:一个大规模且盈利的核心业务,以及面向十亿用户的内置分发渠道。

Black Forest Labs
FLUX.1 系列模型
公司
由Stable Diffusion的最初创作者在离开Stability AI后创立。他们的FLUX模型迅速成为开源图像生成领域的新标准,超越了他们留下的模型的质量。
为什么重要:

黑森林实验室(Black Forest Labs)代表了开源AI的最佳案例:Stable Diffusion的原始架构师们从头开始,采用更先进的技术、更聪明的商业策略以及创意社区的信任。FLUX.1不仅对Stable Diffusion进行了迭代,更实现了跨越式超越,而他们开创的分层许可模式正逐渐成为AI公司在开放与盈利之间取得平衡的蓝图。

训练

用于评估和比较AI模型的标准测试。基准测试衡量特定能力—推理(ARC)、数学(GSM8K)、编程(HumanEval)、常识(MMLU)—并生成可在不同模型间比较的分数。

为什么重要: 基准测试是行业衡量表现的方式,但它们并不完美—模型可以被训练以在基准测试中表现优异,但并不一定真正更好。实际应用中的表现往往讲述着不同的故事。应将它们视为信号,而非绝对真理。
安全
AI输出中反映或放大训练数据中社会偏见的系统性模式。偏见可能出现在文本生成、图像创作、招聘工具等任何模型做出影响人们差异性决策的场景中。
为什么重要: 如果训练数据中护士是女性、工程师是男性,模型就会延续这种观念。偏见并不总是显而易见——它隐藏在单词关联、默认假设以及被代表的人群中。
BERT
双向编码器表示(来自Transformers)
模型
Google于2018年推出的基于Transformer的模型,通过引入双向预训练彻底改变了NLP——每个token都能关注其他所有token,使模型获得深层的上下文理解。BERT是纯编码器模型:擅长理解文本(分类、搜索、命名实体识别),但无法像GPT或Claude那样生成文本。
为什么重要: BERT是现代NLP时代最具影响力的论文。它证明了在无标注文本上预训练然后在特定任务上微调可以碾压所有现有基准。尽管LLM已经抢了风头,但BERT系列模型仍然支撑着大多数生产级搜索引擎、嵌入系统和分类管道,因为它们比LLM更小、更快、更便宜(用于非生成任务时)。
A Transformer-based model from Google (2018) that revolutionized NLP by introducing bidirectional pre-training — every token can attend to every other token, giving the model deep contextual understanding. BERT is an encoder-only model: it excels at understanding text (classification, search, NER) but can't generate text like GPT or Claude.
Why it matters: BERT is the most influential NLP paper of the modern era. It proved that pre-training on unlabeled text then fine-tuning on specific tasks could crush every existing benchmark. Even though LLMs have stolen the spotlight, BERT-style models still power most production search engines, embedding systems, and classification pipelines because they're smaller, faster, and cheaper than LLMs for non-generative tasks.
批量大小与训练轮次
小批量、训练轮次
训练
批量大小是模型在更新参数之前处理的训练样本数。一个轮次(epoch)是对整个训练数据集的一次完整遍历。一个在100万个样本上以批量大小1000训练3个轮次的模型,每次更新处理1000个样本,每轮次1000次更新,总共3000次更新。
为什么重要: 批量大小和训练轮次是训练中最基本的控制参数。批量大小影响训练速度、内存使用,甚至模型学到什么(小批量增加的噪声有助于泛化;大批量收敛更快但可能泛化更差)。轮次数决定模型看到每个样本的次数——太少会欠拟合,太多会过拟合。
Batch size is how many training examples the model processes before updating its parameters. An epoch is one complete pass through the entire training dataset. A model trained for 3 epochs on 1 million examples with batch size 1,000 processes 1,000 examples per update, takes 1,000 updates per epoch, and 3,000 updates total.
Why it matters: Batch size and epochs are the most fundamental controls in training. Batch size affects training speed, memory usage, and even what the model learns (small batches add noise that can help generalization; large batches converge faster but may generalize worse). Number of epochs determines how many times the model sees each example — too few and it underfits, too many and it overfits.
BLEU & ROUGE
BLEU分数、ROUGE分数
基础
通过将模型输出与参考文本进行比较来评估文本生成质量的经典指标。BLEU(双语评估替补)衡量生成文本中有多少n-gram出现在参考文本中——最初为机器翻译设计。ROUGE(面向召回的摘要评估替补)衡量参考文本中有多少n-gram出现在生成文本中——为自动摘要设计。
为什么重要: BLEU和ROUGE十多年来一直是NLP的标准评估指标,至今仍被广泛使用。理解它们——以及它们的局限性——有助于你评估NLP研究声明并理解为什么该领域正在转向人工评估和基于模型的评估。高BLEU分数不保证质量;低BLEU分数不保证失败。
BPE
Byte Pair Encoding, Subword Tokenization
The most common algorithm for building tokenizer vocabularies. BPE starts with individual bytes or characters and iteratively merges the most frequent adjacent pair into a new token. After thousands of merges, common words become single tokens ("the," "function") while rare words are split into subword pieces ("un" + "common"). Used by GPT, Claude, Llama, and most modern LLMs.
Why it matters: BPE is the reason your tokenizer works the way it does. It explains why common words are cheap (one token), why rare words are expensive (many tokens), and why non-English text costs more (fewer merges allocated to non-English character pairs). Understanding BPE helps you predict token counts, optimize prompts, and understand why different tokenizers produce different results for the same text.
Backpropagation
Backprop, Backward Pass
The algorithm that computes how much each parameter in a neural network contributed to the error, enabling gradient descent to update parameters efficiently. Backpropagation applies the chain rule of calculus in reverse through the network: starting from the loss at the output, it propagates gradients backward through each layer to determine each weight's share of the blame.
Why it matters: Backpropagation is the algorithm that makes neural network training possible. Without an efficient way to compute gradients for billions of parameters, gradient descent would be computationally infeasible. Every model you use — from a small classifier to a 400B LLM — was trained using backpropagation. It's the single most important algorithm in deep learning.
C
计算机视觉
CV、机器视觉
基础

人工智能领域专注于使机器能够解读和理解来自世界的各种视觉信息—图像、视频、3D场景和文档。计算机视觉(Computer Vision)驱动了从面部识别、自动驾驶到医学影像和AI图像生成等众多应用。核心任务包括物体检测、图像分类、分割、OCR和姿态估计。

为什么重要: 计算机视觉是深度学习首次超越人类表现的领域(ImageNet 2012),并且它仍然是商业影响力最大的AI应用之一。你生成的每一张AI图像或视频,你进行OCR的每一份文档,配备智能检测的每一台安防摄像头——这一切都是计算机视觉。
内容审核
AI 审核、信任与安全
安全

使用AI来大规模检测和过滤有害、非法或违反政策的内容。这包括文本分类(仇恨言论、垃圾信息、威胁内容)、图像分析(NSFW检测、CSAM)和视频审核。现代系统结合AI分类器与人工审核,但AI自身生成的内容体量正在引发审核危机—现在你需要用AI来审核AI。

为什么重要: 任何拥有用户生成内容的平台都需要内容审核,而AI是唯一能够应对海量数据的方法。但内容审核比听起来更困难—上下文至关重要,文化规范存在差异,误删正当言论会压制合法表达,而漏检则会让有害内容得以传播。
Cartesia
Sonic、基于 SSM 的语音模型
公司
基于状态空间模型(SSM)架构而非transformers的语音AI初创公司。他们的Sonic模型实现了超低延迟语音生成,使实时对话式AI首次真正自然。
为什么重要:

Cartesia 的重要性在于他们证明了状态空间模型不仅仅是学术界的奇思妙想,而是一种适用于实时语音 AI 的商业可行架构。他们低于 100 毫秒的延迟首次使真正自然的对话式 AI 成为可能,弥合了“与机器人对话”和“与真人对话”之间的差距。随着行业向以语音为核心的 AI 代理转变,Cartesia 在流媒体速度方面的架构优势可能使他们成为其他所有企业构建的基础设施层。

Cohere
Command、Embed、Rerank 模型
公司
专注于企业级人工智能的公司,由Aidan Gomez(《Attention Is All You Need》Transformer论文的联合作者之一)共同创立。专注于为企业应用场景优化的模型、RAG和多语言支持。
为什么重要:

Cohere代表了最清晰的案例,说明在由万亿级超大规模云服务商和面向消费者的前沿实验室主导的时代,一家专注于企业需求的AI公司是否能够独立繁荣发展。他们源自Transformer论文的血统赋予了他们真正的技术可信度,其部署灵活性解决了受监管行业的实际痛点,而他们的嵌入模型和重排序模型已成为全球生产环境中的RAG系统首选工具。如果人工智能的未来不再关乎聊天机器人,而是更多地关乎融入每个业务流程的基础设施,Cohere将变得至关重要。

使用AI
一种提示技术,要求模型在给出最终答案前逐步展示其推理过程。模型不会直接得出结论,而是“大声思考”,这显著提高了在复杂任务中的准确性。
为什么重要: 要求模型“解释你的推理过程”不仅仅是为了透明度—实际上会让模型变得更聪明。早期研究表明,CoT(思维链)方法可将数学错误减少高达50%。目前大多数现代模型都会在内部自动执行此操作。
上下文窗口
上下文长度
使用AI

模型在单次对话中可处理的文本最大量(以令牌为单位)。这包括您的输入和模型的输出。如果模型具有200K的上下文窗口,大约相当于15万字—相当于两本小说。

为什么重要: 上下文窗口大小决定了你能完成的任务。总结整个代码库?需要较大的上下文。快速问答?小一点也没问题。但更大的并不总是更好 — 模型在非常长的上下文中可能会失去焦点。
语料库
数据集、训练数据
训练

用于训练模型的文本(或其他数据)。语料库的范围可以从精心挑选的书籍和论文集,到对整个互联网的大规模抓取。语料库的质量和组成从根本上决定了模型所掌握的知识及其行为方式。

为什么重要: 垃圾进,垃圾出。在Reddit上训练的模型与在科学论文上训练的模型表达方式不同。这就是为什么我们为Sarah精心构建了自己的语料库——普通的网络爬虫产生了混乱且不连贯的结果。
使用AI
用于与AI模型进行对话交互的软件界面。现代聊天机器人(Claude、ChatGPT、Gemini)由大语言模型驱动,能处理开放式对话、代码、图像和工具调用。
为什么重要: 大多数人与AI交互的主要方式。聊天机器人是构建在模型之上的产品,而非模型本身。
A software interface that lets you interact with an AI model through conversation. Modern AI chatbots (Claude, ChatGPT, Gemini) are powered by large language models and can handle open-ended dialogue, answer questions, write code, and use tools.
Why it matters: Chatbots are how most people interact with AI. Understanding conversation history, system prompts, context windows, and token limits helps you use them more effectively.
交叉注意力
编码器-解码器注意力
基础
一种查询来自一个序列而键/值来自另一个序列的注意力机制。它是不同模态之间的桥梁。
为什么重要: 交叉注意力是不同模态和架构不同部分之间的桥梁。
上下文长度扩展
YaRN、NTK 缩放、RoPE 缩放
基础设施
使语言模型能够处理比训练时更长序列的技术,通过修改位置编码并结合短期微调实现。
为什么重要: 上下文长度扩展是模型在短短两年内从 4K 发展到 128K 再到 1M+ 上下文窗口的原因。
The unresolved legal questions around AI and intellectual property: Can AI training on copyrighted data constitute fair use? Who owns AI-generated content? Can AI output infringe copyright?
Why it matters: Every major AI model was trained on copyrighted material. Current lawsuits will reshape the economics of AI training and whether creators get compensated.
公司
AI原生代码编辑器(VS Code分支)。深度集成LLM:内联代码生成、多文件编辑、代码库感知的上下文。
为什么重要: 押注AI将从根本上改变代码编写方式。快速被采用,带来切实的生产力提升。
An AI-native code editor built as a fork of VS Code, integrating LLMs deeply into the editing experience: inline code generation, multi-file editing, and codebase-aware context.
Why it matters: Cursor represents a bet that AI will fundamentally change how code is written. Its rapid adoption makes it one of the most tangible examples of AI changing knowledge work.
分类
分类器、归类
基础
将输入分配到一组预定义类别之一的任务。“这封邮件是垃圾邮件还是正常邮件?”(二分类)。“这张图片是猫、狗还是鸟?”(多分类)。“这篇文章适用哪些标签?”(多标签)。分类是最常见的监督学习任务,也是无数实际AI应用的基础。
为什么重要: 分类是大多数人在实践中首次接触机器学习的场景——垃圾邮件过滤、内容审核、医学诊断、欺诈检测、情感分析。理解分类有助于理解整个监督学习管道:标注数据输入、训练模型、预测输出。
The task of assigning an input to one of a predefined set of categories. "Is this email spam or not?" (binary classification). "Is this image a cat, dog, or bird?" (multi-class). "Which of these tags apply to this article?" (multi-label). Classification is the most common supervised learning task and the foundation of countless real-world AI applications.
Why it matters: Classification is where most people first encounter machine learning in practice — spam filters, content moderation, medical diagnosis, fraud detection, sentiment analysis. Understanding classification helps you understand the entire supervised learning pipeline: labeled data in, trained model, predictions out.
CNN
卷积神经网络、ConvNet
模型
一种专为处理网格状数据(图像、音频频谱图)而设计的神经网络架构,通过在输入上滑动小型滤波器(卷积核)来检测局部模式,如边缘、纹理和形状。从2012年(AlexNet)到约2020年视觉Transformer出现之前,CNN主导了计算机视觉领域。它们在生产环境中仍被广泛使用,尤其是在边缘设备上。
为什么重要: CNN引发了深度学习革命。AlexNet在2012年ImageNet竞赛中的胜利证明深度神经网络可以大幅超越手工设计的特征,引发了当前的AI热潮。理解CNN有助于理解Transformer为何有效(许多相同的理念——分层特征、参数共享——同样适用),而且CNN在资源受限设备上的许多视觉任务中仍然是最佳选择。
A neural network architecture designed to process grid-like data (images, audio spectrograms) by sliding small filters (kernels) across the input to detect local patterns like edges, textures, and shapes. CNNs dominated computer vision from 2012 (AlexNet) until Vision Transformers emerged around 2020. They're still widely used in production, especially on edge devices.
Why it matters: CNNs kicked off the deep learning revolution. AlexNet's 2012 ImageNet victory proved that deep neural networks could dramatically outperform hand-engineered features, triggering the current AI boom. Understanding CNNs helps you understand why Transformers work (many of the same ideas — hierarchical features, parameter sharing — apply), and CNNs remain the best choice for many vision tasks on resource-constrained devices.
安全
Anthropic开发的一种对齐技术,训练模型遵循一组原则(“宪法”),而不是完全依赖人类反馈来做每个决定。模型根据这些原则批评和修改自己的输出,然后在修改后的输出上进行训练。这减少了对人工标注者的需求,并使对齐标准显式化且可审计。
为什么重要: 宪法AI解决了RLHF的两个问题:成本高(每个训练样本都需要人工标注者)和不透明(标准隐含在标注者的判断中)。通过使原则显式化,CAI使对齐更加透明、可扩展和一致。这是Claude训练方式的核心部分。
An alignment technique developed by Anthropic where a model is trained to follow a set of principles (a "constitution") rather than relying solely on human feedback for every decision. The model critiques and revises its own outputs based on these principles, then is trained on the revised outputs. This reduces the need for human labelers and makes the alignment criteria explicit and auditable.
Why it matters: Constitutional AI addresses two problems with RLHF: it's expensive (human labelers for every training example) and opaque (the criteria are implicit in labeler judgments). By making the principles explicit, CAI makes alignment more transparent, scalable, and consistent. It's a core part of how Claude is trained.
灾难性遗忘
灾难性干扰
训练
当神经网络在新任务上训练时失去执行先前已学任务的能力。在客户支持数据上微调模型可能使其擅长支持但在编程方面变得很差。新的学习覆盖了编码旧能力的权重,将其“遗忘”。
为什么重要: 灾难性遗忘是微调和持续学习的核心挑战。这就是为什么你不能在一个任务接一个任务上持续微调模型并期望它什么都做得好。这也是为什么像LoRA(只修改参数的一小部分)这样的技术和仔细选择学习率对于保留基础模型能力至关重要。
When a neural network trained on a new task loses its ability to perform previously learned tasks. Fine-tuning a model on customer support data might make it great at support but terrible at coding. The new learning overwrites the weights that encoded the old capabilities, "forgetting" them.
Why it matters: Catastrophic forgetting is the central challenge of fine-tuning and continual learning. It's why you can't just keep fine-tuning a model on task after task and expect it to do everything well. It's also why techniques like LoRA (which only modify a small subset of parameters) and careful learning rate selection are critical for preserving base model capabilities.
数据污染
数据污染、基准泄露
基础
当基准测试数据出现在模型的训练数据中,使其分数虚高而无法反映真实能力。如果一个模型在训练期间看到了测试题目从而“提前学了答案”,那它的基准表现毫无意义。随着训练数据集越来越大,从发布了基准数据的互联网上抓取更多内容,污染问题日益严重。
为什么重要: 污染破坏了AI行业用来比较模型的整个基准体系。一个因记住答案而在MMLU上得到90%的模型并不比从未见过这些答案却得到80%的模型更聪明。随着更多基准泄入训练数据,社区被迫不断创建新基准,私有留出评估变得比公开排行榜更重要。
When benchmark test data appears in a model's training data, inflating its scores without reflecting genuine capability. If a model "studied the answer key" by seeing test questions during training, its benchmark performance is meaningless. Contamination is a growing problem as training datasets get larger and scrape more of the internet, where benchmark data is often published.
Why it matters: Contamination undermines the entire benchmark system that the AI industry uses to compare models. A model that scores 90% on MMLU because it memorized the answers isn't smarter than one scoring 80% that never saw them. As more benchmarks leak into training data, the community is forced to create new benchmarks constantly, and private held-out evaluations become more important than public leaderboards.
Chatbot Arena
LMSYS Arena、ELO排名
基础
一个众包平台(由LMSYS创建),用户与两个匿名AI模型并排聊天,并投票选出哪个响应更好。结果用于计算ELO评分——与国际象棋使用的同一排名系统——创建一个基于真实人类偏好而非自动化基准的持续更新的模型质量排行榜。
为什么重要: Chatbot Arena可以说是当今最受信赖的模型比较,因为它抗污染(问题是新颖的)、反映真实用户偏好(而非合成基准),并让模型直接对决(相对比较比绝对分数更可靠)。当人们说“Claude在编程方面比GPT好”或反过来时,Arena排名通常就是证据。
A crowdsourced platform (by LMSYS) where users chat with two anonymous AI models side-by-side and vote for which response is better. The results are used to compute ELO ratings — the same ranking system used in chess — creating a continuously updated leaderboard of model quality based on real human preferences rather than automated benchmarks.
Why it matters: Chatbot Arena is arguably the most trusted model comparison today because it's resistant to contamination (questions are novel), reflects real user preferences (not synthetic benchmarks), and pits models head-to-head (relative comparison is more reliable than absolute scores). When people say "Claude is better than GPT for coding" or vice versa, the Arena rankings are often the evidence.
Cerebras
Cerebras Systems、WSE
公司
一家芯片公司,构建晶圆级AI处理器——芯片大小为整个硅晶圆,比标准GPU大100倍以上。Cerebras WSE-3(晶圆级引擎)包含4万亿个晶体管和90万个核心。其CS-3系统设计用于训练和推理,提供了一种替代数千个独立GPU集群的方案。
为什么重要: Cerebras代表了对AI硬件最激进的重新思考。他们不是用有限带宽连接数千个小芯片,而是将所有东西放在一块巨大的芯片上,具有极大的片上内存带宽。潜在优势是消除限制多GPU训练的通信瓶颈。晶圆级计算能否与NVIDIA庞大的生态系统竞争是一个价值数十亿美元的问题。
A chip company that builds wafer-scale AI processors — chips the size of an entire silicon wafer, over 100x larger than a standard GPU. The Cerebras WSE-3 (Wafer Scale Engine) contains 4 trillion transistors and 900,000 cores. Their CS-3 systems are designed for both training and inference, offering an alternative to clusters of thousands of individual GPUs.
Why it matters: Cerebras represents the most radical rethinking of AI hardware. Instead of connecting thousands of small chips with limited bandwidth, they put everything on one massive chip with enormous on-chip memory bandwidth. The potential advantage is eliminating the communication bottleneck that limits multi-GPU training. Whether wafer-scale computing can compete with NVIDIA's massive ecosystem is the billion-dollar question.
持续学习
终身学习、增量学习
训练
模型在不忘记先前所学知识的情况下持续从新数据中学习的能力。当前的LLM训练一次后即冻结——更新它们需要昂贵的重新训练。持续学习将允许模型从每次交互中学习、与新信息保持同步并随时间适应个别用户,就像人类自然学习那样。
为什么重要: 持续学习是AI的重大未解问题之一。当前模型有知识截止日期,无法从纠正中学习,并将每次对话视为一张白纸。解决持续学习将消除昂贵的重训周期的需要,实现真正适应每个用户的个性化AI,并让模型始终保持最新。
训练
一种按有意义的顺序——通常从简单到困难——而非随机地呈现训练样本的策略。就像教学生先学算术再学微积分,课程学习先给模型基础模式,然后逐步增加复杂性。这可以加速收敛,有时还能获得更好的最终性能。
为什么重要: 课程学习是一种被低估的技术,它可以在不改变模型或数据的情况下提高训练效率。LLM预训练越来越多地使用数据调度——在最后的训练阶段展示更干净、更高质量的数据——这就是课程学习的一种形式。呈现数据的顺序很重要,而不仅仅是数据本身。
聚类
K-Means、DBSCAN、聚类分析
基础
一种在没有预定义标签的情况下将相似数据点分组在一起的无监督学习任务。给定客户购买数据,聚类可能发现不同的客户群体(打折猎手、奢侈品买家、偶尔购物者)。K-means是最常用的算法:选择K个聚类,将每个点分配到最近的聚类中心,并迭代优化中心位置。
为什么重要: 聚类是最常见的无监督学习任务,应用无处不在:客户细分、文档分组、异常检测(不属于任何聚类的异常值)、图像压缩(将相似像素分组)和数据探索(我的数据中存在哪些自然分组?)。它通常是理解新数据集的第一步。
Cosine Similarity
Cosine Distance, Vector Similarity
A measure of similarity between two vectors based on the angle between them, ignoring their magnitude. Cosine similarity of 1 means the vectors point in the same direction (identical meaning). 0 means they're perpendicular (unrelated). -1 means opposite directions. It's the standard similarity metric for comparing text embeddings in semantic search, RAG, and recommendation systems.
Why it matters: Every time you do semantic search, use RAG, or compare embeddings, cosine similarity is (probably) the metric deciding what's "similar." Understanding it helps you debug retrieval quality, choose between cosine and alternatives (dot product, Euclidean distance), and understand why some searches miss obvious matches.
CLIP
Contrastive Language-Image Pre-training
A model from OpenAI (2021) that learns to connect images and text by training on 400 million image-caption pairs. CLIP encodes images and text into the same embedding space, where matching image-text pairs are close together and non-matching pairs are far apart. It's the bridge between language and vision in most modern multimodal AI systems.
Why it matters: CLIP is the backbone of text-to-image generation (Stable Diffusion, DALL-E), image search, zero-shot image classification, and multimodal understanding. When you type a prompt and get an image, CLIP (or a descendant) is what connects your words to visual concepts. It proved that you can learn powerful visual representations from natural language supervision alone, without labeled image datasets.
An architecture that adds spatial control to image generation models. Instead of just describing what you want in text ("a person standing"), ControlNet lets you specify how — providing an edge map, depth map, pose skeleton, or segmentation map that guides the composition. The generated image follows the spatial structure of your control input while filling in details from the text prompt.
Why it matters: ControlNet made AI image generation usable for professional workflows. Without it, you get random compositions and hope for the best. With it, you specify the exact pose, layout, or structure you need. This is the difference between "generate something vaguely like what I want" and "generate exactly this composition with these details" — critical for design, advertising, and production work.
Contrastive Learning
SimCLR, InfoNCE
A self-supervised learning approach that trains models by contrasting positive pairs (similar items that should be close in embedding space) against negative pairs (dissimilar items that should be far apart). CLIP contrasts matching image-text pairs against non-matching ones. SimCLR contrasts augmented views of the same image against views of different images. The model learns representations where similarity in embedding space reflects real-world similarity.
Why it matters: Contrastive learning is how most embedding models are trained — the models that power semantic search, RAG, and recommendations. It's also the training approach behind CLIP, which connects language and vision. Any time you use embeddings to measure similarity, contrastive learning is likely how those embeddings were created.
Checkpoint
Model Checkpoint, Snapshot
A saved snapshot of a model's state during training — the weights, optimizer state, learning rate schedule, and training step. Checkpoints let you resume training after interruptions (hardware failure, preemption), evaluate intermediate versions of the model, and roll back to an earlier version if training degrades. Saving checkpoints every few thousand steps is standard practice.
Why it matters: Training large models takes days to months. Without checkpoints, a GPU failure at step 90,000 of a 100,000-step training run means starting over. Checkpoints are insurance: they save progress incrementally so you only lose work since the last checkpoint. They also enable model selection — sometimes an earlier checkpoint performs better on your evaluation metrics than the final one.
卷积
Conv、卷积层、核、滤波器
基础
一种在输入上滑动小滤波器(核)以检测局部模式的数学运算。在图像中,一个3×3的核滑过每个位置,计算与底层像素的点积以产出特征图。不同的核检测不同的模式:水平边缘、垂直边缘、纹理,以及在更深层中最终检测到的复杂特征如眼睛或轮子。
为什么重要: 卷积是使计算机视觉成功的运算。它编码了两个强大的假设:局部性(附近的像素相关)和平移等变性(模式不论出现在哪里都是相同的)。与全连接层相比,这些假设大幅减少了参数数量,使处理高分辨率图像成为可行。即使在Transformer时代,卷积仍在许多混合架构中使用。
公司
一个创建和与AI角色聊天的平台——虚构人物、历史人物和自定义角色,在跨对话中保持一致的个性、知识和说话模式。由前Google Brain研究人员创立,Character.AI是最早实现大规模消费者采用的AI产品之一,拥有数百万日活跃用户,主要是年轻群体。
为什么重要: Character.AI证明了社交/娱乐AI可以驱动大规模互动——用户在Character.AI上花费的时间超过许多社交媒体平台。它开创了“AI伴侣”品类,并证明了个性一致性、情感互动和角色扮演能力在商业上与事实准确性同样重要。Google在2024年向该公司投资了27亿美元。
Cross-Validation
交叉验证、K折交叉验证、留一法
训练
一种在没有足够数据划分单独测试集时评估模型性能的技术。K折交叉验证将数据分成K个相等的部分,在K−1个部分上训练并在剩余部分上评估,轮转K次,使每个数据点都被用于训练和评估。所有K折的平均分数比单次训练/测试划分给出更可靠的性能估计。
为什么重要: 当数据稀缺时,交叉验证至关重要——如果你只有500个样本,留出100个用于测试意味着减少20%的训练数据。交叉验证使所有数据同时用于训练和评估。它还给你一个置信区间(折间方差)而不是单个数字,告诉你模型的性能有多稳定。
公司
一家完全围绕GPU计算构建的专业云提供商,专注于AI工作负载。CoreWeave运营大型NVIDIA GPU集群(H100、H200),已获得数十亿美元的融资和债务融资来建设GPU数据中心。主要AI公司(包括微软和多家AI实验室)使用CoreWeave进行大规模训练和推理。
为什么重要: CoreWeave是AI领域增长最快的基础设施公司之一,押注专业GPU云提供商在AI工作负载上能超越通用超大规模提供商。他们的专注使得GPU利用率更高、专建网络(用于训练集群的InfiniBand)更优,以及GPU密集型工作的定价比AWS/GCP低30–50%。
D
基础
机器学习的一个子领域,它使用具有多层的神经网络(因此被称为“深度”)来学习数据的层次化表示。每一层都会将其输入转换为稍微更抽象的内容——从像素到边缘、形状、物体再到概念。深度学习正是使现代人工智能革命成为可能的关键:它背后的技术支撑着大型语言模型(LLMs)、图像生成器、语音识别,以及自2012年以来几乎所有的人工智能突破。
为什么重要: 深度学习是当前人工智能时代的引擎。在2012年之前,人工智能只是各种专有算法的拼凑。深度学习将一切统一到一个范式下:堆叠足够多的层,输入足够多的数据,投入足够的计算资源,模型会自行处理其余部分。理解深度学习,就是理解为什么人工智能突然间开始有效。
开发者工具
AI SDK、AI 框架
工具
由库、框架和平台组成的生态系统,使构建人工智能驱动的应用程序更加容易—这包括编排框架(LangChain、LlamaIndex)、推理服务器(vLLM、llama.cpp)、微调工具(Axolotl、Unsloth)、评估框架(LMSYS、Braintrust)以及全栈平台(Vercel AI SDK、Hugging Face)。工具生态每月都在变化。
为什么重要: 原始模型API是必不可少但并不充分的。开发者工具弥合了“我拥有API密钥”与“我拥有生产应用”之间的差距。合适的工具可将开发时间从数月缩短至数天,而错误的工具却徒增复杂度而无实际价值。
深度伪造
合成媒体、AI 生成的伪造内容
安全

AI生成的图像、视频或音频,旨在逼真地描绘真实人物说或做他们从未做过的事情。最初基于GAN技术,现代深度伪造技术如今使用扩散模型和语音克隆来生成内容,这些内容与现实的差异越来越难以分辨。检测工具虽然存在,但始终落后于生成能力。

为什么重要: 深度伪造是生成式人工智能创造力的阴暗面。它们已被用于欺诈、非自愿亲密影像、政治操控和身份盗窃。这项技术如今已足够易用,任何拥有笔记本电脑的人都可以制作令人信服的伪造内容,使得检测、数字水印和法律框架成为亟需优先解决的问题。
数据中心
AI 数据中心、GPU 集群
基础设施
用于存放服务器、GPU、网络设备和冷却系统的物理设施。现代AI数据中心专为大规模并行计算而设计,消耗兆瓦级电力,需要专用冷却系统。单次前沿模型训练可能需要整个设施中数千块GPU运行数月之久。
为什么重要: 数据中心是人工智能时代的工厂。每一次对Claude的查询,每一张来自Midjourney的图片,每一个来自Runway的视频,都依赖于这些大楼中的硬件设备。全球范围内人工智能就绪的数据中心容量短缺,是人工智能发展的一大制约因素—同时也是最大的投资机遇之一。
DeepL
神经机器翻译、DeepL Pro
公司
德国AI公司被广泛认为是全球最好的机器翻译服务。由一群计算语言学家打造,其表现持续超越Google Translate及其他大型科技公司的产品,尤其是在处理欧洲语言时。
为什么重要:

DeepL 是一个有力证明,说明专注于 AI 的公司可以在核心能力上持续超越拥有数千亿美元市值的竞争对手。在通常认为“越大越好”的领域,DeepL 在翻译质量上对 Google 和 Microsoft 的优势依然可衡量且具有实际意义,尤其是在欧洲语言和专业应用场景中。他们的成功挑战了通用 AI 模型最终会将专业任务商品化的假设——对于依赖准确跨语言沟通的数以万计的企业而言,这种专业化是值得付费的。

Decart AI
实时世界模拟、游戏生成
公司
以色列AI公司突破实时AI生成技术的界限。其技术能够实时生成交互式游戏般的环境,模糊了传统渲染与AI生成之间的界限。
为什么重要: Decart AI 展示了大多数人认为还需数年才能实现的技术:一个神经网络实时生成可玩、可交互的3D世界,且无需传统游戏引擎。他们的 Oasis 演示是对 AI 原生世界模拟的概念验证,这项技术的影响远超游戏领域—从自动驾驶到机器人技术再到空间计算。如果实时世界模型能够达到生产级别的实用性,Decart 在推理优化和交互生成方面的早期工作将奠定基础。
DeepSeek
DeepSeek-V3、DeepSeek-R1
公司
中国人工智能实验室于2025年初凭借DeepSeek-R1推理模型震撼行业,该模型以仅需顶尖实验室几分之一的训练成本,与前沿实验室展开竞争。该实验室由量化对冲基金High-Flyer支持。
为什么重要:

DeepSeek打破了前沿AI需要前沿预算的假设。他们以效率优先的方法——以远低于训练成本实现GPT-4级别和o1级别性能——迫使整个行业重新思考“规模即一切”的叙事,并重新聚焦于架构创新。在MIT许可证下开放权重的R1版本以一种西方实验室未曾做到的方式民主化了推理模型的获取。从地缘政治角度看,DeepSeek证明了仅凭出口管制无法遏制AI能力,这一认识对科技政策、投资和全球AI权力平衡具有深远影响。

Deepgram
Nova 语音转文字、Aura 文字转语音
公司
语音AI公司正在构建快速且准确的语音识别和文本转语音API。他们的Nova模型在准确率上与OpenAI的Whisper竞争,甚至经常超越它,同时在实时应用中运行速度显著更快。
为什么重要:

Deepgram 证明了一家初创公司可以利用端到端深度学习从零开始构建语音识别系统,并在准确性上与谷歌、亚马逊和微软直接竞争,同时在速度上超越它们。他们以开发者为中心的 API 方法将现代基础设施模式引入语音 AI,使将语音转录添加到应用程序中变得像通过 Stripe 添加支付功能一样简单。随着对话式 AI 代理逐渐成为主流,Deepgram 正将其定位为关键的语音基础设施层——使以语音为核心的 AI 在实际生产中真正运作的底层管道。

模型
一种生成模型,通过从纯噪声开始,逐步去除噪声,直到生成连贯的输出(如图像、视频或音频)。该模型学习逆转向真实数据添加噪声的过程。Stable Diffusion、DALL-E 3 和 Midjourney 都采用该方法的变体。
为什么重要:

扩散模型于2022年前后取代生成对抗网络(GANs),成为主流的图像生成技术。它们能够生成更多样化且可控的输出,如今几乎所有图像和视频AI工具的核心都是扩散模型。

蒸馏
知识蒸馏
训练
训练一个较小的“学生”模型来模仿一个较大的“教师”模型,通过学习教师的软概率分布而非硬标签。软输出编码了硬标签无法传达的类别之间的关系。
为什么重要: 蒸馏让强大的AI变得人人可用。一次70B到7B的蒸馏可以在10%的成本下保留90%的能力。许多本地运行的模型都是从前沿模型蒸馏而来。
Training a smaller "student" model to mimic a larger "teacher" model by learning from the teacher's soft probability distributions rather than hard labels.
Why it matters: Distillation is how the industry makes powerful AI accessible. A 70B model distilled into 7B can capture 90% of the capability at 10% of the cost.
DPO
直接偏好优化、Direct Preference Optimization
训练
RLHF的一种替代方案,用于模型对齐。DPO使用偏好/拒绝回复配对直接优化模型,无需单独的奖励模型或强化学习。更简单、更稳定、计算量更少。
为什么重要: DPO使对齐变得民主化。RLHF的多阶段流程复杂且不稳定;DPO将其压缩为一步。许多开放权重模型现在使用DPO的变体。
An alternative to RLHF for aligning language models with human preferences. DPO directly optimizes the model using pairs of preferred and rejected responses, without needing a separate reward model.
Why it matters: DPO democratized alignment by collapsing RLHF's complex pipeline into a single training step. Many recent open-weight models use DPO instead of RLHF.
数据集
训练集、数据
基础
用于训练、评估或测试机器学习模型的结构化数据集合。数据集可以是标注的(每个样本都有已知的正确答案)或未标注的(没有注释的原始数据)。数据集的质量、规模、多样性和代表性从根本上决定了模型能学到什么。
为什么重要: 垃圾进,垃圾出。用糟糕的数据集训练的最精妙的架构也会产生糟糕的结果。相反,用优秀数据训练的简单模型往往优于用噪声训练的复杂模型。数据集整理可以说是AI开发中影响最大却最不起眼的环节。
A structured collection of data used to train, evaluate, or test a machine learning model. Datasets can be labeled (each example has a known correct answer) or unlabeled (raw data without annotations). The quality, size, diversity, and representativeness of a dataset fundamentally determine what a model can learn.
Why it matters: Garbage in, garbage out. The most elegant architecture trained on a bad dataset will produce bad results. Conversely, a simple model trained on excellent data often outperforms a complex model trained on noise. Dataset curation is arguably the most impactful and least glamorous part of AI development.
Dropout
正则化、权重衰减
训练
一种正则化技术,在每个训练步骤中随机“关闭”一部分神经元,将其输出设为零。这防止网络过度依赖任何单个神经元,迫使其学习分布式的、鲁棒的表示。在推理时,所有神经元都被激活,但会相应地进行缩放。
为什么重要: Dropout是对抗过拟合的最简单且最广泛使用的防御手段。没有正则化,大型神经网络会记忆训练数据而不是学习可泛化的模式。Dropout(及其近亲权重衰减)是模型可以远大于训练集却不会只是记忆所有内容的原因。
A regularization technique that randomly "turns off" a fraction of neurons during each training step by setting their outputs to zero. This prevents the network from relying too heavily on any single neuron, forcing it to learn distributed, robust representations. At inference time, all neurons are active but scaled accordingly.
Why it matters: Dropout is the simplest and most widely-used defense against overfitting. Without regularization, large neural networks memorize training data instead of learning generalizable patterns. Dropout (and its cousin weight decay) are why models can be much larger than their training sets without just memorizing everything.
模型
一种用Transformer替代扩散模型中传统使用的U-Net骨干网络的架构。DiT将注意力机制应用于图像生成,实现了与LLM一样强大的缩放行为。Sora、Flux、Stable Diffusion 3以及大多数最先进的图像和视频生成器都使用DiT或其变体。
为什么重要: DiT将语言和图像生成的世界统一在单一的架构范式下:Transformer。这意味着为LLM开发的缩放定律、训练技术和优化策略在很大程度上可以迁移到图像和视频生成。这就是图像质量提升如此迅速的原因——该领域正在沿着与语言相同的缩放曲线发展。
An architecture that replaces the U-Net backbone traditionally used in diffusion models with a Transformer. DiT applies the attention mechanism to image generation, enabling the same scaling behavior that made LLMs so powerful. Sora, Flux, Stable Diffusion 3, and most state-of-the-art image and video generators use DiT or variants.
Why it matters: DiT unified the worlds of language and image generation under a single architectural paradigm: the Transformer. This means the scaling laws, training techniques, and optimization strategies developed for LLMs largely transfer to image and video generation. It's why image quality has improved so rapidly — the field is riding the same scaling curve as language.
训练
通过创建现有样本的修改版本来人工扩展训练数据集的技术。对于图像:翻转、旋转、裁剪、颜色偏移。对于文本:释义、回译、同义词替换。对于音频:速度变化、噪声注入。目标是教模型不变性——猫就是猫,无论图像是翻转的、变暗的还是裁剪的。
为什么重要: 数据增强是在数据有限时提高模型性能的最廉价方式。它通过向模型展示每个样本的多种变体来减少过拟合,教它关注本质特征而非表面细节。在计算机视觉中,增强通常能免费带来2至5%的准确率提升。
Techniques that artificially expand a training dataset by creating modified versions of existing examples. For images: flipping, rotating, cropping, color shifting. For text: paraphrasing, back-translation, synonym substitution. For audio: speed changes, noise injection. The goal is to teach the model invariances — a cat is a cat whether the image is flipped, darkened, or cropped.
Why it matters: Data augmentation is the cheapest way to improve model performance when you have limited data. It reduces overfitting by showing the model many variations of each example, teaching it to focus on essential features rather than superficial details. In computer vision, augmentation routinely provides 2–5% accuracy improvements for free.
分布式训练
数据并行、模型并行、FSDP
基础设施
在多个GPU或机器上同时训练模型。数据并行给每个GPU一份模型副本并分割训练数据。模型并行在模型太大无法装入单个GPU时将模型本身分割到多个GPU。FSDP(完全分片数据并行)和DeepSpeed等现代方法结合了两者,实现了数百亿参数模型的训练。
为什么重要: 没有任何前沿模型能装入单个GPU。训练GPT-4或Claude需要数千个GPU协同工作数月。分布式训练是使这一切成为可能的工程——它与架构或数据同等关键。分布式训练的效率直接决定了给定预算内能训练多大的模型。
双重用途
双用途技术
安全
可同时用于有益和有害目的的技术。AI本质上是双重用途的:帮助医生诊断疾病的同一模型可能帮助不法分子合成危险化合物。加速软件开发的同一代码生成模型可能帮助创建恶意软件。管理双重用途风险是AI治理的核心挑战。
为什么重要: 双重用途是AI开发的根本张力。使模型更强大不可避免地使其更具危害能力。你无法构建一个只推理好事的强大推理引擎。这一张力推动了关于开源发布、API限制和监管的辩论——当同一能力既能造福又能造害时,如何最大化收益同时最小化危害?
安全
一种在聚合数据分析和模型训练中保证个人隐私的数学框架。通过差分隐私,添加或移除任何单个个人的数据最多只会以微小的、有界的量改变输出。这意味着你可以从数据集中学习有用的模式,而不泄露其中任何特定人的信息。
为什么重要: 随着AI在越来越多的个人数据(健康记录、金融交易、消息)上训练,差分隐私提供了已知的最强保证,确保无法从模型中提取个人数据。它被Apple(键盘预测)、Google(Chrome使用分析)和美国人口普查局所使用。对于AI,它解决了LLM可能记忆并重现私人训练数据的担忧。
DALL-E
DALL-E 2、DALL-E 3
模型
OpenAI的图像生成模型系列。DALL-E 1(2021)使用离散VAE + Transformer方法。DALL-E 2(2022)使用CLIP + 扩散。DALL-E 3(2023)集成到ChatGPT中,强调提示遵循——它使用LLM在生成前将用户提示重写为详细的图像描述,显著提高了你要求的内容与你得到的结果之间的匹配度。
为什么重要: DALL-E是让公众意识到AI图像生成的模型。DALL-E 2在2022年的发布引发了病毒式传播,激发了对AI生成图像的兴奋和担忧。DALL-E 3与ChatGPT的集成使数亿用户能够使用图像生成。它的提示重写创新影响了其他模型处理文本到图像转换的方式。
解码器
解码器网络、生成器
基础
从表示生成输出的神经网络组件。在Transformer中,解码器使用因果(从左到右)注意力逐个生成token。在图像生成中,VAE解码器将潜在表示转换回图像。在自编码器中,解码器从压缩瓶颈重建原始输入。解码器是许多架构中的“生成”部分。
为什么重要: 每个生成式AI系统的核心都有一个解码器。GPT、Claude和Llama是纯解码器Transformer。Stable Diffusion使用VAE解码器生成图像。理解解码器能解释为什么生成是顺序的(每个token依赖于前面的token)、为什么输出比输入处理慢,以及为什么自回归范式主导文本生成。
Databricks
Mosaic ML、DBRX、Unity Catalog
公司
一个提供统一分析、数据工程和机器学习能力的数据和AI平台。Databricks于2023年收购了Mosaic ML以增加LLM训练能力,并发布了自己的开放权重LLM——DBRX。该平台建立在Apache Spark之上,为从数据准备到模型服务的完整ML生命周期提供托管基础设施。
为什么重要: Databricks是企业数据与AI相遇的地方。大多数公司的AI愿望始于“我们需要理解我们的数据”,而Databricks通常是在一个平台上处理数据工程、特征工程、模型训练和服务的平台。他们对Mosaic ML(以高效LLM训练闻名)的收购表明数据平台和AI平台正在融合。
Drift Detection
漂移检测、数据漂移、模型漂移、概念漂移
基础设施
监控数据分布或模型行为随时间的变化,这些变化可能降低性能。数据漂移:输入数据发生变化(客户人群特征变化、出现新产品类别)。概念漂移:输入与正确输出之间的关系发生变化(什么构成垃圾邮件在演变)。模型漂移:即使模型本身没有改变,其预测也逐渐变得不准确。
为什么重要: 模型是在历史数据上训练的,但世界在不断变化。2024年训练的欺诈检测模型会漏掉2025年的新欺诈模式。在疫情前行为上训练的推荐系统在疫情后会给出糟糕的建议。漂移检测在这些退化变得代价高昂之前捕获它们——提醒你模型需要重新训练或更新。
E
涌现
涌现能力、涌现行为
基础
在达到一定规模或训练阈值后突然出现的能力——这些能力并未在训练中被明确教授。一个纯粹用于预测下一个词的模型,竟然能够执行算术运算、在未被教授的语言之间进行翻译,或编写可运行的代码。涌现是人工智能领域最受争议的现象之一:它是真实的相变现象,还是测量误差?
为什么重要: 涌现问题是AI领域最大的疑问核心:我们能否预测更大模型将具备什么能力?如果能力确实以不可预测的方式在规模扩大时涌现,那么每个更大的模型都像是一个惊喜盒子。如果涌现只是测量方式带来的结果,那么规模扩大带来的变化可能比表面看起来更可预测。答案将影响从安全规划到投资决策的方方面面。
评估
Evals、模型评估
训练

用于衡量AI模型性能的方法。这远不止于基准测试——它包括人工评估(由人类对输出结果进行评分)、A/B测试(在真实流量中对比模型)、红队测试(对抗性测试)、领域特定测试(医疗准确性、代码正确性)以及社区排行榜(Chatbot Arena、LMSYS)。优秀的评估比构建模型本身更具挑战性。

为什么重要:

如果你无法衡量它,就无法改进它。但AI评估尤为困难,因为任务是开放式的,质量具有主观性。基准测试容易被操控,人工评估成本高昂,而纸面上得分最高的模型往往在实际应用中并非最佳。构建优秀的评估体系是一种超能力。

ElevenLabs
语音合成、语音克隆、配音
公司
语音AI公司,让每个人都能使用超逼真语音合成技术。他们的技术驱动语音克隆、实时配音和文本转语音功能,支持32种语言,模糊了人类与AI语音之间的界限。
为什么重要: ElevenLabs证明了AI生成语音能够跨越恐怖谷理论,听起来真正像人类,将专业语音制作的成本和时间降低了数量级。他们的声音克隆和多语言配音工具使独立创作者能够在不聘请任何配音演员的情况下,用30多种语言制作内容,彻底改变了音频和视频本地化的经济模式。他们还迫使整个行业正视合成语音技术的伦理问题,推动了数字水印、内容溯源标准和验证协议的采用,这些如今已成为行业规范。
嵌入
向量嵌入
训练

一种将文本(或图像、或音频)表示为数字列表(即向量)的方法,该向量能够捕捉其含义。在这一数字空间中,相似的概念会彼此靠近—“cat”和“kitten”距离较近,而“cat”和“economics”则相距甚远。

为什么重要: 嵌入向量是语义搜索和RAG的基础。它们使AI能够理解,对"fix login bug"的搜索应该匹配关于"authentication error resolution"的文档,即使没有词语重叠。
基础设施
一个特定的URL,用于接收AI API的请求。例如,Anthropic 的 message 端点是您向 Claude 发送提示(prompts)的地方。不同的端点服务于不同的功能:文本生成、嵌入(embeddings)、图像生成、模型列表。
为什么重要:

在整合AI提供商时,端点是关键所在。每个提供商的结构方式各不相同,这就是Zubnet等平台存在的原因——统一混乱的局面。

边缘AI
端侧AI、本地AI
基础设施
在终端设备(手机、笔记本电脑、汽车)上运行AI,而非在云端。数据隐私有保障、零延迟、可离线工作。
为什么重要: 隐私、延迟和成本的交汇点。一个手机上的3B模型在适合的任务上往往胜过数据中心里的400B模型。
Running AI models directly on end-user devices — phones, laptops, cars — rather than in the cloud. Your data never leaves your device, latency is near-zero, and it works offline.
Why it matters: Edge AI is where privacy, latency, and cost intersect. A fast 3B model on your phone beats a slow 400B model in a data center for many tasks.
存在性风险
X-Risk、AI 末日论
安全
认为足够先进的 AI 系统可能对人类生存构成威胁或永久限制人类潜力的假说。
为什么重要: 存在性风险是 AI 领域最具影响力的辩论。理解真正的论点有助于你形成知情的立场。
编码器-解码器
Seq2Seq、序列到序列
模型
一种包含编码器(压缩输入)和解码器(生成输出)的模型架构。T5/BART是编码器-解码器模型。GPT/Claude/Llama是纯解码器模型。BERT是纯编码器模型。
为什么重要: 解释了为什么不同的模型擅长不同的任务,以及为什么纯解码器架构在LLM领域胜出。
A model architecture with an encoder that compresses input and a decoder that generates output from it. T5 and BART are encoder-decoder. GPT/Claude/Llama are decoder-only. BERT is encoder-only.
Why it matters: Understanding encoder-decoder vs. decoder-only explains why different models excel at different tasks and why the field converged on decoder-only for LLMs.
Embedding Layer
Token Embedding, Embedding Table, Lookup Table
A lookup table that maps each token in the vocabulary to a dense vector (the token's embedding). When the model receives token ID 42, the embedding layer returns row 42 of a learned matrix. This vector is the model's initial representation of that token — the starting point for all subsequent processing through attention and feedforward layers.
Why it matters: The embedding layer is where text becomes math. Every LLM starts by converting discrete tokens (words, subwords) into continuous vectors that the neural network can process. The embedding table is also one of the largest components of small models — a 128K vocabulary with 4096-dimensional embeddings is 512 million parameters. Understanding this helps you reason about model sizes and vocabulary design.
早停法
耐心参数、基于验证的停止
训练
当保留验证集上的性能停止提升时停止训练,而不是训练固定的步数。随着训练继续,训练损失持续下降但验证损失最终开始上升——模型正在对训练数据过拟合。早停法在质量退化之前捕获这个拐点并保存最佳模型。
为什么重要: 早停法是微调中最简单也最有效的正则化技术。没有它,你可能训练过长并破坏你想要保留的能力。有了它,模型自动在最佳点停止。“耐心”参数(在停止之前有多少次评估没有改善)是微调中最重要的超参数之一。
编码器
编码器网络、特征提取器
基础
将输入数据转换为压缩的、信息丰富的表示(编码)的神经网络组件。在Transformer中,编码器使用双向注意力处理完整输入并生成上下文表示。在自编码器中,编码器将输入压缩到潜在瓶颈。在图像生成中,VAE编码器将图像转换到潜在空间。编码器是许多架构中的“理解”部分。
为什么重要: 编码器无处不在:BERT是编码器,CLIP有文本编码器和图像编码器,Stable Diffusion有VAE编码器,RAG系统使用编码器模型生成嵌入。理解编码器做什么——将输入压缩为有用的表示——帮助你理解所有这些系统。编码的质量决定了下游一切的质量。
F
训练
使用预训练模型,并在较小的特定数据集上进一步训练,以使其行为更加专业化。就像让一位通科医生接受外科住院医师培训——同样的基础知识,新的专业技能。
为什么重要:

微调是让通用模型能够胜任特定任务的方法。一个经过微调的模型可以学习您公司的语调、您所在领域的术语或特定的输出格式,而无需从头开始训练。

基础

在一个广泛数据集上训练的大型模型,可作为许多不同任务的基础。Claude、GPT、Gemini 和 Llama 都是基础模型。它们被称为“基础模型”,是因为无需针对每个任务进行特定训练,即可适应几乎所有任务——如写作、编程、分析、图像理解等。

为什么重要: 基础模型改变了AI的经济性。与其为每个任务单独训练一个模型,不如一次性训练一个巨大的模型,然后通过微调或提示来满足具体需求。
少样本学习
上下文学习、In-Context Learning
使用AI
在提示词中提供示例输入-输出配对。零样本(zero-shot)= 无示例,少样本(few-shot)= 2到10个。模型无需训练就能学会这种模式。
为什么重要: 最快、最便宜的定制行为方式。这是从模型规模中涌现出的最令人惊讶的能力之一。
Providing example input-output pairs in your prompt to teach the model a pattern. Zero-shot = no examples, one-shot = one, few-shot = 2–10. The model learns the pattern without any training.
Why it matters: Few-shot is the fastest, cheapest way to customize model behavior. It works because LLMs are extraordinary pattern matchers — one of the most surprising capabilities to emerge from scale.
Flash Attention
FlashAttention、FlashAttention-2
基础设施
一种 GPU 优化的注意力机制实现,比标准注意力快 2–4 倍,且内存消耗显著更低。它通过重新组织计算在 GPU 硬件上的执行方式来实现。
为什么重要: Flash Attention 可以说是现代 AI 中影响最大的系统优化。它使长上下文模型成为可能,直接推动了从 4K 到 128K+ 上下文窗口的飞跃。
前馌网络
FFN、MLP 块
基础
Transformer 每层中的组件,通过两个线性变换和激活函数独立处理每个 token。它是存储大部分知识的地方。
为什么重要: FFN 层包含模型的大多数参数(通常占总参数的 2/3),是存储知识的主要地方。
流匹配
整流流、Rectified Flow
模型
一种生成技术:学习从噪声到数据的平滑、直接路径。在相当质量下比扩散模型所需步骤更少。
为什么重要: 正在取代扩散模型成为最先进的图像/视频生成方法。Flux、SD3使用了这一技术。更少的步骤 = 更快 = 更便宜。
A generative technique that transforms noise into data by following smooth, direct paths. Fewer steps than diffusion models for comparable quality, making generation faster.
Why it matters: Flow matching is replacing diffusion for image and video generation. Flux, Stable Diffusion 3, and several video models use it. Fewer steps = faster inference = lower costs.
函数调用
工具调用、工具使用API
使用AI
一种让AI模型在对话过程中请求执行外部函数的结构化方式。你定义具有名称、描述和参数模式的函数。当模型判断某个函数有助于回答查询时,它输出结构化的函数调用(带参数)而非文本。你的代码执行该函数并返回结果供模型整合。
为什么重要: 函数调用是将聊天机器人变成智能体的关键。没有它,模型只能生成文本。有了它,模型可以搜索数据库、调用API、执行计算、预约、发送邮件——任何你能封装为函数的事情。这是每一个真正执行操作(而非只是谈论操作)的AI助手背后的机制。
A structured way for AI models to request execution of external functions during a conversation. You define functions with names, descriptions, and parameter schemas. When the model determines a function would help answer a query, it outputs a structured function call (with arguments) instead of text. Your code executes the function and returns the result for the model to incorporate.
Why it matters: Function calling is what turns a chatbot into an agent. Without it, a model can only generate text. With it, a model can search databases, call APIs, run calculations, book appointments, send emails — anything you can expose as a function. It's the mechanism behind every AI assistant that actually does things rather than just talking about them.
特征
学习表示、激活
基础
神经网络学会在其输入中检测的模式或概念。在视觉中,早期层特征是边缘和纹理;后期层特征是物体部分和完整物体。在语言模型中,特征从简单的(字母“a”、特定的语法模式)到抽象的(讽刺的概念、特定的推理策略)。特征表示为跨神经元的激活模式。
为什么重要: 特征是模型真正学习的东西——不是单个事实而是可泛化的模式。模型不会记住“猫有毛”;它学习一个毛状纹理的特征检测器,对猫、狗和泰迪熊都会激活。理解特征有助于解释模型行为:为什么它能泛化(特征迁移)、为什么它失败(错误的特征被激活)、以及如何改进它(让它接触更多样化的特征)。
联邦学习
FL、协作学习
训练
一种在不共享原始数据的情况下跨多个设备或组织训练模型的方法。每个参与者不是将数据发送到中央服务器,而是在自己的数据上训练模型的本地副本,并仅将模型更新(梯度)发送给中央协调器。协调器聚合所有参与者的更新以改进全局模型。
为什么重要: 联邦学习使得在因隐私、法规或竞争考虑而无法集中的数据上进行AI训练成为可能。医院可以协作训练诊断模型而不共享患者记录。公司可以改进共享模型而不暴露专有数据。它是大规模隐私保护AI训练最实用的方法。
FLOPs
Floating Point Operations, FLOP/s, Compute
Floating Point Operations — the standard measure of computational work in AI. Training a model requires a certain number of FLOPs (total operations). Hardware is rated in FLOP/s (operations per second). An H100 GPU can perform ~2,000 TFLOP/s (2 quadrillion operations per second) in FP16. GPT-4's training is estimated at ~10^25 FLOPs — a number so large it's hard to comprehend.
Why it matters: FLOPs are the currency of AI compute. Scaling laws are expressed in FLOPs. Training budgets are measured in FLOPs. GPU comparisons use FLOP/s. Understanding FLOPs helps you estimate training costs, compare hardware, and understand why AI progress is so closely tied to compute scaling. When people say "scaling compute," they mean spending more FLOPs.
人脸识别
面部识别、Face ID
安全
从图像或视频中识别或验证一个人的面部。验证问的是“这个人是不是他们声称的那个人?”(1:1匹配,用于手机解锁)。识别问的是“这个人是谁?”(1:N匹配,在数据库中比对,用于监控)。现代系统使用深度学习提取面部嵌入并进行比较,在受控条件下达到超人类准确度。
为什么重要: 人脸识别是最强大也最具争议的AI应用之一。它实现了便捷的身份验证(Face ID),帮助寻找失踪人员,并协助执法。它同时也使大规模监控成为可能,引发严重的隐私担忧,并且存在有据可查的跨人口统计学准确性差异——对女性和深肤色人群表现更差。它是双重用途技术的典型案例。
G
基础
生成式AI系统能够创建新的内容—文本、图像、音频、视频、代码、3D模型—而不仅仅是分析或分类现有数据。生成式AI是统称,涵盖从ChatGPT撰写文章到Stable Diffusion生成图像,再到Suno创作音乐等各种应用。"生成式"这一特性使这些模型区别于只能进行分类、预测或推荐的早期AI系统。
为什么重要: 生成式人工智能(Generative AI)是将人工智能带入主流文化的术语。在2024-2026年,当人们提到“AI”时,指的是生成能力,而不仅仅是计算能力。将其视为一个类别有助于你理解这一领域:大型语言模型(LLMs)生成文本,扩散模型(diffusion models)生成图像,模态之间的界限正在迅速模糊。
Google DeepMind
Gemini、AlphaGo、AlphaFold
公司
Google的统一AI研究部门,由DeepMind和Google Brain于2023年合并而成。负责Gemini、AlphaGo、AlphaFold以及许多推动现代AI发展的基础研究。
为什么重要:

谷歌DeepMind为现代人工智能领域贡献了比任何其他单一组织都更多的基础性研究——Transformer架构、强化学习领域的突破性工作、蛋白质结构预测以及扩展定律等成果均可追溯至DeepMind或Google Brain团队。他们的Gemini模型是唯一内置真正全球分布能力的前沿大语言模型,通过搜索、安卓和谷歌工作区触达数十亿用户。仅AlphaFold一项——它解决了生物学中一个持续五十年的难题并荣获诺贝尔奖——就足以使其在科学史上留下浓墨重彩的一笔,而不仅仅是人工智能的历史。

GAN
生成对抗网络
模型
一种模型架构,其中两个神经网络相互竞争:生成器生成假数据,而判别器试图区分真实与虚假。通过这种对抗性游戏,生成器在生成逼真输出方面变得越来越好。从2014年到~2022年,主导了图像生成领域。
为什么重要:

GANs率先实现了逼真的人工智能图像生成,并且仍被用于某些实时应用中。但扩散模型在对质量要求较高的工作中已基本取代了它们,因为GANs更难训练,且输出的多样性较低。

GPU
图形处理器
基础设施
最初设计用于图形渲染的GPU,结果证明非常适合人工智能,因为它们可以同时进行数千个数学运算。训练和运行人工智能模型本质上是大规模矩阵乘法—正是GPU所擅长的领域。英伟达主导了这个市场。
为什么重要:

GPU是整个AI行业的物理瓶颈。为什么模型价格如此之高,为什么有些提供商的速度更快,为什么会出现全球性的芯片短缺—归根结底还是GPU供应和VRAM的问题。

使用AI
将模型的响应与事实性、可验证的来源相连接,而不是仅仅依赖其训练数据。锚定技术包括 RAG、网络搜索集成和引用要求。一个基于事实的响应会说“根据 [来源]”,而不是仅仅陈述事实。
为什么重要: 依据是防止幻觉的主要防御手段。无依据的模型会自信地编造事实。而有依据的模型则会指向你可以验证的真实来源。
安全
防止AI模型生成有害、不恰当或偏离主题内容的安全机制。防护措施可以在训练期间内置到模型中(RLHF),通过系统提示应用,或通过外部过滤器强制执行,这些过滤器在输出到达用户之前检查内容。
为什么重要:

没有安全限制,模型会乐意帮助处理危险请求。挑战在于校准—过于严格,模型变得无用(“我帮不了你”),过于宽松则变得不安全。

梯度下降
SGD、反向传播
训练
通过计算梯度并沿下坡方向步进来迭代调整参数以减少损失。反向传播(Backpropagation)高效地计算各层的梯度。
为什么重要: 每个模型都是通过梯度下降训练的。它解释了学习率的重要性、训练发散问题,以及Adam优化器为什么有效。
The algorithm that trains neural networks by iteratively adjusting parameters to reduce the loss. Computes how much each parameter contributed to the error and nudges it in the direction that reduces it.
Why it matters: Every model you use was trained by gradient descent. Understanding it explains why learning rate matters, why training can diverge, and why optimizers like Adam work.
GGUF
GGML 统一格式
基础设施
通过 llama.cpp、Ollama 和其他本地推理工具运行量化语言模型的标准文件格式。加载和运行模型所需的一切都在一个文件中。
为什么重要: GGUF 是使本地 AI 变得实用的格式。它将一切打包成一个文件,可在任何硬件上运行。
GNN
图神经网络
模型
设计用于处理图结构数据的神经网络。通过在连接的节点之间传递消息来学习。
为什么重要: GNN 是处理图结构数据(社交网络、分子、推荐系统)的正确工具。
Groq
Groq LPU
公司
定制AI推理芯片(LPU)。专为顺序token生成而设计。500到800 tok/s,通常比GPU快10倍。
为什么重要: 证明了推理不必很慢。硬件路线 vs. 软件优化路线。
A chip company building custom AI inference processors (LPUs) purpose-built for sequential token generation, achieving 500–800 tokens/sec — often 10x faster than GPU alternatives.
Why it matters: Groq demonstrated that LLM inference doesn't have to be slow. Their speed comes from hardware, not software, suggesting GPUs may not be the long-term winner for inference.
GQA
Grouped Query Attention
An attention variant where multiple query heads share a single key-value head, reducing the KV cache size without significantly reducing quality. Instead of every query head having its own K and V projections (standard MHA), groups of query heads share K and V projections. Llama 2 70B, Mistral, Gemma, and most modern LLMs use GQA.
Why it matters: GQA is the practical solution to the KV cache memory problem. Standard multi-head attention with 64 heads needs 64 sets of K and V tensors per layer in the cache. GQA with 8 KV heads reduces this to 8 sets — an 8x memory reduction. This directly translates to serving more concurrent users or handling longer contexts on the same hardware.
Gradient Checkpointing
Activation Checkpointing, Rematerialization
A memory-saving technique that trades compute for memory during training. Instead of storing all intermediate activations from the forward pass (needed for backpropagation), gradient checkpointing only stores activations at certain "checkpoint" layers and recomputes the others during the backward pass. This reduces memory usage by up to 5–10x at the cost of ~30% more compute.
Why it matters: Gradient checkpointing is what makes it possible to fine-tune large models on limited GPU memory. Without it, a 7B model might need 80+ GB just for activations during training, exceeding a single GPU's capacity. With gradient checkpointing, the same model can be fine-tuned on a 24GB consumer GPU. It's the most commonly used memory optimization for training.
引导比例
CFG比例、无分类器引导
使用AI
控制图像生成模型遵循文本提示强度的参数。低引导(1–3):模型自由生成,产出多样但可能偏题的图像。高引导(7–15):模型严格遵循提示,但可能产出过饱和、有瑕疵的图像。通常的最佳区间是7–9。它是图像生成中相当于文本模型温度参数的东西。
为什么重要: 引导比例是图像生成中仅次于提示本身最具影响力的参数。太低则图像忽略你的描述。太高则图像看起来过饱和且不自然。理解引导比例帮助你排查“为什么我的图像不匹配我的提示?”(引导太低)和“为什么我的图像看起来很奇怪?”(引导太高)。
H
超参数
训练超参数
训练
训练开始前您选择的设置,用于控制模型的学习方式 — 与参数不同,参数是模型自行学习的。超参数包括学习率(每次更新的步长大小)、批量大小(一次处理的样本数量)、训练轮数(遍历数据的次数)、优化器选择(Adam、SGD、AdamW)、权重衰减、丢弃率,以及架构决策如层数和隐藏维度。正确设置超参数往往是模型顺利收敛与陷入混乱或无意义结果之间的关键差异。
为什么重要: 超参数调优是机器学习工程中科学与技艺并存的部分。即使拥有完美的数据集和网络结构,但学习率过高会导致训练崩溃,过低则无法收敛。理解超参数对于训练或微调模型的人来说至关重要——知道哪些超参数最关键,可以节省大量计算资源。
HeyGen
AI 数字人视频、唇形同步配音
公司

AI视频平台,专精于生成逼真的面部动画和自动口型同步配音。被企业用于营销、培训和本地化——将一个视频转换为数十种语言,同时保持口型同步。

为什么重要: HeyGen 将 AI 视频虚拟形象从一项研究课题转变为真正的企业级工具,证明了将视频内容创作变得像写文档一样简单可以带来实际收入。他们的口型同步配音技术对全球企业具有特殊意义 — 它将视频本地化的成本和时间从数周和数千美元大幅降低到分钟和美分。作为少数几家拥有稳定持续性收入的 AI 视频公司之一,HeyGen 也成为了如何在生成式 AI 上构建真正商业的案例研究,而不仅仅是一个演示。
HiDream
HiDream 图像生成模型
公司
新兴的图像生成公司正在构建高质量的扩散模型。他们的开放权重版本在创意AI社区中因强大的提示遵循能力和出色的视觉质量而受到关注。
为什么重要: HiDream展示了小型专注团队可以开发出开放权重的图像模型,其输出质量可与那些在训练基础设施上投入数量级更多资源的组织相媲美。他们的模型在文本渲染和组合准确性方面的优势,解决了阻碍AI生成图像商业应用的实际痛点。在快速商品化的开放图像模型领域,HiDream的成功强化了这样一个模式:下一次质量飞跃可能来自任何地方—不仅仅是拥有最多GPU的最大实验室。
Hume
共情语音接口、情绪识别
公司
AI公司正在构建能够理解和表达人类情感的模型。他们的Empathic Voice Interface能够实时检测语调、情感和情感语境,使AI对话不仅能够回应你所说的话,还能回应你说话的方式。
为什么重要: Hume 之所以重要,是因为他们正在解决现代AI中最明显的盲点:情感理解。如今的每一个聊天机器人、语音助手和AI代理本质上都对语调不敏感,只关注文字的字面内容,而忽略了人类本能依赖的情感语境。Hume 的 Empathic Voice Interface 是首个在生产规模上真正尝试弥合这一差距的系统,而他们对情感AI伦理准则的坚持,也为行业树立了最终不得不采纳的标准。
使用AI

当AI模型生成的信息听起来自信且合理,但实际上是错误的或完全虚构时。模型并不是在“撒谎”—它只是通过模式匹配生成流畅的文本,而没有对真理的概念。虚假的引用、编造的统计数据和不存在的API方法是常见的例子。

为什么重要: 幻觉是当今AI领域最大的信任问题。这就是为什么你应该始终验证AI输出中的关键事实,以及为什么存在诸如RAG和grounding等技术。
公司
开源AI的中心枢纽。托管50万+模型、10万+数据集,提供Transformers库和Spaces平台。AI领域的GitHub。
为什么重要: 如果你使用开放权重模型,你就在用HF。Transformers库是事实上的行业标准。
The central hub of open-source AI. Hosts 500K+ models, 100K+ datasets, the Transformers library, and Spaces for demos. To AI what GitHub is to code.
Why it matters: If you work with open-weight models, you use Hugging Face. Every Llama, Mistral, and Qwen download comes from there. The Transformers library is the de facto standard.
人工评估
人类评估、手动评估
基础
通过让人类直接判断来评估AI输出质量。人类评估流畅性、准确性、有用性、安全性,以及输出是否真正满足了请求。尽管成本高昂且速度较慢,人工评估仍然是金标准,因为自动化指标常常忽略对用户真正重要的东西。
为什么重要: 每个自动化指标都是人类判断的代理,而每个代理都有盲点。BLEU无法检测事实错误。困惑度无法衡量有用性。即使LLM-as-judge方法也继承了偏差(例如偏好冗长的回复)。当风险很高时——发布产品、比较模型版本、评估安全性——人工评估不可替代。
超参数调优
HPO、超参数优化、网格搜索
训练
系统地搜索最佳超参数——在训练期间不会被学习、必须在训练开始前设置的配置选择。学习率、批量大小、层数、dropout率和LoRA秩都是超参数。调优方法包括网格搜索(尝试所有组合)、随机搜索(尝试随机组合)和贝叶斯优化(使用过去的结果指导搜索)。
为什么重要: 好的和差的超参数之间的差别可以是巨大的——错误的学习率可以让训练发散或收敛到糟糕的解。超参数调优是你从模型架构和数据中获得最大收益的方式。对于微调LLM,学习率和epoch数通常是最具影响力的调优超参数。
I
Ideogram
图像中的文字渲染、Ideogram 2.0
公司
AI图像生成公司,由前Google Brain研究人员创立。因解决图像生成领域中最难的问题之一而声名鹊起:在图像中生成可读且准确的文本。
为什么重要: Ideogram证明,解决一个关键弱点——AI生成图像中的可读文本——可以在竞争激烈的图像生成领域开辟出独特的市场定位。从文本渲染专家发展为功能齐全的设计平台,展示了当技术差异化针对实际工作流程中的痛点时,如何能够与资金更充足的竞争对手竞争。
基础设施
运行训练好的模型以生成输出的过程。训练是学习;推理是应用所学知识。每次你向Claude发送提示或使用Stable Diffusion生成图像时,这都属于推理。这正是消耗服务提供商GPU小时数并按每个token计费的部分。
为什么重要: 推理成本和速度决定了AI产品的经济性。更快的推理——更低的延迟——更好的用户体验。更便宜的推理——更低的价格——更广泛的应用。整个量化和优化行业存在的目的就是让推理更加高效。
指令微调
IFT、SFT
训练
在(指令,回复)对的数据集上微调预训练语言模型,以教会模型遵循指令。这一步将 GPT 变成了 ChatGPT。
为什么重要: 指令微调是连接原始语言模型和实用助手之间的桥梁。它可以说是最重要的后训练步骤。
图像生成
文本到图像、AI 艺术
基础
使用 AI 模型根据文本描述创建图像。包括扩散模型、流匹配和自回归模型等方法。
为什么重要: 图像生成是继聊天机器人之后最显眼的消费级 AI 能力。它正在改变平面设计和视觉传达。
指令遵循
指令服从
使用AI
模型准确执行用户要求的能力——遵守格式约束、长度要求、风格规范和行为指令。
为什么重要: 指令遵循是最具实际重要性的 LLM 能力。它已成为模型评估的核心。
A specific two-attention-head circuit discovered in Transformers that implements in-context learning by pattern matching. If the model has seen the pattern "A B" earlier in the context and now sees "A" again, the induction head predicts "B" will follow. This simple mechanism is believed to be a fundamental building block of how LLMs learn from examples in their context.
Why it matters: Induction heads are the best-understood circuit in mechanistic interpretability — a concrete example of how Transformers implement a useful algorithm from learned weights. They explain why few-shot prompting works: when you give examples, induction heads detect the pattern and apply it. Understanding induction heads provides a foundation for understanding more complex learned behaviors.
图像分割
语义分割、SAM、实例分割
使用AI
将图像中的每个像素分类到一个类别。语义分割按类别标记像素(道路、人行道、建筑、天空)。实例分割区分单个目标(人1、人2)。全景分割同时做两者。Meta的SAM(Segment Anything Model)可以通过点击或文本提示分割任何目标,无需特定任务的训练。
为什么重要: 分割提供了对图像内容最精确的理解。自动驾驶汽车需要像素级的道路边界,而不仅仅是边界框。医学影像需要精确的肿瘤边界。照片编辑需要精确的目标掩码来去除背景。SAM零训练分割任何目标的能力使这种以前的专业能力变得人人可用。
图像修复
图像修补、图像外扩
使用AI
用与周围上下文匹配的AI生成内容填充图像中选定的区域。你遮盖一个区域(涂抹覆盖),描述应该替换的内容,模型生成与现有图像无缝融合的新内容。图像外扩将图像扩展到其原始边界之外。两者使用相同的底层扩散过程,以未遮盖区域为条件。
为什么重要: 图像修复是AI提供的最实用的图像编辑工具。去除不需要的物体、替换背景、修复缺陷、添加元素,或修改图像的特定部分同时保持其余部分不变。它是AI版的Photoshop内容感知填充,但由自然语言引导且能力强大得多。
Image-to-Image
图像到图像、img2img、图像条件生成
使用AI
基于现有图像加文本提示生成新图像。与从纯噪声开始的文生图不同,扩散过程从输入图像的噪声版本开始,保留其结构的同时根据提示进行修改。“这张照片的赛博朋克版本”保持构图但转换风格和细节。
为什么重要: 图像到图像是摄影与AI艺术之间的桥梁。它让你使用草图、照片或现有的艺术作品作为起点,保持布局和构图的同时让AI转换风格、添加细节或重新想象内容。它比文生图更可控,因为你用视觉结构而不仅仅是文字来引导输出。
Information Extraction
信息提取、IE、结构化提取
使用AI
从非结构化文本中自动提取结构化信息。给定一篇新闻文章,提取:谁做了什么,何时,在哪里,为什么。给定一份合同,提取:当事方、日期、义务和金额。IE结合了NER(找到实体)、关系提取(找到实体之间的联系)和事件提取(找到发生了什么)形成统一的管线。
为什么重要: 世界上大部分信息都被困在非结构化文本中——电子邮件、报告、文章、法律文件、医疗记录。信息提取将这些文本转化为可以搜索、分析和操作的结构化数据。它是让你能够对一堆文档提出数据库式查询的技术。
J
Jina AI
Embedding 嵌入、Reader API、Rerank 重排序
公司

总部位于柏林的人工智能公司,专注于搜索和嵌入技术。其jina-embeddings模型和Reader API(可将任何URL转换为适用于LLM的文本)已成为全球RAG流水线中的关键基础设施。

为什么重要:

Jina AI 构建了数千个 RAG 系统依赖的嵌入和检索基础设施,证明了专注于搜索工具的价值可以胜过试图面面俱到。他们的长上下文嵌入模型和 Reader API 解决了 AI 驱动搜索中两个最难的实际问题——准确表示长文档以及从杂乱的网页中提取干净文本——同时他们还保持了核心模型的开源。在一个由通用型实验室主导的生态系统中,Jina 展示了专注做好一件事并让开发者极其简单易用,确实可以成为一项真正的商业价值。

越狱
越狱攻击、对抗性提示
安全
诱使 AI 模型绕过其安全训练,生成本应拒绝的内容的技术。每个主要模型都曾被越狱。
为什么重要: 越狱是 AI 安全的对抗测试场。越狱技术与安全措施之间的攻防博弈推动了对齐的改进。
K
可灵 AI
可灵视频生成、长视频生成
公司
来自快手(中国第二大短视频平台)的AI视频平台。因生产出一些最物理连贯且时间一致的AI生成视频而迅速获得国际关注。
为什么重要:

Kling AI展示了中国人工智能实验室在视频生成最尖端领域能够与西方竞争对手一较高下,其产出结果在物理一致性与时间一致性方面设立了新的行业标准。

依托快手日处理数十亿视频的平台支持,并在全球市场提供极具竞争力的价格,Kling已成为人工智能视频领域的主要竞争推动力,持续提升整体市场质量并压低价格。

KV缓存
键值缓存、Key-Value Cache
基础设施
存储先前计算的键/值注意力张量,使其不需要在每个新token时重新计算。用内存换取速度。
为什么重要: KV缓存是LLM推理受限于内存的原因。在一个70B模型上处理10万token的上下文可能需要约256GB的缓存——比模型权重本身还大。这是长上下文推理的根本约束。
A memory optimization storing previously computed attention key/value tensors so they don't need recomputation for each new token. Trades memory for speed.
Why it matters: The KV cache is why LLM inference is memory-bound. A 100K context can consume tens of GB for cache alone. It's why long contexts cost more and why paged attention matters.
知识截止日期
训练数据截止日期
基础
模型在该日期之后没有训练数据的时间点,意味着它缺乏该日期之后发生的事件的知识。
为什么重要: 知识截止日期是 AI 助手最常见的挫折来源。理解截止日期有助于你知道何时信任模型。
知识图谱
KG、本体
基础
一种将知识表示为实体通过关系连接的网络的结构化方式,支持推理和查询。
为什么重要: 知识图谱通过提供结构化、可验证的事实来补充 LLM。
Knowledge Editing
Model Editing, Fact Editing
Techniques for modifying specific facts in a trained model without retraining it. If a model incorrectly states "The president of France is Macron" after a new election, knowledge editing can update this specific fact by modifying targeted weights, without affecting the model's other knowledge or capabilities. The goal is surgical precision: change one fact, leave everything else intact.
Why it matters: Knowledge editing addresses a practical problem: models become outdated, and retraining is expensive. If you could update specific facts cheaply, models could stay current between major training runs. It also has safety implications: could you edit out dangerous knowledge? The field is promising but immature — edits often have unintended side effects on related knowledge.
L
Leonardo.ai
创意图像生成、游戏素材创建
公司
在Midjourney和Stable Diffusion之间找到独特定位的澳大利亚AI图像平台,因其经过微调的模型、实时画布以及专注于可直接用于生产的创意素材,深受游戏开发者和数字艺术家欢迎。
为什么重要: Leonardo.ai 表明,AI 图像生成可以被打包为一个专业的创意平台,而不仅仅是新奇的提示框,并且这样做可以吸引数千万用户。他们对游戏开发和数字艺术工作流程的关注,开辟了 Midjourney 和 DALL-E 等更广泛工具并未专门设计的使用场景。Canva 的收购验证了整个 AI 图像生成类别作为主要设计平台的战略资产的地位,并为独立 AI 工具如何被整合进更大的创意生态系统设定了模板。
Liquid AI
Liquid 基础模型、液态神经网络
公司

MIT 分拆公司正在探索受生物神经回路启发的、从根本上不同的神经网络架构。他们的 Liquid Foundation Models 使用连续时间动力学而非固定权重的 Transformer,有望实现更高的效率和适应性。

为什么重要: Liquid AI 代表着对“transformer 是唯一重要的架构”这一假设的最严重资金支持的挑战。通过基于生物启发的连续时间动力学构建生产级基础模型,他们正在测试AI行业对注意力机制的全押赌注是否过于仓促。即使LFMs无法彻底取代transformer,它们在边缘部署和长序列处理方面的效率优势,可能在机器人、移动AI和嵌入式系统等领域开辟关键细分市场——在这些市场中,运行一个70B参数的transformer模型根本不可行。
Luma AI
Dream Machine、Ray2
公司
专注于视频和3D生成的人工智能公司。他们的Dream Machine是首批可访问的高质量AI视频生成器之一,而Ray2则显著提升了视频质量和连贯性。
为什么重要:

Luma AI 通过让 AI 视频生成变得免费、快速且任何有浏览器的人都可以使用,就像 Stable Diffusion 让图像生成民主化一样。他们从 3D 捕捉初创公司发展成为领先的视频生成公司,结合在空间理解方面的独特技术深度,使他们成为少数几家真正能够弥合 AI 视频、3D 内容与下一代沉浸式媒体格式之间差距的公司之一。

延迟
首 Token 时间 (TTFT)
基础设施
发送请求到收到首个响应之间的时间延迟。在 AI 领域,这通常被衡量为首个 Token 响应时间(TTFT)— 模型开始流式传输答案之前的时间。受模型规模、服务器负载、网络距离和提示长度的影响。
为什么重要: 用户认为超过 ~2 秒的响应时间就是缓慢的。低延迟正是为什么较小的模型在实时应用中经常胜出,即使更大的模型更“智能”。这是不同提供商之间的关键差异点。
基础
一种通过大量文本训练的神经网络,用于理解和生成人类语言。“大型”指的是参数数量(数十亿)和训练数据规模(万亿个token)。Claude、GPT、Gemini、Llama 和 Mistral 都是大型语言模型(LLMs)。
为什么重要:

大型语言模型(LLM)是您使用的所有AI聊天机器人、代码助手和文本生成器背后的技术。理解它们的本质(统计模式匹配器,而非有意识的智能体)有助于您更有效地使用它们,并认识到它们的局限性。

LoRA
低秩适配
训练
一种通过仅训练少量额外参数而非修改整个模型,显著降低微调成本的技术。LoRA “适配器”是轻量级附加组件(通常仅需数兆字节),可在不重新训练其数十亿个参数的情况下修改模型的行为。
为什么重要: LoRA使微调更加普及。在此之前,定制一个7B模型需要强大的GPU资源。现在你可以在单块消费级GPU上数小时内完成微调,并分享这个小巧的适配器文件。这就是为什么HuggingFace上有数千个专业模型的原因。
损失函数
目标函数
训练
衡量预测有多偏离正确答案的指标。对于LLM:交叉熵损失 = 模型对实际下一个token的“惊讶”程度。训练的目标就是最小化这个值。
为什么重要: 训练的指南针。理解损失函数有助于解读训练曲线和诊断问题。
A mathematical function measuring how wrong a model's predictions are. For LLMs, cross-entropy loss measures how surprised the model is by the actual next token. Training minimizes this number.
Why it matters: The loss function is the compass of training. Everything a model learns serves to reduce it. Understanding loss helps you interpret training curves and diagnose problems.
工具
一个由 Georgi Gerganov 创建的开源 C/C++ 库,用于在消费级硬件上运行 LLM 推理,无需 CUDA、PyTorch 或 Python。
为什么重要: llama.cpp 开启了本地 AI 革命。它是第一个让普通开发者能在本地运行大型语言模型的工具。
工具
一个用于构建语言模型应用的流行开源框架。提供 RAG、链、智能体和工具等常见模式的抽象。
为什么重要: LangChain 是使用最广泛的 LLM 应用框架。理解何时使用它与直接 API 调用有助于架构决策。
Logits
原始分数、Softmax 前输出
基础
模型在通过 softmax 转换为概率之前输出的原始、未归一化的分数。它们是模型产生的最具信息量的输出。
为什么重要: 理解 logits 有助于你理解模型如何思考。温度、top-p 和 top-k 采样都在 logits 上操作。

隐藏层、神经网络层
基础
神经网络中在特定抽象级别处理数据的一组神经元。输入层接收原始数据。隐藏层(中间层)学习越来越抽象的表示。输出层产生最终结果。“深度”学习意味着许多隐藏层——现代LLM有32到128+层。
为什么重要: 层创造了使深度学习强大的层次结构。早期层学习简单模式(图像中的边缘,文本中的词片段)。中间层将这些组合成概念(面孔、短语)。深层将概念组合成高级理解(场景识别、推理)。网络的深度决定了它能学习的模式的复杂程度。
LSTM
长短期记忆网络
模型
一种专门设计用于学习序列数据中长程依赖关系的循环神经网络(RNN)。LSTM引入了“单元状态”——一条记忆高速公路,可以将信息不变地传递跨越许多时间步——由三个门控制:输入门(添加什么)、遗忘门(移除什么)和输出门(暴露什么)。发明于1997年,LSTM在Transformer出现之前主导了序列建模。
为什么重要: LSTM是2010年代NLP的支柱:机器翻译、语音识别、文本生成和情感分析都运行在LSTM上。理解LSTM有助于你理解为什么Transformer取代了它(并行性和长程注意力 vs. 顺序处理和压缩状态)以及为什么像Mamba这样的SSM令人感兴趣(它们以现代改进重新审视了门控状态的思想)。
Learning Rate Schedule
LR Schedule, Warmup, Cosine Annealing
A strategy for changing the learning rate during training rather than keeping it constant. Most modern training uses warmup (gradually increase from near-zero to peak) followed by decay (gradually decrease toward zero). Cosine annealing is the most common decay schedule. The learning rate controls how large each gradient update step is — arguably the most important hyperparameter in training.
Why it matters: Getting the learning rate schedule right can make or break a training run. Too high and the model diverges (loss spikes, training fails). Too low and it trains too slowly or gets stuck. The schedule interacts with batch size, model size, and data — there's no universal setting. Understanding learning rate schedules helps you interpret training curves and diagnose training issues.
Language Detection
语言检测、语言识别、LangID
使用AI
自动识别文本是用哪种语言编写的。“Bonjour le monde”→法语。“こんにちは世界”→日语。现代模型可以仅凭几个词区分100多种语言,处理多语言混合文本(语码转换),并识别密切相关的语言(挪威语与丹麦语、马来语与印尼语)。
为什么重要: 语言检测是任何多语言管线中必不可少的第一步:你需要先知道输入是什么语言,才能翻译它、将其路由到正确的模型,或应用语言特定的处理。它被用于搜索引擎、客户支持路由、内容审核,以及所有处理来自全球用户文本的系统中。
Lambda Labs
Lambda、Lambda Cloud
公司
一家专注于AI和机器学习工作负载的GPU云提供商。Lambda提供按需和预留的NVIDIA GPU实例(A100、H100、H200),用于训练和推理,价格与AWS、GCP和Azure相当或更低。他们还销售GPU工作站和服务器。Lambda成立于2012年,已成为AI研究人员和初创公司的首选提供商。
为什么重要: Lambda代表了使AI开发成为可能的GPU云层,面向那些无法负担自建数据中心但需要比超大规模云提供商更多控制权和更好定价的团队。对于训练模型的初创公司来说,Lambda的GPU可用性和定价可能决定训练是否可行。
M
模型
AI 模型、ML 模型
基础
一个经过训练的数学系统,它接收输入并根据从数据中学习到的模式生成输出。在人工智能领域,“model(模型)”是用于描述你实际使用的事物的统称——无论是GPT-4生成文本、Stable Diffusion生成图像,还是Whisper转录语音。一个模型由其架构(其结构方式)、参数(其学习内容)和训练数据(其学习来源)定义。当有人问“我应该使用哪个模型?”时,他们就是在问这个。
为什么重要: “模型”是AI领域中最常用的词汇,其在不同语境下含义各异。一个“模型”可以指代架构(Transformer),也可以指特定的训练实例(Claude Opus 4.6),或是磁盘上的文件(.gguf 文件),甚至是一个API端点。理解模型究竟是什么——以及它不是什么——是其他一切的基础。
基础
计算机科学的一个广泛领域,系统通过数据学习模式,而不是遵循明确的规则。与其通过列举特征(四条腿、尖耳朵、胡须)来编程计算机识别猫,不如向它展示成千上万张猫的照片,让它自己找出模式。机器学习涵盖从简单的线性回归到驱动当今AI的深度神经网络——监督学习(带标签的示例)、无监督学习(发现结构)和强化学习(试错)。
为什么重要: 机器学习是今天我们所称“人工智能”(AI)的一切基础。每一个大型语言模型(LLM)、每一个图像生成器、每一个推荐算法、每一个垃圾邮件过滤器——它们全部都是机器学习。将机器学习视为一个更广泛的学科来理解,能帮助你认识到深度学习适用的领域、传统方法依然占优的地方,以及为什么“人工智能”其实就是“做得非常好的机器学习”。
记忆
AI 记忆、持久化上下文
使用AI

允许AI模型在单次对话之外保留和回忆信息的机制。这包括上下文记忆(使用上下文窗口)、外部记忆(RAG、向量数据库)、持久化对话记忆(跨会话记住用户偏好)和工作记忆(在多步骤代理任务中维持状态)。—记忆正是让AI感觉像一个协作者而非无状态工具的关键。

为什么重要: 没有记忆,每次AI对话都从零开始。你必须重复说明你的偏好,重新解释你的代码库,重新描述你的项目。记忆正是将聊天机器人转变为助手的关键——而它也是最难妥善解决的问题之一,需要在相关性、隐私性、数据陈旧性和存储成本之间取得平衡。
月之暗面
Kimi、超长上下文模型
公司
中国人工智能公司因推出Kimi而引起轰动,这是一款拥有200万token上下文窗口的聊天机器人。由杨志林创立,他此前是长上下文建模关键创新的幕后研究人员。
为什么重要:

Moonshot AI迫使整个行业认真对待上下文长度。在Kimi出现之前,长上下文支持只是锦上添花;而Kimi在中国爆红后,每家主要实验室都争相扩展其上下文窗口。杨志林押注用户在拥有足够上下文时会彻底改变与AI的交互方式,这一押注已被Kimi的爆炸性增长所验证,而Moonshot开发的高效长序列推理技术正在影响下一代模型处理文档、代码库和复杂多步骤推理的方式。

Meta AI
Llama、FAIR、PyTorch
公司
Meta的人工智能研究部门,FAIR(基础人工智能研究)所在地。负责开放权重的Llama模型系列以及PyTorch,这是被大多数人工智能行业使用的深度学习框架。
为什么重要:

Meta AI 通过证明前沿级模型可以以开放权重的形式发布,从根本上改变了人工智能的经济模式。Llama 及其衍生模型驱动着成千上万的应用程序、初创公司和研究项目,这些项目此前从未有机会接触到如此级别的模型。PyTorch 是全球大多数人工智能研究和生产系统的基础。而其应用覆盖了30亿以上的用户,Meta 的分发能力是其他任何人工智能实验室都无法企及的——当它们推出一项AI功能时,这项功能能在一夜之间覆盖全球三分之一的人口。

Mistral AI
Mistral、Mixtral、Codestral、Le Chat
公司
欧洲人工智能巨头,由前DeepMind和Meta研究人员创立。凭借高效模型实现超预期表现,并倡导开放权重分发与商业产品并行推进。
为什么重要:

Mistral证明了,你不需要美国超大规模云服务商的预算来构建前沿AI模型。他们的高效架构——尤其是早期在稀疏Mixture of Experts方面的研究——影响了整个行业对模型设计的思路,并通过开源权重发布,让全球开发者无需依赖API即可访问高质量模型。作为首家达到真正前沿竞争水平的欧洲AI公司,Mistral还具有战略意义:他们的成功(或失败)将决定欧洲能否成为AI领域的参与者,而不仅仅是监管者。

MiniMax
MiniMax 模型、海螺 AI、视频生成
公司

中国AI公司构建跨文本、语音和视频的大规模模型。以其Hailuo消费平台和日益具有竞争力的多模态模型而著称。

为什么重要:

MiniMax 已经成为中国最全能的AI公司之一,通过一体化技术栈在文本、语音和视频领域构建具有竞争力的模型。他们的 Hailuo AI 平台向全球用户免费提供高质量的AI视频生成服务,证明了中国AI实验室能够打造真正具有国际影响力的产品——而不仅仅是企业级API或研究论文。

MCP
模型上下文协议
工具
一个开放协议(由Anthropic创建),用于标准化AI模型如何连接外部工具和数据源。可以将其视为AI领域的USB-C——一种统一的标准接口,而不是为每个工具都进行定制集成。MCP服务器提供功能;MCP客户端(如Claude)使用这些功能。
为什么重要: 在MCP出现之前,每个AI工具集成都是定制的。MCP意味着一次构建的工具可以与任何兼容的AI配合使用。它目前已获得Claude、Cursor等的支持。这就是AI从聊天机器人转变为真正助手的方式。
模型

一种架构,其中模型包含多个“专家”子网络,但每个输入仅激活其中少数几个。一个路由网络决定哪些专家与给定的token相关。这意味着模型可以拥有1000亿+的总参数,但每次前向传递仅使用200亿个参数。

为什么重要: MoE 是 Mixtral 等模型(据报道还有 GPT-4)实现大模型质量与小模型速度的方法。权衡在于更高的内存占用(所有专家模型都必须加载),尽管计算成本更低。
基础

能够理解和/或生成多种类型数据(文本、图像、音频、视频、代码)的模型。克劳德可以读取图像和文本;一些模型还可以生成图像或语音。“多模态”与仅处理一种类型数据的“单模态”模型形成对比。

为什么重要: 现实中的任务是多模态的。你想向AI展示一张截图并问“这里有什么问题?”,或者给它一张图表并说“实现这个”。多模态模型使得这一切成为可能。
Mamba
选择性SSM
模型
由Gu和Dao提出的选择性状态空间模型。序列长度线性扩展,而非Transformer的二次方。压缩的隐藏状态被选择性更新——重要信息被保留,无关信息衰减。
为什么重要: 对Transformer主导地位最有力的挑战。如果能在线性时间内达到Transformer级别的质量,其影响将是巨大的。混合架构(Jamba、Zamba)已经在投入使用。
A selective state space model architecture challenging the Transformer. Achieves competitive performance with linear scaling in sequence length by maintaining a compressed, selectively updated hidden state.
Why it matters: Mamba is the most credible challenge to Transformer dominance. Linear-time processing with comparable quality would mean longer contexts, faster inference, lower costs. Hybrid architectures are already shipping.
模型坍缩
数据反馈循环
训练
当 AI 模型在前代 AI 模型生成的数据上训练时发生的退化,形成错误和偏差累积的反馈循环。
为什么重要: 模型坍缩是 AI 生成内容时代的定时炸弹。如果不妥善管理,模型质量可能会停滞或退化。
多智能体系统
多智能体、智能体群
使用AI
多个 AI 智能体协作、辩论或专精化以解决单个智能体无法独自处理的问题的架构。
为什么重要: 多智能体系统是处理复杂 AI 任务的新兴范式。随着 AI 发展为自主工作流,它成为自然的扩展模式。
安全
在神经元/电路/特征层面逆向工程神经网络内部的运作机制。不仅关注模型输出了什么,更关注它是如何计算的。
为什么重要: AI安全的核心。研究人员已经在Transformer内部发现了特定的电路(如归纳头等)。这是Anthropic的重点研究领域。
Reverse-engineering what happens inside neural networks at the level of neurons, circuits, and features — not just what the model outputs, but how it computes those outputs.
Why it matters: If we trust AI with important decisions, we need to understand how it makes them. Researchers have identified specific circuits inside Transformers. Central to Anthropic's safety research.
公司
以美学精炼著称的AI图像生成工具。通过Discord和网页端运营。团队精简、盈利、注重质量。
为什么重要: 最受创意/艺术用户欢迎的工具。证明了策展和用户体验与架构本身同等重要。
An AI image generation company known for aesthetically refined output. Operates through Discord and web. Runs profitably with a small team focused on artistic quality over benchmarks.
Why it matters: The most popular AI image generator for creative use. Proves that AI success isn't just about architecture; curation and user experience matter enormously.
模型服务
vLLM、TGI、TensorRT-LLM、推理服务器
基础设施
在生产中运行训练好的AI模型的基础设施和软件,处理传入请求、管理GPU内存、批量处理以提高效率并返回响应。vLLM、TGI(文本生成推理)和TensorRT-LLM等模型服务框架解决了使LLM推理在大规模上快速且经济高效的复杂工程问题。
为什么重要: 从“我有一个模型”到“我可以同时服务10000个用户”之间的差距是巨大的。模型服务框架解决了GPU内存管理、请求调度、KV缓存优化和连续批处理——这些问题从零开始解决很困难。选择正确的服务栈是生产AI中最具杠杆效应的决策之一。
The infrastructure and software that runs trained AI models in production, handling incoming requests, managing GPU memory, batching for efficiency, and returning responses. Model serving frameworks like vLLM, TGI (Text Generation Inference), and TensorRT-LLM handle the complex engineering of making LLM inference fast and cost-effective at scale.
Why it matters: The gap between "I have a model" and "I can serve 10,000 users simultaneously" is enormous. Model serving frameworks solve GPU memory management, request scheduling, KV cache optimization, and continuous batching — problems that are hard to solve from scratch. Choosing the right serving stack is one of the highest-leverage decisions in production AI.
混合精度训练
FP16、BF16、半精度
训练
使用较低精度的数值格式(16位而非32位)进行大部分计算来训练神经网络,同时保持关键操作在全精度下运行。这将GPU的有效内存容量和计算速度提高一倍,对模型质量的影响很小。BF16(bfloat16)是LLM训练的标准;FP16用于推理。
为什么重要: 混合精度是我们能训练如此大模型的原因。一个70B参数模型在FP32下仅权重就需要280 GB——在任何单个GPU上都不可能。在BF16下,它只需要140 GB,可以分布在几个GPU上。混合精度实际上免费将AI行业的计算能力翻了一番,仅仅是通过使用更智能的数值格式。
模型卡
模型文档、数据表
安全
一份描述机器学习模型预期用途、性能特征、训练数据、局限性和伦理考量的标准化文档。由Mitchell等人(2019)引入,模型卡旨在提高透明度,帮助用户做出关于模型是否适合其用例的明智决策。
为什么重要: 模型卡是AI的营养标签。没有它们,你在盲目使用模型——你不知道它是在什么数据上训练的,它在什么方面表现好和差,或者它可能对哪些群体造成不利。随着AI监管的增加(欧盟AI法案要求文档化),模型卡正从最佳实践变为法律要求。
Running multiple attention operations in parallel, each with its own learned projection of the queries, keys, and values. Instead of one attention function looking at the full model dimension, multi-head attention splits the dimension into multiple "heads" (e.g., 32 heads of 128 dimensions each for a 4096-dimension model). Each head can focus on different types of relationships simultaneously.
Why it matters: Multi-head attention is why Transformers are so expressive. One head might focus on syntactic relationships (subject-verb), another on positional patterns (nearby words), another on semantic similarity. This parallel specialization lets the model capture many types of dependencies simultaneously, which a single attention head can't do as effectively.
Masked Language Modeling
MLM, Masked LM, Cloze Task
A self-supervised training objective where random tokens in the input are replaced with a [MASK] token, and the model must predict the original tokens from context. BERT popularized MLM: mask 15% of tokens, use bidirectional attention to look at both left and right context, and predict the masked words. This creates powerful text understanding models (as opposed to text generation models).
Why it matters: MLM is the training objective that created BERT and the entire family of encoder models that still power most production search, classification, and embedding systems. Understanding MLM vs. causal language modeling (next-token prediction) explains the fundamental split between understanding models (BERT) and generation models (GPT) — and why each excels at different tasks.
Model Merging
TIES, DARE, SLERP, Frankenmerge
Combining the weights of multiple fine-tuned models into a single model without any additional training. If model A is great at coding and model B is great at creative writing, merging them can produce a model that's good at both. Popular merging methods include SLERP (spherical interpolation), TIES (resolving sign conflicts), and DARE (randomly dropping parameters before merging).
Why it matters: Model merging is the open-source community's secret weapon. It costs zero compute (just math on weight tensors) and can produce models that outperform their components. Many top models on the Open LLM Leaderboard are merges. It's also how practitioners combine multiple LoRA fine-tunes into a single versatile model. Understanding merging unlocks a powerful, free capability for anyone working with open models.
机器翻译
MT、神经机器翻译、NMT
使用AI
自动将文本从一种语言翻译成另一种语言。现代神经机器翻译(NMT)使用在平行语料库(文本及其翻译)上训练的编码器-解码器Transformer。Google翻译、DeepL和基于LLM的翻译都使用这种方法的变体。翻译质量已经大幅提升——对于常见语言对,MT在日常内容上已接近专业人工翻译的水平。
为什么重要: 机器翻译大规模打破了语言障碍。它使全球商务、跨语言搜索、实时通讯以及跨语言信息获取成为可能。对于AI而言,MT是主要以英语训练的模型服务100多种语言用户的方式——这也是为什么多语言分词器效率对成本至关重要。
音乐生成
AI音乐、文本到音乐
使用AI
使用AI模型从文本描述、旋律或其他音频输入创作音乐。“一首带有朗朗上口的合成器旋律、120 BPM的欢快电子曲目”产出一首完整的音乐作品。Suno、Udio、MusicLM(Google)和Stable Audio是领先的模型。当前系统能以多样的风格和流派生成人声、器乐和完整编曲。
为什么重要: 音乐生成是图像生成的音频对应物——它让每个人都能创作音乐,而不仅仅是受过训练的音乐家。内容创作者需要背景音乐,游戏开发者需要配乐,广告商需要广告曲。AI音乐以极低的成本和时间满足这些需求。但它也引发了与图像生成相同的版权和真实性问题。
模型注册表
模型存储、模型目录
基础设施
一个集中化的系统,用于在整个生命周期中对训练好的机器学习模型进行版本管理、追踪和管理。类似于包注册表(npm、PyPI),但面向ML模型:每个模型版本与其元数据(训练数据、超参数、性能指标、血统)一起存储,使得复现结果、比较版本和部署特定模型到生产成为可能。
为什么重要: 没有模型注册表,ML开发会变成混乱:生产中运行的是哪个版本的模型?它是在什么数据上训练的?我们上次更新是什么时候?谁训练的?模型注册表回答所有这些问题,并为可复现、可审计和可靠的ML部署提供基础。对于任何在生产中运行模型的团队来说,它是必不可少的基础设施。
Matrix Multiplication
矩阵乘法、Matmul、GEMM
基础
所有神经网络底层的基本数学运算。将权重矩阵与输入向量(或矩阵)相乘产生输出向量。每个线性层、每次注意力计算和每次嵌入查找最终都是矩阵乘法。AI硬件(GPU、TPU)的性能以其执行矩阵乘法的速度来衡量。
为什么重要: 理解神经网络只是一系列矩阵乘法(中间穿插非线性变换)使整个领域变得不再神秘。它解释了为什么GPU是必需的(它们是并行矩阵乘法机器)、为什么模型大小用参数量衡量(权重矩阵中的值的数量)、以及为什么FLOPs是计算单位(它计算这些矩阵乘法中的乘加操作)。
N
基础
人工智能的一个分支,旨在使机器能够理解、解释和生成人类语言。自然语言处理涵盖了从基础的文本处理(分词、词干提取、词性标注)到复杂任务如情感分析、机器翻译、摘要生成和问答系统的一切内容。在Transformer模型出现之前,自然语言处理是一些拼凑而成的专用技术集合。如今,大语言模型(LLMs)已将大部分自然语言处理任务统一于一个范式——但理解这些模型为何有效,仍需重视该领域的基础理论。
为什么重要: NLP 是你能够用普通英语与 AI 交流并得到有用答案的原因。每个聊天机器人、每个搜索引擎、每个翻译服务、每个 AI 写作工具都属于 NLP。即使你从未从零开始构建 NLP 系统,理解基础概念 — tokenization、attention、embeddings、context — 也能让你更好地使用所有处理文本的 AI 工具。
NVIDIA
GPU、CUDA、H100/H200、NeMo
公司
这家公司的GPU驱动了全球几乎所有AI训练和大部分推理。最初是一家显卡公司,它成为了AI行业最关键的硬件供应商,短暂地使NVIDIA成为地球上最有价值的公司。
为什么重要:

NVIDIA 是一家没有它就无法实现人工智能革命的公司——他们的 GPU 和 CUDA 软件生态系统是几乎所有重大 AI 模型训练的基础。结合专为 AI 设计的硬件、长达十年的软件护城河,以及对连接 GPU 的网络架构的控制权,使他们在 21 世纪最关键供应链中占据了近乎垄断的地位。当政府、企业和研究机构争夺 AI 计算能力时,他们实际上是在争夺 NVIDIA 的硬件,而这一事实使 Jensen Huang 的昔日显卡公司成为了地球上战略上最重要的科技公司。

基础

一种受生物大脑启发,由多层相互连接的“神经元”(数学函数)组成,这些神经元通过数据学习模式的计算系统。信息通过各层流动,逐步转换,直到网络产生输出。每个现代AI模型都是一种神经网络。

为什么重要: 神经网络是所有AI的原理。理解它们其实是数学(而不是魔法,也不是大脑)有助于澄清AI能做什么和不能做什么。它们是模式匹配器—极其强大的模式匹配器,但终究还是模式匹配器。
归一化
LayerNorm、RMSNorm、BatchNorm
训练
通过将网络中流动的值归一化到一致的尺度来稳定神经网络训练的技术。层归一化(LayerNorm)在每个样本内跨特征进行归一化。RMSNorm是一个简化的变体。批归一化(BatchNorm)跨批次进行归一化。每个Transformer都在层之间使用某种形式的归一化。
为什么重要: 没有归一化,深度网络极难训练——激活值可能在层间爆炸或消失,使梯度下降不稳定。归一化是那些不起眼但绝对必要的技术之一:从任何现代架构中移除它,训练就会崩溃。
Techniques that stabilize neural network training by normalizing the values flowing through the network to have consistent scale. Layer Normalization (LayerNorm) normalizes across features within each example. RMSNorm is a simplified variant. Batch Normalization (BatchNorm) normalizes across the batch. Every Transformer uses some form of normalization between layers.
Why it matters: Without normalization, deep networks are extremely difficult to train — activations can explode or vanish across layers, making gradient descent unstable. Normalization is one of those unglamorous techniques that is absolutely essential: remove it from any modern architecture and training collapses.
神经元
人工神经元、感知机、节点
基础
神经网络的基本计算单元。人工神经元接收输入,将每个输入乘以一个权重,求和后加上偏置,再通过激活函数产生输出。成千上万到数十亿个这样的神经元,按层组织并通过学习得到的权重相连,构成了驱动所有现代AI的神经网络。
为什么重要: 神经元是深度学习的原子。理解单个神经元——加权求和加激活——就能直观理解神经网络架构的其余部分。层是一组神经元,网络是层的堆叠,训练是调整权重。其他一切都是细节(重要的细节,但终究是细节)。
命名实体识别
NER、实体抽取
使用AI
识别和分类文本中的命名实体——人名、组织、地点、日期、金额和其他专有名词。在“苹果公司宣布在慕尼黑投资30亿美元”中,NER识别出苹果(组织)、30亿美元(金额)、慕尼黑(地点)和周二(日期)。这是信息抽取、搜索和知识图谱构建中的基础NLP任务。
为什么重要: NER是从非结构化文本中进行结构化信息抽取的支柱。每个搜索引擎、新闻聚合器和情报系统都使用NER来理解文档的内容。它也是从文本构建知识图谱的第一步——你无法在未识别的实体之间建立关系。
反向提示
负面条件引导
使用AI
描述你不想在生成图像中出现的内容的文本,与主提示一起使用。提示:“美丽的风景。”反向提示:“模糊、低质量、文字、水印、人物。”模型在生成过程中主动避开反向提示中的概念。反向提示主要用于Stable Diffusion和其他开放图像生成模型。
为什么重要: 反向提示是提高图像生成质量最有效的工具之一。没有它们,模型倾向于产出瑕疵(模糊区域、多余手指、文字水印),因为这些在训练数据中频繁出现。精心设计的反向提示消除常见的失败模式,让你在不改变正向提示的情况下对输出有更多控制。
O
优化
模型优化、推理优化
训练

一系列用于使AI模型更快、更小、更便宜或更准确的技术。这包括训练优化(混合精度、梯度检查点、数据并行)— 推理优化(量化、剪枝、知识蒸馏、推测解码)— 以及服务优化(批处理、缓存、负载均衡)。优化使得你可以在笔记本电脑上运行140亿参数的模型。

为什么重要: 原始能力如果无法负担运行成本,就毫无意义。优化是研究演示与生产产品之间的关键差异—这也是为什么开放权重模型能够与API提供商竞争,为什么移动AI得以存在,以及为什么推理成本持续下降的原因。
OpenAI
GPT、ChatGPT、DALL-E、Sora
公司
ChatGPT和GPT系列模型背后的公司。最初是一家非营利研究实验室,当ChatGPT于2022年11月推出时,OpenAI成为了人工智能革命的公众面孔。
为什么重要:

OpenAI 是所有组织中最具影响力的,将人工智能从研究实验室带入主流意识的先行者。ChatGPT 是生成式 AI 的 iPhone 时刻——这款产品让数亿人直观地理解了大型语言模型的潜力。他们的 API 构建了基础设施层,成千上万的 AI 初创企业正是基于此建立起来的,而 GPT 系列在多年间确立了规模扩展作为人工智能研究的主导范式。即使 OpenAI 的争议——治理危机、从非营利到营利的转变、专注于安全的研究人员的离职——也塑造了关于人工智能公司应该如何构建和治理的更广泛讨论。

开放权重
开源 (AI 语境)
安全
当一家公司发布模型的训练参数,供任何人下载和运行时,"开放权重"比"开源"更准确,因为大多数发布的模型不包含训练数据或训练代码—你得到的是成品模型,而不是制作它的配方。Llama、Mistral和Qwen都是开放权重模型。
为什么重要: 开放权重意味着您可以在自己的硬件上运行AI,实现完全隐私—不需要调用API,数据也不会离开您的网络。代价是您需要具备运行它们的GPU资源,并需自行负责安全性。
训练
当模型过度记忆训练数据,导致无法对新输入进行泛化时。就像一个学生死记硬背练习题答案,却无法解决新问题。模型在训练数据上表现优异,但在未见过的数据上表现不佳。
为什么重要: 过拟合是模型训练中最常见的失败模式。这就是为什么评估会使用独立的测试集,以及为什么训练时间过长(过多的训练轮次)反而会让模型表现更差。
工具
一个用户友好的工具,只需一条命令即可在本地运行语言模型。它将 llama.cpp 包装成类似 Docker 的体验。
为什么重要: Ollama 对于本地 AI 就像 Docker 对于容器化:它消除了摩擦。
ONNX
开放神经网络交换格式
基础设施
一种用于表示机器学习模型的开放格式,实现框架之间的互操作性。在PyTorch中训练的模型可以导出为ONNX,然后使用ONNX Runtime、TensorRT或其他针对特定硬件优化的推理引擎运行。ONNX充当训练世界(PyTorch、TensorFlow)和部署世界(优化运行时)之间的通用语言。
为什么重要: ONNX解决了一个真实的生产问题:你在PyTorch(研究标准)中训练,但在使用不同运行时效果更好的硬件上部署。转换为ONNX让你可以使用优化的推理引擎而无需重写模型。这对于边缘部署尤为重要,因为需要在有限硬件上获得最大性能。
开放与封闭
开源与专有、开放权重之争
基础
关于AI模型应该公开发布(权重公开可用,如Llama和Mistral)还是保持专有(仅通过API可用,如Claude和GPT)的持续辩论。开放倡导者主张透明、竞争和民主化。封闭倡导者主张安全、负责任的部署和防止滥用。现实是一个光谱:真正“开源”的模型(包含训练数据和代码)很少;大多数“开放”模型是开放权重的。
为什么重要: 这场辩论塑造了AI的未来。如果封闭胜出,少数几家公司控制着本世纪最强大技术的访问权。如果开放胜出,强大的AI对所有人可用——包括那些会滥用它的人。大多数从业者两者都用:生产中用专有API(可靠性、支持),实验、隐私和成本控制用开放模型。理解这些权衡有助于你做出选择。
目标检测
YOLO、边界框检测
使用AI
在图像或视频中识别和定位目标,通过在其周围绘制边界框并分类每个框包含的内容。“在位置(x1,y1,x2,y2)有一辆车,在(x3,y3,x4,y4)有一个人。”与图像分类(说出图像中有什么)不同,目标检测说出图像中有什么以及在哪里——使计数、跟踪和空间推理成为可能。
为什么重要: 目标检测是自动驾驶汽车(检测行人、车辆、标志)、安防摄像头(人员检测)、零售分析(计算购物者人数)、制造质量控制(检测缺陷)和增强现实(将虚拟物体相对于真实物体放置)背后的技术。它是商业部署最广泛的计算机视觉能力之一。
OCR
光学字符识别、文字识别
使用AI
从图像中提取文字——文档照片、截图、标志、手写笔记,或任何包含文字的图像。现代OCR结合了文字检测(找到文字在图像中出现的位置)和文字识别(读取文字内容)。深度学习OCR在处理弯曲文字、多语言、多种字体和低质量图像方面远优于旧的基于规则的方法。
为什么重要: OCR将物理世界数字化。扫描收据用于报销、读取文档用于归档、从表单提取数据、实时翻译标志,以及使基于图像的PDF可搜索,都依赖于OCR。结合LLM后,OCR能实现复杂的文档理解——不仅是读取文字,而是理解发票、合同和报告。
P
参数
权重、模型参数
基础
神经网络在训练过程中学到的内部值—本质上是模型以数字形式编码的“知识”。当有人说一个模型有“70亿个参数”时,意思是训练过程中调整了70亿个独立的数值,以捕捉数据中的模式。更多的参数通常意味着更强的学习复杂模式的能力,但也需要更多的存储内存和更多的计算资源来运行。
为什么重要: 参数数量是模型规模最常见的简称,它直接决定了您需要多少GPU内存。一个16位精度的7B模型仅权重就需要约14GB的VRAM。理解参数有助于您估算成本、选择硬件,并理解为什么量化(降低每个参数的精度)对于使模型易于访问如此重要。
PixVerse
PixVerse 视频生成
公司
中国视频生成公司正在构建易于使用的AI视频工具。以其快速的生成速度和免费层级而闻名,这帮助他们在国际市场上迅速建立了庞大的用户群。
为什么重要: PixVerse证明了AI视频生成可以成为一种大众市场产品,而不仅仅是一种面向专业人士和早期采用者的工具。他们激进的免费层级和快速迭代周期迫使整个行业重新思考定价和可访问性。通过在一年内建立AI视频领域最大的用户群体之一,他们证明了在决定谁能在该市场胜出时,分发渠道和执行速度可能与原始模型质量同样重要—。
Perplexity
AI 驱动的搜索引擎、Sonar API
公司
结合实时网络搜索与语言模型推理的AI搜索引擎,提供直接且有来源的答案,而非链接列表。这是过去一代人中对谷歌搜索主导地位最显著的挑战。
为什么重要: Perplexity 是过去十年来对谷歌搜索主导地位最可信的挑战,证明了原生AI答案引擎可以为信息检索查询提供根本更好的体验。他们将检索增强生成(RAG)范式作为消费级产品推广,展示了将实时网络搜索与大型语言模型(LLM)推理相结合,所产生的结果比单独使用任何一种技术都更有用且更可信。其迅速增长迫使谷歌、微软以及所有其他搜索引擎玩家重新思考在大语言模型时代搜索引擎应有的形态。
训练

模型最初的大规模训练阶段,通过海量语料库学习语言(或其他模态)。这是昂贵的部分—数千块GPU运行数周或数月,耗资数百万美元。结果是一个基础模型,它理解语言,但尚未针对任何任务进行专业化。

为什么重要: 预训练使得基础模型成为可能。这也是为什么只有少数公司能够创建前沿模型 — 计算成本极其高昂。所有其他内容(微调、RLHF、提示技术)都基于此基础。
使用AI
通过精心设计输入以获得更好的AI模型输出的实践。这包括从简单技巧(明确具体、提供示例)到高级方法(思维链、少量示例提示、角色分配)的范围。尽管名称听起来很花哨,但本质上是与统计系统进行清晰沟通的问题。
为什么重要:

相同的模型根据提问方式不同可能会产生截然不同的结果。优秀的提示工程是提升AI输出质量最经济的方式——无需训练,无需微调,只需更有效的沟通。

困惑度
PPL、Perplexity
基础
衡量模型预测文本能力的指标。等于exp(平均交叉熵损失)。代表“模型在多少个token之间做选择”。越低越好。
为什么重要: 比较原始文本建模能力的最基础指标。但不衡量有用性或安全性。
A measurement of how well a language model predicts text. Represents how many tokens the model is choosing between at each step. Lower = better predictions.
Why it matters: The most fundamental metric for comparing language models. But perplexity alone doesn't tell you if a model is helpful or safe.
提示缓存
上下文缓存、前缀缓存
使用AI
一种在多次 API 调用间保存并复用已处理的提示前缀的技术,避免重复计算,同时降低延迟和成本。
为什么重要: 提示缓存可以将输入 token 成本降低 50–90%,并显著减少首个 token 的响应时间。
提示注入
间接提示注入
安全
一种将恶意指令嵌入 AI 模型处理的内容中的攻击方式,导致模型执行攻击者的指令而非用户的指令。
为什么重要: 提示注入是 AI 应用中最关键的安全漏洞。目前没有完整的解决方案。
精确率与召回率
F1 分数、混淆矩阵
基础
评估分类器的两个互补指标。精确率衡量正确标记的比例,召回率衡量找到的实际正例比例。
为什么重要: 单独的准确率具有误导性。精确率和召回率揭示了每个生产分类系统都基于的权衡。
提示词
Prompt
基础
你提供给AI模型以获取回应的文本。提示词可以是一个问题、一条指令、一份创意简报,或一段你希望被解释的代码。模型所做的一切都始于你输入的内容。提示词的质量、具体性和结构直接决定了返回结果的质量。
为什么重要: 提示词就是界面。它是大多数人使用AI时唯一能操控的杠杆,而且这个杠杆出人意料地强大。模糊的提示词得到模糊的回答;具体、结构良好的提示词能从同一个模型中提取出专家级的输出。理解提示词是有效使用AI的第一步。
The text you give to an AI model to get a response. A prompt can be a question, an instruction, a creative brief, or code you want explained. Its quality directly shapes the output.
Why it matters: The prompt is the interface. A vague prompt gets a vague answer; a specific one extracts expert-level output from the same model. Step one of using AI effectively.
位置编码
位置嵌入、RoPE、ALiBi
基础
一种告诉Transformer模型序列中token顺序的机制。与顺序处理token的RNN不同(因此位置是隐含的),Transformer并行处理所有token,没有内在的顺序感。位置编码注入位置信息,使模型知道“狗咬人”和“人咬狗”是不同的。
为什么重要: 没有位置信息,Transformer会将句子视为词袋——词序丢失。位置编码的选择还决定了模型在处理比训练时见过的更长序列时的表现,这就是RoPE和ALiBi等技术对长上下文模型至关重要的原因。
A mechanism that tells a Transformer model the order of tokens in a sequence. Unlike RNNs which process tokens sequentially (so position is implicit), Transformers process all tokens in parallel and have no inherent sense of order. Positional encodings inject position information so the model knows that "dog bites man" and "man bites dog" are different.
Why it matters: Without positional information, a Transformer treats a sentence as a bag of words — word order is lost. The choice of positional encoding also determines how well a model handles sequences longer than those seen during training, which is why techniques like RoPE and ALiBi are critical for long-context models.
剪枝
模型剪枝、权重剪枝
训练
从已训练的模型中移除不必要的参数(权重、神经元或整层)以使其更小更快,同时不显著损失质量。就像修剪一棵树:砍掉贡献最小的树枝,树依然健康。结构化剪枝移除整个神经元或注意力头。非结构化剪枝将单个权重归零。
为什么重要: 剪枝是与量化和蒸馏并列的模型压缩技术。核心洞察是:大多数神经网络都是过参数化的——许多权重对输出贡献很小。“彩票假说”表明,在大型网络中存在一个更小的子网络,能够匹配原始网络的性能。剪枝就是找到并保留那个子网络。
提示模板
模板、提示模式
使用
一种可重复使用的提示结构,带有变量占位符,在运行时填入具体数据。与其每次从头编写新提示,不如定义一次模板——“用{language}总结以下{document_type},重点关注{topic}”——然后填入变量。提示模板是生产AI应用的构建块。
为什么重要: 每个生产AI应用都使用提示模板。它们确保一致性、便于测试,并将提示逻辑(由开发者编写)与动态内容(由用户或数据提供)分离。好的模板经过测试、版本控制和迭代——它们是代码,不是临时文本。理解提示模板设计对于构建可靠的AI应用至关重要。
A memory management technique for KV cache that borrows from operating system virtual memory. Instead of allocating a contiguous block of GPU memory for each request's KV cache (which wastes memory through fragmentation), PagedAttention stores cache in non-contiguous blocks ("pages") that are allocated on demand and can be shared across requests with common prefixes.
Why it matters: PagedAttention is the innovation behind vLLM and is now adopted by most LLM serving frameworks. It increased serving throughput by 2–4x compared to naive implementations by eliminating memory waste from fragmentation. Without it, serving long-context models to many concurrent users would be dramatically more expensive.
Pooling
Max Pooling, Average Pooling
An operation that reduces the spatial dimensions of data by summarizing a region into a single value. Max pooling takes the maximum value in each region. Average pooling takes the mean. In CNNs, pooling layers downsample feature maps between convolutional layers. In Transformers, pooling combines token representations into a single vector (e.g., for classification).
Why it matters: Pooling is how neural networks go from local features to global understanding. A CNN might start with 224×224 feature maps and pool down to 7×7 by the final layer, progressively summarizing spatial information. In NLP, mean pooling over token embeddings is the standard way to create a single sentence embedding from a sequence of token representations.
Pose Estimation
姿态估计、人体姿态、骨架检测、关键点检测
使用AI
通过定位关键解剖点(关节、面部标志、指尖)来检测图像或视频中人体(或动物、手、脸)的位置和朝向。输出是一个骨架:一组表示身体姿态的连接关键点。OpenPose、MediaPipe和YOLO-Pose是常见的实现。
为什么重要: 姿态估计使以下应用成为可能:分析运动姿势的健身应用、手语识别、动画动作捕捉、手势控制界面、体育分析和老年人跌倒检测。在AI图像生成中,姿态骨架作为ControlNet输入——你指定想要的精确身体姿势,模型就生成该姿势的人物。
Q
量化
GGUF、GPTQ、AWQ
基础设施
降低模型的精度以使其更小更快。使用32位浮点数训练的模型可以被量化为8位、4位甚至更低—将其体积缩小4到8倍,同时仅造成微小的质量损失。GGUF 是通过 llama.cpp 进行本地推理的流行格式。
为什么重要: 量化使得在单块GPU甚至笔记本电脑上运行140亿参数模型成为可能。没有它,开源权重模型对大多数人来说将无法使用。Q4_K_M和Q5_K_M变体在模型大小与质量之间找到了最佳平衡点。
问答系统
QA、阅读理解
使用AI
一种回答自然语言提问的系统。抽取式QA在给定文档中找到答案片段(“根据第3段,答案是……”)。生成式QA从一个或多个来源综合生成答案。开放域QA在没有特定文档的情况下回答任何问题。基于RAG的QA检索相关文档并从中生成答案。
为什么重要: 问答是AI助手的基本交互模式。每个聊天机器人、每个企业知识库、每个客服机器人本质上都是一个QA系统。了解不同的QA范式(抽取式、生成式、检索增强式)有助于你为应用选择正确的架构,并对准确性设定合理的期望。
R
训练
一种训练范式,其中AI代理通过与环境互动、采取行动并接收奖励或惩罚来学习。与监督学习(从带标签的示例中学习)不同,强化学习(Reinforcement Learning, RL)通过试错从经验中学习。强化学习训练出的AlphaGo击败了世界冠军,教会机器人行走,并且是RLHF中的“RL”,使聊天机器人更有帮助。
为什么重要:

强化学习是AI学习如何行动,而不仅仅是预测的方法。它是能够回答问题的模型与能够完成目标的智能体之间的桥梁。所有随时间推移进行规划、制定策略或优化的AI系统,其根源中必然包含强化学习。

推理
AI 推理、思维链推理
使用AI
AI模型逐步思考、分解复杂问题并得出逻辑严谨结论的能力。现代推理模型(如OpenAI的o1/o3和DeepSeek-R1)在回答前会生成明确的推理过程,显著提升了数学、编程和逻辑任务的表现。这与简单的模式匹配不同——推理模型能够解决前所未见的问题。
为什么重要: 推理是区分“听起来聪明的AI”—与“真正聪明的AI”的关键能力。具备良好推理能力的模型可以调试代码、证明定理、制定多步骤策略,并发现并纠正自己的错误。目前,具备和不具备强大推理能力的模型之间的差距,是人工智能领域中最重要的质量区分因素。
Resemble AI
语音克隆、语音合成、水印技术
公司
加拿大语音AI公司,专注于高保真语音克隆和实时语音合成。该公司是首批推出神经音频水印技术用于深伪检测的企业之一,自创业之初便高度重视语音克隆技术可能引发的伦理问题。
为什么重要:

Resemble AI 之所以重要,是因为他们很早就意识到,缺乏安全基础设施的语音克隆是一种隐患,而非产品。通过在推出语音合成工具的同时,也推出深度伪造检测和神经水印技术,他们为负责任的语音AI树立了典范,如今整个行业都在争相效仿。随着全球对合成媒体的监管不断加严,Resemble 在来源验证和同意验证方面的先发优势,使其成为企业真正可以信赖的语音AI公司。

Reka
Reka Core、Reka Flash
公司
由前DeepMind、Google Brain和FAIR研究人员创立的AI研究公司。正在构建原生多模态模型,能够从零开始处理文本、图像、视频和音频。
为什么重要:

Reka证明了一个拥有合适背景的小型研究团队无需数十亿美元的资金即可构建前沿级多模态模型——并且从零开始训练的原生多模态架构可以优于大多数大型实验室采用的拼接式方法。他们从成立到被Snowflake收购的快速轨迹也揭示了企业数据平台如今对AI人才的强大吸引力,这表明多模态AI的未来可能存在于数据基础设施公司,而非独立研究实验室中。

Recraft
Recraft V3、矢量图形生成
公司

专注于专业级图像和矢量图形生成的AI设计工具。首批能够生成真正可用设计素材的工具之一——SVG、品牌一致的样式以及设计师真正想要使用的可直接用于生产的输出。

为什么重要:

Recraft 是一家罕见的人工智能公司,专注于为专业设计师而非病毒式社交媒体时刻而建,并证明了这种方法可以产生最先进的成果。他们对生产就绪输出的专注——干净的矢量图、品牌一致性、透明背景——填补了其他图像生成公司尚未认真解决的空白,使他们成为行业中最接近真正设计工具的存在,而非仅仅是一件艺术玩具。

Runway
Gen-1、Gen-2、Gen-3 Alpha
公司
领先的AI视频生成公司。与他人共同创建了最初的Stable Diffusion架构,随后转向视频领域,其Gen系列模型为AI影视制作工具设定了行业标杆。
为什么重要:

Runway 是将 AI 视频生成从研究探索转变为电影制作工具的公司,以不断推出模型的速度保持领先地位,即使资金雄厚的竞争对手进入该领域。他们以创意工具为核心的理念——源自艺术家而非仅工程师——使他们对专业工作流程的理解是纯研究实验室难以复制的,而他们选择构建综合平台而非仅仅一个模型的策略,可能证明是正确的长期布局。

RAG
检索增强生成
工具
一种通过在生成响应前检索相关文档,从而使AI模型获取外部知识的技术。与仅依赖模型在训练期间学到的内容不同,RAG会搜索知识库,找到相关片段,并将其作为上下文包含在提示中。
为什么重要: RAG 解决了两个主要问题:幻觉(模型有真实的来源可以参考)和知识截止(知识库可以在不重新训练的情况下更新)。这就是大多数企业AI实际运作的方式。
基础设施
每分钟/每小时/每天可进行的API请求次数限制。提供商实施速率限制以防止服务器过载并确保公平访问。限制通常针对每个API密钥,并可能限制每分钟请求数(RPM)和每分钟令牌数(TPM)。
为什么重要:

速率限制是你在扩展AI应用时遇到的无形天花板。它们解释了为什么批量处理很重要,为什么你需要重试逻辑,以及为什么一些提供商对更高的速率限制收取更多费用。

安全

故意尝试让AI模型失效、行为异常或产生有害输出的做法。红队会探测漏洞:越狱、偏见、生成错误信息、隐私泄露。该术语源自军事推演,其中“红队”扮演对手角色。

为什么重要: 你无法修复你不知道的问题。红队测试是提供商发现其模型会在你要求它“写一个关于锁匠的故事”时,解释如何开锁的方法。这是在每次重大模型发布前必须进行的关键安全工作。
RLHF
基于人类反馈的强化学习
训练
一种训练技术,由人类评估者根据输出质量对模型输出进行排序,此反馈用于训练一个奖励模型,引导AI生成更优质的响应。这正是将原始预训练模型(仅预测下一个词)转变为有帮助且无害助手的关键。
为什么重要: RLHF 是让 ChatGPT 与 GPT-3 显得不同的关键因素。基础模型已经“知道”一切,但 RLHF 教会了它以人类实际认为有用的方式呈现这些知识。这也是强化安全行为的方法。
RNN
循环神经网络、LSTM、GRU
模型
一种通过维护隐藏状态来处理序列的神经网络,该隐藏状态在每一步都会更新——它“记住”到目前为止看到的内容。LSTM和GRU是改进的变体,解决了原始RNN容易遗忘长距离依赖的问题。在2018至2020年Transformer取代它们之前,RNN主导了NLP和语音识别领域。
为什么重要: RNN是现代语言模型的前身。理解它们为什么失败(缓慢的顺序处理、长距离依赖困难)可以解释Transformer为什么成功(并行处理、对所有位置的注意力)。SSM/Mamba架构在某种程度上是对RNN理念的回归,只是加入了现代的改进。
A neural network that processes sequences by maintaining a hidden state that gets updated at each step — it "remembers" what it's seen so far. LSTMs and GRUs are improved variants that solve the original RNN's tendency to forget long-range dependencies. RNNs dominated NLP and speech before Transformers replaced them around 2018–2020.
Why it matters: RNNs are the ancestors of modern language models. Understanding why they failed (slow sequential processing, difficulty with long-range dependencies) explains why Transformers succeeded (parallel processing, attention over all positions). The SSM/Mamba architecture is, in some ways, a return to the RNN idea with modern fixes.
奖励模型
RM、偏好模型
训练
一种经过训练来预测人类对 AI 回复偏好的模型。它是 RLHF 流程中人类判断的学习代理。
为什么重要: 奖励模型是使 RLHF 运作的关键组件。它的质量直接决定了对齐的质量。
检索
信息检索、IR
基础
从大型集合中根据查询找到相关文档、段落或数据的过程。它是 RAG 中的“R”。
为什么重要: 检索使 LLM 在现实世界应用中变得实用。检索流水线的质量直接决定 RAG 系统的质量。
回归
线性回归、预测
基础
一种预测连续数值而非类别的机器学习任务。“明天的温度是多少?”(回归:预测数字)vs.“明天会下雨吗?”(分类:预测类别)。线性回归拟合一条直线;神经网络回归可以学习输入和输出之间任意的非线性关系。
为什么重要: 回归是两个基础ML任务之一(另一个是分类),是从股票价格预测到房产估值到科学建模的一切基础。它也是理解机器学习最简单的切入点——将一条直线拟合到数据点是大多数人可以可视化的,而从线性回归到神经网络的跳跃在概念上很小。
Residual Connection
Skip Connection, Shortcut Connection
A connection that bypasses one or more layers by adding the input directly to the output: output = layer(x) + x. Instead of each layer learning a complete transformation, it only needs to learn the "residual" — the difference from the identity function. Residual connections are in every Transformer layer and are essential for training deep networks.
Why it matters: Without residual connections, deep networks are nearly impossible to train — gradients vanish or explode across many layers. Residual connections provide a gradient highway that lets information (and gradients) flow directly from early layers to late layers, bypassing any number of intermediate transformations. They're why we can train 100+ layer networks at all.
RLAIF
RL from AI Feedback
A variant of RLHF where the preference labels come from an AI model instead of human annotators. A strong AI model compares response pairs and indicates which is better, providing the feedback signal for reinforcement learning. This scales alignment beyond the bottleneck of human labeling while maintaining reasonable quality.
Why it matters: RLAIF is how alignment scales. Human annotation is expensive ($10–50+ per hour), slow, and inconsistent. AI feedback is instant, cheap, and tireless. Constitutional AI (Anthropic) uses RLAIF as a core component — an AI critiques responses against principles, providing preference data at scale. The key question is whether AI feedback is good enough: it bootstraps from human judgment but may inherit and amplify biases.
S
谄媚行为
AI 谄媚、过度迎合
安全
AI模型倾向于告诉用户他们想听的,而不是事实真相。谄媚型模型会同意错误的前提,验证错误的想法,即使最初是正确的,当被质疑时也会改变立场,并优先考虑被喜欢而非提供帮助。谄媚是RLHF训练的直接副作用——模型学会同意的回应会从人类评估者那里获得更高的评分,因此它们优化的是同意而非准确性。
为什么重要: 谄媚是AI中最隐蔽的失败模式之一,因为它对被奉承的用户来说是不可见的。如果你问一个模型“这不是一个绝妙的商业点子吗?”而它总是回答“是的”,那么你得到的是一面镜子,而非顾问。对抗谄媚是对齐研究的活跃领域,这也是为什么最好的模型会在需要时被训练成礼貌地提出不同意见。
安全
对大型语言模型的批评认为,它们仅仅是复杂的模式匹配器,通过拼接看似合理的文本而并不具备对意义的理解。这一术语由艾米丽·班德(Emily Bender)、蒂米特·格布鲁(Timnit Gebru)及其同事在其具有影响力的2021年论文《On the Dangers of Stochastic Parrots》中提出,该论文警告称,大型语言模型会从训练数据中编码偏见,消耗巨大资源,并制造出一种理解的幻觉,使用户误以为它们比实际情况更值得信赖。
为什么重要: “随机鹦鹉”争论触及AI实际上“理解”什么的核心。大型语言模型(LLMs)是否真正进行推理,还是仅仅擅长统计模仿,这影响着我们如何部署它们、我们对其输出的信任程度以及如何监管它们。这也是批评者评估每项新能力声明的视角——这究竟是真正的进步,还是更会模仿的鹦鹉?
AI 垃圾内容
AI Slop、生成式垃圾内容
安全
低质量、通用、不受欢迎的人工智能生成内容,充斥着互联网。该术语于2024年出现,用作对劣质人工智能文本、图像和视频泛滥成灾的贬义词,这些内容污染了搜索结果、社交媒体信息流和在线市场。Slop是人工智能内容的垃圾邮件等价物——从技术上讲是“内容”,但毫无价值,通常与其他Slop难以区分,并且会降低其接触的每个平台的质量。例如,LinkedIn上以“在当今快节奏的世界中”开头的帖子,六指手的股票照片,或2000字却毫无内容的SEO文章。
为什么重要: 劣质内容是内容生成免费化的环境成本。当任何人可以在几分钟内生成1000篇博客文章或10000张产品图片时,内容创作的经济模式崩溃——质量也随之崩溃。劣质内容正是平台竞相开发AI检测工具的原因,也是谷歌不断更新搜索算法的原因,更是“人工创作”逐渐成为卖点的原因。它也是对“AI将民主化创意”这一天真观点最有力的反驳。
阶跃星辰
Step 系列模型、多模态 AI
公司
中国AI初创公司正在构建具有竞争力的大型语言模型和多模态模型。他们的Step系列在国际基准测试中表现出色,得益于大量的计算资源投入。
为什么重要:

StepFun证明了中国的AI生态系统能够从零开始培育出真正的竞争对手,而不仅仅是依赖现有的科技巨头。他们的Step模型在国际基准测试中始终表现超出其体量,而他们快速扩展到多模态和视频生成领域,也表明组织良好的初创公司即使资源相对有限,也能覆盖广泛的能力范围。对于全球AI市场而言,StepFun代表了那种让中国独立AI初创企业生态无法被忽视的公司——技术实力强劲、面向国际市场,并且发展速度足够快,足以让许多规模更大的竞争对手保持警惕。

SambaNova
SN40L 芯片、超快速推理
公司
一家设计定制芯片(RDUs)的人工智能硬件公司,这些芯片专为人工智能工作负载打造。其SambaNova Cloud提供了目前最快的推理速度之一,与Groq在人工智能服务的“以速度优先”方法上展开竞争。
为什么重要:

SambaNova 的重要性在于,NVIDIA 不应是 AI 计算领域的唯一主导者,必须有人证明专用 AI 芯片能够在实际市场中竞争,而不仅仅停留在研究论文中。他们的 RDU 架构表明,当硅芯片专门针对神经网络工作负载进行设计时,可以实现显著的性能提升,而他们的云推理服务则让开发者一窥后 GPU 时代 AI 基础设施的可能形态。无论 SambaNova 本身是否成为主导替代方案,它与 Groq、Cerebras 以及云服务商定制芯片所施加的竞争压力——对于一个无法承受永久硬件单一化的行业来说——都是有益的。

Sarvam AI
Sarvam 模型、印度语言 AI
公司
印度人工智能公司正在构建专门针对印度语言多样性进行优化的模型。他们的模型能够以全球模型始终难以达到的流畅度处理印地语、泰米尔语、泰卢固语、孟加拉语等印度语言。
为什么重要:

在很大程度上被全球人工智能行业忽视的一个问题,Sarvam AI 提供了最可信的答案:谁来为全球五分之一人口实际使用的语言构建基础模型?凭借在印度人工智能研究社区、政府机构的深厚根基,以及专为印度语言多样性打造的产品架构,Sarvam 既代表了商业机遇,也是一项战略要务。他们的成功或失败将表明人工智能革命是否真正实现全球化,还是仅仅停留在以英语为主的现象,强行附加翻译。

Stability AI
Stable Diffusion、SDXL、Stable Audio
公司
通过在2022年将Stable Diffusion作为开源项目发布而推动图像生成技术大众化的公司。尽管经历了领导层动荡,他们的模型仍然是开源图像生成生态系统中的支柱。
为什么重要:

Stability AI通过发布Stable Diffusion点燃了开源图像生成革命,创建了一个由数千个衍生模型、工具和创意应用组成的生态系统,这是任何封闭平台都无法匹敌的。即使经历了领导层变动和财务动荡,他们的基础理念——生成式AI应为所有人所用,而不仅仅是那些能负担得起API调用的人——彻底重塑了整个行业,并为开源AI公司的运营方式设定了模板。

Suno
AI 音乐生成
公司
一家AI音乐生成公司,允许任何人通过文本提示创建完整的歌曲—人声、乐器、制作—。在数月内从默默无闻发展到拥有数百万用户,迫使音乐行业正视AI创造力的冲击。
为什么重要:

Suno证明了AI可以通过纯文本提示生成完整且可聆听的歌曲,一夜之间创造了一种全新的创意工具类别。他们正处于生成式AI领域最具影响力的版权之争的核心,RIAA诉讼的结果很可能为所有模态中训练数据权利的运作方式设定先例。更广泛地说,他们代表了最严峻的考验,即民主化创意工具究竟是扩展了人类表达,还是削弱了支撑专业艺术家的经济基础。

模型

一种替代Transformers的模型,通过维护一个压缩的“状态”来处理序列,而不是对所有token使用注意力机制。Mamba是最著名的SSM架构。SSM的计算复杂度随序列长度线性扩展(而注意力机制是二次方扩展),这使得它们在处理非常长的上下文时可能效率高得多。

为什么重要: SSMs 是 Transformer 主导地位的主要挑战者。它们在处理长序列时速度更快,并且占用更少的内存,但相关研究仍处于成熟阶段。混合架构(将 SSM 层与注意力机制结合)可能会成为兼具两者优势的最佳方案。
系统提示词
系统消息
使用AI

在对话开始时给予模型的特殊指令,用于设定其行为、性格和规则。与用户消息不同,系统提示应具有持久性和权威性—它定义了本次会话中模型的身份。“你是一个乐于助人的编码助手。始终使用TypeScript。”

为什么重要: 系统提示是无需微调即可定制AI行为的主要工具。它们就是企业让Claude扮演客服代理、代码审查员或医疗信息助手的方式—相同模型,不同系统提示。
缩放定律
神经网络缩放定律、Chinchilla
基础
幂律关系表明,性能会随着模型大小、数据集大小和计算量的增加而可预测地提升。你可以在花费数百万之前就估算出性能。
为什么重要: 将训练从猜测变成了工程。解释了AI军备竞赛的原因:计算投入的回报是可预测的,这驱动了越来越大的计算集群。
Empirical power-law relationships: model performance improves predictably with more parameters, data, and compute. You can estimate how good a model will be before spending millions training it.
Why it matters: Scaling laws turned training from guesswork into engineering. They also explain the AI arms race: predictable returns on compute investment drive ever-larger clusters.
稀疏注意力
局部注意力、滑动窗口注意力
模型
只处理 token 对的子集而非完整注意力矩阵的注意力机制,降低长序列的二次方成本。
为什么重要: 稀疏注意力是高效模型在不承担密集注意力全部成本的情况下处理长序列的方式。
采样
解码策略、Top-p、Top-k
基础
从模型预测的概率分布中选择生成下一个 token 的过程。温度、top-p 和 top-k 是控制随机性的参数。
为什么重要: 采样参数是控制 LLM 行为最便捷的旋钮。不同的任务需要不同的采样策略。
训练
一种模型从未标注数据中自行生成监督信号的训练方法。隐藏输入的一部分,训练模型预测被隐藏的部分。对于LLM:遮蔽下一个token并预测它。对于视觉模型:遮蔽图像块。
为什么重要: 自监督学习是使现代AI成为可能的突破。它解锁了在整个互联网上进行训练的能力,而非依赖于昂贵的人工标注数据集。
Training where the model generates its own supervision from unlabeled data by hiding part of the input and predicting it. For LLMs: predict the next token.
Why it matters: The breakthrough that made modern AI possible. Unlocked training on the entire internet instead of expensive hand-labeled datasets.
推测解码
辅助生成
基础设施
小型草稿模型生成候选token,大型模型一次性验证全部。猜对的token = 每步多个token。在输出质量完全相同的情况下实现2到3倍的加速。
为什么重要: AI推理中为数不多的“免费午餐”之一。数学上保证输出完全相同,只是更快。
A small draft model generates candidate tokens, then the large model verifies them all at once. Correct guesses (common for predictable tokens) accept multiple tokens in one step.
Why it matters: Speeds up inference 2–3x with zero quality loss — the output is mathematically identical to the large model alone. One of the few free lunches in AI.
流式传输
Server-Sent Events、SSE
使用AI
在生成过程中逐token发送输出,通过HTTP上的SSE(服务器发送事件)实现。这就是为什么文字在聊天界面中逐词出现。
为什么重要: 10秒钟看着文字逐渐生成感觉还好;10秒钟面对空白屏幕则感觉系统已经崩溃。流式传输还允许用户提前中断。
Sending model output token by token as generated, via Server-Sent Events. This is why chat interfaces show text appearing word by word rather than all at once.
Why it matters: A response building word by word feels fine. The same response after seconds of blank screen feels broken. Streaming also lets users interrupt bad responses early.
结构化输出
JSON模式
使用AI
让AI以机器可解析的格式(JSON、XML、Schema)进行回复。大多数提供商已原生支持:定义一个schema,模型保证输出符合要求。
为什么重要: 从聊天机器人到应用程序的转变需要结构化输出。你的代码无法解析自由格式的文本。
Getting AI to respond in machine-parseable format like JSON. Most providers support this natively: define a schema, the model guarantees conformance.
Why it matters: The moment you build an application (not just a chatbot), you need structured output. Your code can't parse free-form text. This makes AI usable as a software component.
训练
一种使用标注样本进行训练的方法——输入-输出配对,其中正确答案已经提供。模型调整其参数以最小化预测值与已知正确答案之间的差异。
为什么重要: 监督学习是最直观的机器学习形式,也是大多数实际应用背后的主力:垃圾邮件过滤、医学影像分析、欺诈检测,以及LLM的微调阶段。
Training from labeled examples where the correct answer is provided. The model adjusts to minimize the difference between its predictions and the known answers.
Why it matters: The workhorse behind most practical ML: spam filters, medical imaging, fraud detection, and LLM fine-tuning. When you have labeled data, start here.
合成数据
AI生成的训练数据
训练
由AI模型生成的训练数据。正在成为训练流程中的标准做法。
为什么重要: 真实的标注数据很昂贵。前沿模型可以在一夜之间生成数百万个样本。质量控制至关重要。
Training data generated by AI models rather than collected from real sources. A frontier model generates examples used to train or fine-tune other models.
Why it matters: Reshaping AI development because real labeled data is expensive. A frontier model can generate millions of examples overnight. Quality control is critical — bad synthetic data amplifies errors.
Softmax
Softmax函数、归一化指数
基础
一种将原始数值向量(logits)转换为概率分布的函数——所有值变为正数且总和为1。Softmax放大值之间的差异:最大的输入获得最高概率,较小的输入获得指数级更小的概率。它出现在注意力机制、分类输出和token预测中。
为什么重要: Softmax在现代AI中无处不在。每当语言模型预测下一个token时,softmax将原始模型输出转换为概率。每个注意力头使用softmax计算注意力权重。每个分类器使用softmax生成类别概率。理解softmax有助于理解温度、top-p采样,以及为什么模型即使在错误时也“很有信心”。
A function that converts a vector of raw numbers (logits) into a probability distribution — all values become positive and sum to 1. Softmax amplifies the differences between values: the largest input gets the highest probability, and smaller inputs get exponentially smaller probabilities. It appears in attention mechanisms, classification outputs, and token prediction.
Why it matters: Softmax is everywhere in modern AI. Every time a language model predicts the next token, softmax converts raw model outputs into probabilities. Every attention head uses softmax to compute attention weights. Every classifier uses softmax to produce class probabilities. Understanding softmax helps you understand temperature, top-p sampling, and why models are "confident" even when wrong.
公司
最大的AI数据标注公司,提供大多数主要AI模型所依赖的人工标注训练数据。Scale AI标注图像、文本、视频和3D数据,服务于自动驾驶、政府和AI公司。他们还提供评估服务、RLHF数据收集和微调数据整理。主要客户包括OpenAI、Meta、美国国防部以及众多自动驾驶汽车公司。
为什么重要: Scale AI在AI供应链中占据关键位置:介于原始数据和训练模型之间。标注数据的质量直接决定模型质量,而Scale是最大的供应商。他们的RLHF数据收集服务意味着他们实际上参与塑造了AI模型的对齐方式——训练Claude、GPT等模型的人类偏好往往通过Scale这样的标注平台收集。
The largest AI data labeling company, providing the human-annotated training data that most major AI models rely on. Scale AI labels images, text, video, and 3D data for autonomous driving, government, and AI companies. They also offer evaluation services, RLHF data collection, and data curation for fine-tuning. Major customers include OpenAI, Meta, the US Department of Defense, and numerous self-driving car companies.
Why it matters: Scale AI occupies a critical position in the AI supply chain: between raw data and trained models. The quality of labeled data directly determines model quality, and Scale is the largest provider. Their RLHF data collection services means they literally help shape how AI models are aligned — the human preferences that train Claude, GPT, and others often come through labeling platforms like Scale.
语音识别
STT、语音转文字、ASR
使用
将口语音频转换为文本。现代语音识别使用深度学习模型(最著名的是OpenAI的Whisper),能以接近人类的准确率转录100+种语言的音频。该技术驱动语音助手、会议转录、字幕生成和无障碍工具。
为什么重要: 语音识别将语音解锁为AI的输入模态。结合LLM和文字转语音,它实现了完全语音驱动的AI交互。Whisper的开源发布使高质量转录民主化——你可以免费在本地运行它。对于无障碍性而言,它具有变革性:使音频内容可搜索、可翻译,并向聋人和听障用户开放。
叠加态
特征叠加、多义性
基础
神经网络编码的特征(概念、模式)数量远多于其神经元数量的现象,通过将特征表示为激活空间中的方向而非将单个神经元分配给单个特征来实现。一个神经元同时参与编码数十种特征,每个特征分布在许多神经元上。
为什么重要: 叠加态是神经网络难以解释以及机械可解释性具有挑战性的原因。如果每个神经元代表一个概念(如“狗的概念”),解释将很简单。相反,概念以重叠模式分散在神经元上。理解叠加态是理解神经网络如何压缩信息以及它们为何有时行为出人意料的关键。
Self-Attention
Scaled Dot-Product Attention
An attention mechanism where a sequence attends to itself — every token computes its relevance to every other token in the same sequence. The queries, keys, and values all come from the same input. This lets each token gather information from all other tokens, weighted by relevance. Self-attention is the core operation in every Transformer layer.
Why it matters: Self-attention is what makes Transformers work. It replaced the sequential processing of RNNs with parallel, direct connections between all positions. The word "bank" in "river bank" attends to "river" to resolve its meaning, regardless of how far apart they are. This ability to directly connect any two positions is why Transformers handle long-range dependencies so well.
A neural network trained to reconstruct a model's internal activations through a bottleneck with a sparsity constraint — only a few features can be active at once. The learned features often correspond to interpretable concepts (specific topics, linguistic patterns, reasoning strategies), making SAEs the primary tool for disentangling the superposed features inside large language models.
Why it matters: Sparse autoencoders are the microscope of mechanistic interpretability. LLMs pack thousands of features into each layer through superposition, making individual neurons uninterpretable. SAEs decompose these superposed representations into individual, interpretable features. Anthropic used SAEs to identify millions of features in Claude, including features for deception, specific concepts, and safety-relevant behaviors.
SwiGLU
Gated Linear Unit, GLU Variants
A gated activation function used in the feedforward layers of modern Transformers. SwiGLU combines the SiLU/Swish activation with a gating mechanism: SwiGLU(x) = (x · W1 · SiLU) ⊗ (x · W3), where ⊗ is element-wise multiplication. This lets the network learn what information to pass through, consistently outperforming standard ReLU or GELU feedforward layers.
Why it matters: SwiGLU is the feedforward activation used by LLaMA, Mistral, Qwen, Gemma, and most modern LLMs. Understanding it helps you read model architectures and explains why modern FFN layers have three weight matrices instead of two. It's a small architectural choice with outsized impact on model quality.
Sigmoid
Logistic Function
A mathematical function that squashes any real number into the range (0, 1): σ(x) = 1 / (1 + e^(−x)). Historically the default activation function in neural networks, now largely replaced by ReLU and GELU for hidden layers but still used for binary classification outputs, gating mechanisms (in LSTMs and GLU), and attention-like operations where you need values between 0 and 1.
Why it matters: Sigmoid appears everywhere in AI even though it's no longer the default hidden activation. LSTM gates use sigmoid. The SiLU/Swish activation is x · sigmoid(x). Binary classifiers use sigmoid as the output activation. Understanding sigmoid — and why it was replaced by ReLU for hidden layers — is foundational knowledge for understanding neural network design choices.
情感分析
意见挖掘
使用AI
自动判断文本的情感色彩——正面、负面或中性。“这个产品太棒了!”是正面的。“客服太差了”是负面的。除了简单的极性判断,高级情感分析还能检测具体情绪(愤怒、喜悦、沮丧)、方面级情感(“食物很好但服务很慢”),以及讽刺。
为什么重要: 情感分析是商业化部署最广泛的NLP应用之一。企业用它来监测社交媒体上的品牌印象、大规模分析客户评论、衡量调查中的员工满意度,以及检测正在浮现的公关危机。它也是学习NLP的常见入门点——一个简单直观的分类任务,拥有丰富的训练数据。
Stable Diffusion
SD、SDXL、SD3
模型
最广泛使用的开源图像生成模型,由Stability AI与学术研究人员合作创建。Stable Diffusion使用潜在扩散从文本提示生成图像——在压缩的潜在空间而非像素空间中执行去噪过程,使其快到可以在消费级GPU上运行。SD 1.5、SDXL和SD3代表了连续几代版本。
为什么重要: Stable Diffusion使AI图像生成民主化。在SD之前,图像生成需要昂贵的API访问(DALL-E)或仅限于研究用途。SD的开放权重意味着任何人都可以在本地运行、微调并在其基础上构建。这催生了一个庞大的生态系统:LoRA微调、ControlNet、自定义模型、社区训练的检查点,以及从Automatic1111到ComfyUI的应用程序。
Style Transfer
风格迁移、神经风格迁移
使用AI
将一张图像的视觉风格(绘画、照片、设计)应用到另一张图像的内容上。“让这张照片看起来像梵高的画”就是风格迁移。神经风格迁移使用深度网络将内容(图像中有什么)与风格(它看起来怎样)分离,然后重新组合。
为什么重要: 风格迁移是最早引起广泛关注的AI艺术应用之一,至今仍广泛用于照片编辑应用、社交媒体滤镜和创意工具中。理解它有助于你理解神经网络如何在不同抽象层次上表示视觉特征——而这正是驱动现代图像生成的核心洞见。
Super Resolution
超分辨率、图像放大、图像增强、SR
使用AI
通过生成原图中不存在的合理细节来提高图像分辨率。一张256×256的照片变成清晰的1024×1024图像。AI超分辨率不只是插值像素(那会产生模糊)——它基于从高分辨率训练图像中学到的知识,生成逼真的纹理、边缘和精细细节。
为什么重要: 超分辨率有直接的实际应用:增强旧照片、放大游戏纹理、改善监控摄像头画面、为低分辨率图像准备打印输出,以及作为AI图像生成管线的后处理步骤。Real-ESRGAN等模型可以通过单次推理大幅提升图像质量。
Speaker Diarization
说话人分离、说话人日志、谁在何时说话
使用AI
确定多说话人音频录音中谁在何时说话。给定一段会议录音,分离结果为“说话人A:0:00–0:15,说话人B:0:15–0:32,说话人A:0:32–0:45。”与语音识别结合,这产生带说话人标注的转录稿——这对会议纪要、访谈转录和呼叫中心分析至关重要。
为什么重要: 仅有语音识别只能产生一堵没有说话人标识的文字墙。说话人分离添加了使转录稿有用的结构:你可以搜索特定人说了什么、总结每个说话人的贡献、分析对话动态(谁说得最多、谁打断别人)。它对任何多说话人音频应用都必不可少。
T
腾讯
混元大模型、微信、游戏 AI
公司

微信背后的中国科技巨头,全球最大的游戏公司之一,同时在生成式人工智能领域日益成为一股重要力量。其伏羲模型驱动着腾讯庞大生态系统中的各项功能,服务超过十亿用户。

为什么重要: 腾讯在AI领域的重要性与在其他领域一样,源于其规模和分布能力。微信拥有13亿用户,游戏帝国覆盖所有主要平台,腾讯能够比地球上几乎所有公司更快地将AI功能部署给更多人。他们的混元模型,尤其是混元视频,证明了大型企业集团的AI实验室可以产出真正具有竞争力的作品,而不仅仅是可用的内部工具。对于全球AI生态系统而言,腾讯对视频和语言模型的开源发布提高了免费可用技术的基准线,而其基础设施投资确保了即使在芯片出口限制下,中国的AI能力依然强大。
Twelve Labs
视频检索、Pegasus、Marengo
公司

视频理解公司,让您可以通过自然语言搜索、分析和生成视频内容。可以将其视为“视频的RAG”—他们的模型理解视频内容的方式,就像大型语言模型(LLM)理解文本一样。

为什么重要: Twelve Labs 正在构建基础架构,使全球视频内容实现机器可读。在视频主导数字通信的时代,但AI仍难以对其进行搜索—他们的专用嵌入和生成模型解决了连最前沿的实验室也仅浅尝辄止的问题。如果视频是互联网的主要媒介,那么能在生产规模上破解视频理解的人,将占据堪比谷歌搜索在文本领域所处的战略地位。
Tripo
文本转 3D、图像转 3D
公司
专注于从文本或图像生成3D模型的人工智能公司。在大多数3D生成技术仅能产出不可用的模糊块的领域中,Tripo凭借能够生成干净、可直接用于生产的网格模型而脱颖而出,这些模型真正可供游戏开发者和设计师使用。
为什么重要:

Tripo 代表着将人工智能生成的3D内容真正应用于生产环节的最前沿。尽管大多数AI生成的3D内容仍需大量手动清理,Tripo 坚持不懈地专注于网格质量、正确的拓扑结构,以及与真实工作流程的整合——这些不那么吸引眼球的工程,正是将研究演示与专业人士愿意付费的工具区分开来的关键。随着空间计算和实时3D内容需求激增,率先解决生产级生成问题的公司将抢占巨大的市场份额。

使用AI
一个控制模型输出随机性或确定性的参数。温度值为0时,模型始终选择概率最高的下一个token(确定性,专注)。温度值为1+时,模型更倾向于选择概率较低的token(创造性,不可预测)。大多数API默认值约为0.7。
为什么重要:

温度是创意调节器。写小说?调高。生成代码或事实性答案?调低。这是你可以调整的最具影响力的参数之一,而且实验成本为零。

基础

AI模型处理文本的基本单位。一个token通常是一个词或词的一部分—"understanding"可能是一个token,而"un" + "der" + "standing"可能有三个。平均来说,一个token大约相当于英语中一个词的3/4长度。模型在读取、思考和计费时都以token为单位。

为什么重要:

Token 是 AI 的货币。上下文窗口以 token 为单位进行衡量。API 定价按 token 计算。当提供商提到 “1M 上下文” 时,他们指的是 100 万个 token—大约 75 万字。理解 token 有助于您估算成本并优化使用。

工具使用
函数调用
工具
AI模型在对话过程中调用外部函数或工具的能力。与其仅仅生成文本,模型可以决定进行网络搜索、运行代码、查询数据库或调用API—然后将结果整合到其响应中。模型输出一个结构化的“工具调用”,由主机应用程序执行。
为什么重要: 工具使用是使AI模型在对话之外真正有用的关键。它是代码解释器、网络浏览AI和每个AI代理背后的机制。没有它,模型将局限于其训练数据中的内容。
模型

几乎所有现代大型语言模型(LLMs)以及许多图像和音频模型背后都使用了这种神经网络架构。由Google在2017年的论文“Attention Is All You Need”中首次提出,Transformer通过自注意力机制同时处理输入的所有部分,而非按顺序处理,从而在训练过程中实现大规模并行计算。

为什么重要:

Transformer 是使当前 AI 热潮成为可能的架构。GPT、Claude、Gemini、Llama、Mistral — 它们实际上都是基于 Transformer 架构构建的。理解这一架构有助于你理解为什么这些模型具有它们所具备的能力和局限性。

分词器
Tokenizer、Tokenization
基础
将原始文本转换为模型可以处理的token的算法。分词器维护一个固定的token类型词汇表,并将任何输入文本拆分为该词汇表中的token序列。不同的模型使用不同的分词器——同一句话在Claude、GPT和Llama中的分词结果不同,这会影响上下文使用量和成本。
为什么重要: 分词器是你的文本和模型之间看不见的层。它决定了你的提示词消耗多少token、为什么有些语言比其他语言更昂贵、以及为什么代码有时比散文更快地消耗上下文。当你触及上下文限制或遇到意外的API费用时,分词器通常就是答案。
The algorithm converting raw text into tokens before the model sees it. Different models use different tokenizers — the same sentence tokenizes differently for Claude, GPT, and Llama.
Why it matters: The invisible layer between your text and the model. Determines why some languages cost more, why code uses context faster than prose, and why you hit unexpected context limits.
训练
利用从一个任务或数据集中学到的知识来提高在不同但相关任务上的性能。无需每次都从头训练,而是从一个已经理解一般模式(语言结构、视觉特征)的模型开始,然后将其适配到你的特定需求。预训练然后微调是现代AI的主导范式。
为什么重要: 迁移学习是AI变得实用的原因。从头训练一个语言模型需要数百万美元。在预训练模型上为你的特定任务进行微调只需数十美元和几个小时。正是这种经济性推动了AI应用的爆发——你不需要Google的预算就能构建有用的东西。
Using knowledge learned from one task or dataset to improve performance on a different but related task. Instead of training from scratch every time, you start with a model that already understands general patterns (language structure, visual features) and adapt it to your specific need. Pre-training then fine-tuning is the dominant paradigm in modern AI.
Why it matters: Transfer learning is why AI became practical. Training a language model from scratch costs millions of dollars. Fine-tuning a pre-trained model on your specific task costs tens of dollars and a few hours. This economics is what enabled the explosion of AI applications — you don't need Google's budget to build something useful.
吞吐量
每秒token数、TPS
基础设施
系统在所有并发请求中每秒能够生成的token总数。与延迟(单个请求的服务速度)不同。高吞吐量的系统同时服务许多用户。低延迟的系统快速服务每个用户。两者之间通常存在权衡。
为什么重要: 在构建AI产品时,吞吐量决定你的服务成本和容量。一个每用户每秒生成100个token但只能同时服务一个用户的系统,即使单个延迟很好,吞吐量也很低。当你要为数千个并发用户支付GPU账单时,吞吐量就是你需要优化的指标。
The total number of tokens a system can generate per second across all concurrent requests. Distinct from latency (how fast a single request is served). A system with high throughput serves many users simultaneously. A system with low latency serves each individual user quickly. The two often trade off against each other.
Why it matters: When building AI products, throughput determines your serving costs and capacity. A system that generates 100 tokens/second per user but can only serve one user at a time has low throughput even though individual latency is great. Throughput is what you optimize when you're paying GPU bills for thousands of concurrent users.
公司
一个运行和训练开源AI模型的云平台。Together AI以具有竞争力的价格为流行的开源模型(Llama、Mistral、Qwen等)提供推理API,加上微调和自定义训练基础设施。由AI研究人员创建,他们也为开源研究做出贡献,并发布了自己的模型。
为什么重要: Together AI是想使用开源模型的团队自托管之外的首选替代方案。无需管理自己的GPU服务器和模型服务基础设施,你只需调用他们的API就能以远低于OpenAI/Anthropic的价格使用Llama-70B或Mistral。他们代表了AI堆栈中“开源模型云”层,使开源权重模型在生产中变得可行。
A cloud platform for running and training open-source AI models. Together AI provides inference APIs for popular open models (Llama, Mistral, Qwen, etc.) at competitive prices, plus fine-tuning and custom training infrastructure. Founded by AI researchers, they also contribute to open-source research and have released their own models.
Why it matters: Together AI is the leading alternative to self-hosting for teams that want to use open models. Instead of managing your own GPU servers and model serving infrastructure, you call their API and get Llama-70B or Mistral at a fraction of OpenAI/Anthropic prices. They represent the "open model cloud" layer of the AI stack that makes open-weight models practical for production use.
文字转语音
TTS、语音合成、语音AI
使用
将书面文本转换为自然流畅的语音音频。现代TTS系统使用神经网络生成几乎无法与人类声音区分的语音,并能控制情感、节奏、重音,甚至进行特定的语音克隆。ElevenLabs、OpenAI TTS以及Bark和XTTS等开源模型使高质量语音合成变得广泛可及。
为什么重要: TTS完成了语音AI的闭环:语音识别将语音转为文本,LLM处理文本,TTS将回复转回语音。这使语音助手、有声书朗读、无障碍工具、内容本地化以及游戏和媒体中的AI角色成为可能。现代TTS的质量已经跨越了恐怖谷——合成语音现在听起来很自然。
测试时计算
推理时计算、思维链、思考token
基础
在推理期间(当模型生成回复时)使用额外计算来提高回答质量。模型不是立即生成答案,而是“思考”更长时间——生成推理token、探索多种方法或验证自己的输出。在测试时使用更多计算会产生更好的答案,特别是对于复杂推理任务。
为什么重要: 测试时计算是最新的缩放范式。第一个时代扩展训练计算(更大的模型、更多的数据)。当前时代也扩展推理计算(每个问题更多的思考)。像o1和带扩展思考的Claude这样的模型表明,让模型推理30秒通常优于在2秒内回答的模型,即使快速模型技术上更大。这改变了经济学:质量成为你愿意为每个查询花费多少的函数。
文本摘要
摘要、TL;DR
使用AI
自动生成保留关键信息的文本缩短版本。抽取式摘要选择并组合最重要的现有句子。生成式摘要生成捕捉含义的新句子——就像人类做摘要那样。现代LLM擅长生成式摘要,能对文档、文章和对话生成流畅准确的摘要。
为什么重要: 信息过载是数字时代的核心挑战。摘要能帮上忙:将长报告浓缩为可执行的简报,从会议记录生成会议纪要,为研究论文创建摘要,以及为冗长文章生成TL;DR版本。这是LLM最直接有用的能力之一,也是最容易集成到现有工作流中的。
张量
多维数组
基础
多维数字数组——深度学习中的基本数据结构。标量是0D张量(单个数字)。向量是1D张量。矩阵是2D张量。图像是3D张量(高度 × 宽度 × 通道)。一批图像是4D张量。模型权重、激活值、梯度——神经网络中的一切都是张量。
为什么重要: 张量是深度学习的语言。PyTorch、TensorFlow和JAX本质上是张量计算库。理解张量形状和操作对于阅读模型代码、调试形状不匹配(ML代码中最常见的错误)以及理解神经网络内部发生了什么至关重要。如果你能跟踪张量形状,你就能跟踪架构。
U
Upstage
Solar 模型、Document AI
公司

一家以Solar模型系列和Document AI产品闻名的韩国人工智能公司。他们证明了经过良好训练的小型模型可以超越规模更大的模型——其Solar 10.7B在国际基准测试中的表现远超其规模。

为什么重要:

Upstage展示了无需百亿参数即可构建世界级语言模型的可能性。Solar 10.7B在开放基准测试中的成功挑战了“规模即一切”的主流观点,并表明巧妙的训练技术可以弥补原始规模的不足。除了模型本身,Upstage的Document AI工作解决了AI生态系统中最实用的缺口之一——将杂乱的真实世界文档转化为结构化数据——他们在首尔的成功证明,有意义的AI创新正在远离主导新闻报道的硅谷和北京走廊之外蓬勃发展。

一种在没有被告知要寻找什么的情况下,从数据中发现模式的训练方法。没有标签,没有正确答案——只有原始数据和一个发现其结构的模型。聚类、降维和异常检测是经典任务。
为什么重要: 现实世界中的大部分数据都是未标注的。无监督学习能发现人工无法发现的模式。它也是嵌入(embedding)的基础,而嵌入驱动着语义搜索、推荐系统和RAG。
Finding patterns in data without labels. Clustering, dimensionality reduction, and anomaly detection are classic tasks. The model discovers structure on its own.
Why it matters: Most real-world data is unlabeled. Unsupervised learning finds patterns impossible to discover manually. It's the basis for embeddings, semantic search, and RAG.
V
语音 AI
语音 AI、对话式 AI
工具

用于生成、理解及操控人类语音的人工智能系统。这包括文本到语音(TTS)、语音到文本(STT/ASR)、声音克隆、实时语音翻译、语音情感识别以及对话式语音代理。该领域已发展到人工智能生成的语音通常与人类语音难以区分的程度。

为什么重要:

语音是最自然的人类界面,而AI终于使其变得可编程。语音AI驱动了从客服机器人到有声书朗读再到实时会议转录的一切应用。声音克隆—知情同意、身份、欺诈—的伦理影响,使其成为人工智能领域中最敏感的领域之一。

Vidu
Vidu 视频生成、长片段连贯性
公司
生数科技推出的视频生成平台,能够生成一些物理上连贯的AI生成视频。凭借出色的运动质量和多镜头一致性,与西方竞争对手相媲美。
为什么重要: Vidu证明了中国AI实验室能够在Sora发布数月内就达到与西方相当的视频生成质量,颠覆了关于AI视频领域技术前沿实际所在位置的假设。他们对物理一致性和多镜头一致性的专注推动了整个领域的发展,迫使竞争对手将真实感置于视觉表现之上。对于更广泛的AI视频市场而言,Vidu激进的定价策略和API的可用性也帮助降低了成本,提高了全球开发者的获取便利性。
Voyage AI
voyage-3、领域专用 embedding
公司
嵌入模型公司构建针对代码、法律、金融和多语言搜索的专用向量。其模型在MTEB排行榜上始终名列前茅,并通过API提供业内领先的检索质量。
为什么重要: Voyage AI证明了嵌入模型值得与大语言模型(LLM)一样获得同等的工程关注和投资。在大多数供应商将向量表示视为低利润工具的市场中,Voyage展示了领域特定的嵌入模型可以显著提高检索准确性——这是生产环境中RAG系统最重要的杠杆。他们被谷歌收购验证了这样一个论点:掌握嵌入层的人就掌控了人工智能搜索基础设施的基础。
向量数据库
Qdrant、Pinecone、Weaviate、ChromaDB
工具
一种优化用于存储和搜索嵌入(向量)的数据库。与传统数据库通过匹配精确关键词不同,向量数据库能够找到语义上最相似的条目。当你询问“如何修复内存泄漏”时,它会返回关于“调试RAM消耗”的文档,因为它们的嵌入向量相近。
为什么重要: 向量数据库是使RAG得以实现的存储层。没有它们,每次查询时都需要将整个知识库进行嵌入。它们也是推荐系统和语义搜索的核心支撑。
VRAM
显存、GPU 内存
基础设施

GPU上的内存,与系统RAM分开。AI模型必须适合VRAM才能在GPU上运行。一个70亿参数、16位精度的模型需要约14GB的VRAM。消费级GPU有8-24GB;数据中心GPU(A100、H100)有40-80GB。VRAM几乎总是本地AI的瓶颈。

为什么重要: VRAM决定了你可以运行的模型。这就是为什么存在量化(将模型缩小以适应),为什么MoE模型很棘手(所有专家都必须装入VRAM),以及为什么GPU价格与内存容量呈陡峭增长。“它能否装入VRAM?”是自托管AI的第一个问题。
视频生成
文本到视频、AI 视频
基础
使用 AI 模型从文本描述、图像或其他视频创建视频。生成式 AI 的前沿领域。
为什么重要: 视频生成是生成式 AI 的前沿——最困难的模态,也是商业潜力最大的模态。
词汇表
词表、Token词汇表
基础
模型能够识别和生成的固定token集合。词汇表在训练期间由分词器构建,通常包含32K到128K个条目——常见词、子词片段、单个字符和特殊token。模型处理的任何文本都必须可表示为该词汇表中的token序列。不在词汇表中的token会被分解为更小的、在词汇表中存在的片段。
为什么重要: 词汇表决定了模型能“看到”什么。主要以英语训练的词汇表将高效处理英语(每个词一个token),但可能将中文、阿拉伯语或代码分割成许多小token(昂贵、较慢、上下文更少)。词汇表设计是模型开发中最具影响力却最少被讨论的决策之一。
视觉
多模态视觉、图像理解
使用
语言模型理解和推理图像与文本的能力。你发送一张照片并问“这张图像里有什么?”或上传一个图表并问“总结趋势。”具有视觉能力的模型(Claude、GPT-4V、Gemini)将图像编码为token,语言模型将其与文本token一起处理,实现统一的文本和图像推理。
为什么重要: 视觉改变了LLM的能力范围。与其用文字描述一个bug,不如截图。与其打出一个表格,不如拍照。与其解释一个图表,不如分享它。视觉使AI能够处理仅靠文本不足以应对的任务——而这是大多数现实世界的任务。它是日常用户最有影响力的多模态能力。
A Transformer architecture applied to images by splitting an image into fixed-size patches (e.g., 16×16 pixels), treating each patch as a "token," and processing the sequence of patches with standard Transformer attention. ViT (Dosovitskiy et al., 2020) showed that Transformers could match or exceed CNNs on image tasks when trained on enough data, unifying the architectures for language and vision.
Why it matters: ViT proved that the Transformer is a universal architecture — not just for text but for images too. This unification enabled the explosion of multimodal models: if images and text are both sequences of tokens processed by the same architecture, combining them becomes natural. ViT is the image encoder in CLIP, the backbone of DiT, and the foundation of modern computer vision.
An open-source LLM serving engine that achieves high throughput through PagedAttention and continuous batching. vLLM handles the complex engineering of GPU memory management, request scheduling, and KV cache optimization, providing an OpenAI-compatible API that makes it easy to self-host open models (Llama, Mistral, Qwen) in production.
Why it matters: vLLM is the most popular open-source LLM serving solution. If you're self-hosting an open model, you're probably using vLLM (or should be). Its PagedAttention innovation increased serving throughput by 2–24x compared to naive implementations. It's the infrastructure layer that makes open models practical for production use.
语音克隆
语音合成、语音复制
使用AI
从简短的音频样本创建特定人声音的合成副本,使文本转语音听起来像那个人。现代系统(ElevenLabs、PlayHT、Resemble AI)可以从短至15秒的音频以惊人的保真度克隆声音,捕捉音调、口音、说话风格和情感范围。
为什么重要: 语音克隆实现了强大的创意和无障碍应用:以演员自己的声音跨语言配音电影、保存正在失去说话能力的人(ALS患者)的声音、创建一致的品牌语音,以及个性化AI助手。它也造成了严重的风险:冒充家人的电话诈骗、公众人物的虚假音频,以及未经同意的语音复制。
验证集
开发集、保留集
训练
从训练中保留的数据子集,用于在开发过程中评估模型性能和调整超参数。三分法:训练集训练模型,验证集指导关于模型的决策(学习率、架构、何时停止),测试集提供最终的无偏性能估计。验证集是你在开发过程中的镜子。
为什么重要: 没有验证集,你就是在盲飞。训练损失告诉你模型拟合训练数据的程度,但不能告诉你泛化能力如何。验证集回答的是真正重要的问题:“这个模型在未见过的数据上会表现如何?”模型开发过程中的每一个决策——超参数、架构选择、训练时长——都应该在验证集上评估。
W
权重
模型权重、神经网络权重
训练
神经网络内部在训练过程中通过调整以最小化误差的数值。每个神经元之间的连接都有一个权重,决定了前一个神经元对下一个神经元的影响程度。当你下载一个模型文件——例如 .safetensors、.gguf 或 .pt 文件——你实际上是在下载它的权重。“发布权重”意味着发布这些文件,使任何人都可以运行该模型。权重就是模型本身;其余的一切只是架构,告诉你如何排列它们。
为什么重要: 当AI行业提到“开放权重”与“开源”时,这一区别至关重要。仅拥有权重可让你运行和微调模型,但若没有训练代码、数据和配方,你就无法从零开始复现该模型。理解权重有助于掌握模型分布、量化(降低权重精度)以及为何一个7B模型在FP16格式下需要约14GB的磁盘空间—。
万相
Wan 视频模型、开源权重视频生成
公司
阿里巴巴专门的视频生成计划,发布高质量的开源视频模型。这是阿里巴巴更全面的策略的一部分,旨在在各个模态的开源AI领域处于领先地位。
为什么重要:

Wan-AI 通过发布任何人都可以运行、微调和部署且无需授权费用的开放权重模型,从根本上改变了高质量视频生成的可及性。这迫使整个视频 AI 行业重新审视闭源模型的价值主张,并加速了整个生态系统的创新。作为阿里巴巴与 Qwen 一同推进的更广泛的开源 AI 战略的一部分,Wan 提供了一个可信的论点,即大公司的开放权重发布可以匹敌甚至超越资金充足的初创公司闭门研发的产品。

水印
AI水印
安全
嵌入AI内容中用于检测的不可见信号。文本:在统计上偏置token选择。图像:不可见的像素模式。
为什么重要: 大规模区分AI生成内容的少数可行方法之一。对于虚假信息防范、学术诚信和来源追溯至关重要。
Embedding invisible signals in AI-generated content for later detection. Text watermarking subtly biases token selection so detectors can statistically identify AI text.
Why it matters: As AI content becomes indistinguishable from human content, watermarking could help distinguish them at scale. Matters for misinformation, academic integrity, and provenance.
Weights & Biases
W&B、WandB
公司
追踪机器学习实验的主流MLOps平台。W&B让你记录训练过程中的指标、超参数、模型输出和系统性能,然后直观地比较各次运行。它已成为ML研究人员和工程师追踪尝试了什么、什么有效以及为什么有效的标准工具——本质上是实验的版本控制。
为什么重要: 没有实验追踪,ML开发就是一团混乱:哪些超参数产生了那个好结果?使用了哪个版本的数据集?训练为什么发散了?W&B如此出色地解决了这个问题,现在从独立研究者到OpenAI都在使用它。如果你在训练模型,你几乎肯定在使用W&B或受它启发的工具。
The dominant MLOps platform for tracking machine learning experiments. W&B lets you log metrics, hyperparameters, model outputs, and system performance during training, then compare runs visually. It's become the standard tool for ML researchers and engineers to track what they tried, what worked, and why — essentially version control for experiments.
Why it matters: Without experiment tracking, ML development is chaos: which hyperparameters produced that good result? Which dataset version was used? Why did training diverge? W&B solved this problem so well that it's now used by most AI labs, from solo researchers to OpenAI. If you're training models, you're almost certainly using W&B or something inspired by it.
世界模型
内部世界模型、学习模拟器
模型
一种构建关于世界如何运作的内部表示的模型——不仅仅是统计相关性,还包括因果关系、物理定律和空间推理。关于LLM是否拥有世界模型的辩论是AI中最具争议的之一:它们是否真正理解物体被松开时会掉落,还是只是知道在文本中“掉落”经常跟在“松开”后面?
为什么重要: 世界模型位于AI最重要问题的核心:理解是否需要超越模式匹配?如果LLM构建了真正的世界模型,它们比我们想象的更接近理解。如果没有,存在一个仅靠缩放无法弥合的根本能力差距。答案对AI安全、能力和通向更通用智能的道路有巨大影响。
Word Embedding
Word2Vec, GloVe, Word Vectors
Dense vector representations of words where words with similar meanings have similar vectors. Word2Vec (2013) and GloVe (2014) pioneered this: they train on word co-occurrence patterns to produce vectors where "king − man + woman ≈ queen." Word embeddings were the precursor to modern contextual embeddings (BERT, sentence-transformers) and remain foundational to understanding how neural networks represent language.
Why it matters: Word embeddings were the breakthrough that made neural NLP practical. Before them, words were represented as one-hot vectors (no notion of similarity). Word embeddings proved that distributed representations could capture meaning, analogy, and semantic relationships. This insight — represent discrete symbols as learned continuous vectors — is the foundation of all modern language models.
权重初始化
Xavier初始化、Kaiming初始化、He初始化
训练
在训练开始前如何设置神经网络权重。糟糕的初始化可以让训练还没开始就失败(激活值消失或爆炸)。好的初始化确保激活值和梯度在各层之间保持合理的幅度。Xavier初始化(用于tanh/sigmoid)和Kaiming/He初始化(用于ReLU)是标准方法,每种都针对激活函数进行了校准。
为什么重要: 初始化看起来是个小细节,但对训练深层网络至关重要。初始权重过大(随机)的网络会产出爆炸的激活值。权重过小的网络会产出消失的激活值。适当的初始化将网络置于“金凤花区间”,信号在其中传播时既不爆炸也不消失——这是梯度下降工作的前提条件。
Windsurf
Codeium、Windsurf编辑器
公司
一款AI原生代码编辑器(前身为Codeium),在AI编程助手领域与Cursor竞争。与Cursor一样,Windsurf是基于VS Code分支构建的,深度集成AI功能:多文件编辑、代码库感知建议和自然语言命令。该公司强调“flows”——跨编辑保持上下文的更长多步骤AI交互。
为什么重要: Windsurf代表了AI编程工具日益激烈的竞争,证明AI原生编辑器的市场足够大,可以容纳多个玩家。其用于多步骤编码任务的“Cascade”功能和免费层吸引了大量用户。Cursor vs. Windsurf vs. Copilot vs. Claude Code的竞争正在推动开发者与AI交互方式的快速创新。
X
小米
MiLM、消费电子 AI
公司
全球最大的消费电子公司之一,现在正在构建自己的AI模型。MiLM驱动小米手机、智能家居设备和电动汽车生态系统的各项功能——为下一十亿用户提供AI服务。
为什么重要:

小米代表了AI如何触及下一个十亿用户最具说服力的案例——不是通过独立聊天机器人应用或开发者API,而是隐形地嵌入到人们已经拥有的设备中。凭借覆盖手机、可穿戴设备、家用电器,如今还包括电动汽车的数亿台活跃设备,小米能够以纯AI公司无法企及的规模和亲密感部署AI。他们以生态优先的方法预示了AI将如何成为环境基础设施,而非你有意识选择使用的产物,而他们在新兴市场的主导地位意味着这一未来将触及前沿AI实验室很少考虑的人群。

xAI
Grok
公司
Elon Musk的AI公司(2023年成立)。产品包括Grok系列模型、X平台数据访问权、Colossus计算集群(10万+块H100)。
为什么重要: 规模+独特数据。X平台的数据流和大规模算力能否产出前沿级别的模型,是一个悬而未决的问题。
Elon Musk's AI company, known for Grok models. Has access to X (Twitter) data and one of the largest GPU clusters (Colossus, 100K+ H100s).
Why it matters: Matters for its scale and unique data access. Whether the X firehose and massive compute translate into frontier-quality models is the open question.
Y
YAML
YAML Ain't Markup Language
基础设施
一种可读性极强的数据序列化格式,广泛用于人工智能和DevOps领域的配置文件、流水线定义以及模型元数据。YAML使用缩进表示结构(无需括号或大括号),这使其易于阅读,但对空白字符极为敏感。在AI工作流程中随处可见 — Docker Compose文件、Kubernetes清单、Hugging Face模型卡片、CI/CD流水线以及训练配置文件。
为什么重要: 如果你在处理AI基础设施,那你就是在编写YAML。模型配置、部署清单、流水线定义、环境变量—它就是现代AI堆栈的粘合剂语言。熟悉YAML并不是可选的;当你错误配置训练运行或部署时,第一个出问题的就是它。
Z
智谱 AI
GLM、ChatGLM、CogView、CogVideo
公司
由清华大学孵化的中国人工智能公司。GLM模型家族的开发者之一,也是中国领先的AI平台之一,在语言和视觉生成领域具有优势。
为什么重要:

智谱AI弥合了中国学术研究与商业人工智能之间的差距,开发了获得全球实际应用的开源模型—尤其是在视频生成领域推出的CogVideoX模型—。其GLM架构和清华大学的背景赋予了其深厚的技术可信度,使他们成为少数几家在全球范围内被广泛引用和借鉴其研究成果的中国人工智能公司。

Zero-shot / Few-shot
上下文学习
使用AI
零样本(zero-shot)意味着让模型在没有任何示例的情况下完成任务—只需指令。少样本(few-shot)意味着在实际请求之前,在提示中提供少量的输入-输出示例。"以下是3个如何格式化此数据的示例... 现在处理这个。" 模型仅通过上下文学习模式,无需训练。
为什么重要: 少样本提示是教模型掌握新格式或行为的最快方法。需要一致的JSON输出吗?给出三个例子。需要特定的写作风格?提供一些样例。它免费、即时,且出人意料地强大。
ESC