Zubnet AI學習 › Wiki

AI Wiki

AI概念,由建造者解釋,而非教科書。沒有術語牆。沒有學術門檻。清晰、實用的定義。

324 術語 8 分類 2026年4月更新
💡
每日術語
Loading...
🧭 學習路徑
入門
我剛接觸AI
AIChatbotPromptLLMTokenContext WindowHallucination
開發者
我在建構AI應用
APIStructured OutputStreamingFunction CallingRAGSemantic SearchModel Serving
深入理解
AI到底是怎麼運作的?
NeuronLayerActivation FunctionGradient DescentTransformerAttentionAutoregressive
本地AI
在我的電腦上執行AI
Open WeightsQuantizationGGUFllama.cppOllamaVRAMEdge AI
安全
AI安全與對齊
AlignmentGuardrailsRed TeamingPrompt InjectionConstitutional AIAI EthicsAI Regulation
ML工程師
我想訓練模型
DatasetLoss FunctionTransfer LearningFine-TuningLoRARLHFDPO
未找到匹配的術語。
A
ASI
人工超級智慧
基礎
一種理論上的AI系統,其認知能力在幾乎所有領域都超越所有人類——科學推理、社會智慧、創造力、戰略規劃等等。ASI超越AGI(與人類智慧相當)達到質的差異:一種能夠遞歸自我改進、解決人類甚至無法明確表述問題的智慧。目前尚無任何ASI存在,科學界尚未就是否能夠或將會建造出ASI達成共識。
為什麼重要: ASI 是 AI 安全成為存在性問題之處。如果你相信超級智慧是可能的,那麼對齊不僅僅是讓聊天機器人變得有禮貌——而是確保一個比全人類都聰明的系統仍然符合我們的利益。這屬於推測性領域,但風險足夠高,使得嚴肅的研究人員對其非常重視。理解 ASI 可幫助你以更細膩的方式評估關於 AI 風險的主張。
AGI
通用人工智慧
基礎
一個假設性的AI系統,能夠理解、學習並執行人類所能進行的任何智慧行動——具備跨領域知識轉移能力,無需針對每個領域進行特定訓練。與目前擅長處理特定任務(生成文字、分類影像)的AI不同,AGI將能處理新情境、進行抽象推理,並適應任何挑戰。AGI是即將到來、數十年後出現,還是根本不可能,是該領域中最富爭議的議題。
為什麼重要: AGI是整個AI產業的北極星(或鬼魅)。它驅動數十億美元的投資,影響安全研究的優先順序,並主導政策辯論。無論你是否認為AGI已經近在咫尺,這個概念都定義了像Anthropic、OpenAI和DeepMind這樣的公司如何定義他們的使命——理解這場辯論能幫助你區分真正的進步與炒作。
AI 程式編寫助手
程式碼 Copilot、AI IDE
工具

協助開發者撰寫、審查、除錯與部署程式碼的人工智慧工具。從自動補全(GitHub Copilot、Codeium)到完全自主開發(Claude Code、Cursor、Devin),程式碼助手代表了大型語言模型(LLMs)最成熟且廣泛採用的應用之一。它們透過根據您程式碼庫、文件和說明的上下文來預測程式碼的下一個 tokens 來運作。

為什麼重要: AI程式輔助工具是AI對知識型工作影響中最尖端的應用。使用它們的開發者報告指出,在例行任務上的生產力提升了30-50%。但同時也會虛構不存在的API—引入細微錯誤—並可能使開發者依賴他們不完全理解的工具。
自動化
AI 自動化、工作流程自動化
工具

利用 AI 來執行以往需要人工介入的任務。這範圍從簡單的自動化(自動分類電子郵件、生成報告)到複雜的自主工作流程(AI 代理程式進行研究、撰寫、測試和部署程式碼)。從傳統自動化(僵硬的規則)轉向 AI 自動化(彈性的智慧)的關鍵在於,AI 能處理模糊且非結構化的任務。

為什麼重要:

自動化是AI採用的經濟引擎。每一家採用AI的企業,其實是在購買自動化—更少的人從事重複性工作、更快的處理速度、全天候運作。問題不是AI是否會自動化任務,而是哪些任務、多快完成,以及從事這些任務的人們會發生什麼事。

AI 網路安全
AI 安全、AI 威脅偵測
安全
AI在網路安全中的雙重應用:使用AI來防禦系統(威脅檢測、異常檢測、自動化事件回應),以及AI所創造的新攻擊向量(AI生成的魚叉式詐騙、自動化漏洞發現、對機器學習系統的對抗性攻擊)。這個領域正處於一場軍備競賽中,攻擊者和防禦者都越來越依賴AI。
為什麼重要: AI 使現有的網絡威脅變得更快、更便宜 — 由大型語言模型(LLM)撰寫的魚叉式詐騙郵件更具說服力,且個性化成本為零。但 AI 也讓一些手動無法實現的防禦措施成為可能,例如每秒分析數百萬個網路事件以偵測異常。不使用 AI 的安全團隊將會敗給那些使用 AI 的攻擊者。
AI 治理
AI 監管、AI 政策
安全

引導人工智慧開發、部署與使用的架構、政策、法律與組織實踐。這包括政府規範(歐盟AI法案、行政命令)、產業自律(負責任擴展政策、model cards)、企業治理(AI倫理委員會、使用政策),以及國際間在AI安全標準上的協調。

為什麼重要: 科技的發展速度遠快於規則的制定。企業正將人工智慧產品推出至醫療保健、刑事司法和金融領域,幾乎沒有監管。治理正是試圖在某件事情壞到足以引發足以讓整個領域倒退的反彈之前,先行設定界線。
AI 隱私
AI 資料隱私、ML 隱私
安全

在不損害個人數據的情況下建立和使用人工智慧系統的挑戰。這涵蓋整個生命周期:可能包含私人資訊的訓練數據、可能記憶並重現個人細節的模型、追蹤用戶行為的推論日誌,以及人工智慧能力(隨數據增加而提升)與隱私權之間的根本矛盾。

為什麼重要:

每一次與AI的對話都是數據。每一次你生成的圖片都會暴露出你的提示詞。每一次你總結的文件都會經過某人的伺服器。隱私不只是法律上的勾選框(GDPR、CCPA)—它是一個信任問題,這決定了個人和企業是否會採用AI來處理敏感工作。

AI 安全
LLM 安全、AI 安全工程
安全

保護AI系統免受對抗性攻擊、數據污染、提示注入、模型竊取與濫用的實踐—同時防禦深度偽造(deepfakes)與自動化網絡攻擊等AI啟用的威脅。AI安全位於傳統網絡安全與機器學習系統所引發的獨特弱點的交界處。

為什麼重要: AI系統同時是強大的工具與全新的攻擊面。一次提示注入可能導致您的客服機器人泄漏內部資料。一個被毒化的訓練資料集可能插入後門。當AI被部署於關鍵基礎設施、醫療保健與金融領域時,安全不再是選項——而是存亡關鍵。
AI 定價
Token 定價、API 定價
基礎設施
AI 供應商如何對其模型的使用收費。主流模式是按 token 定價 — 您需為所傳送(輸入)與接收(輸出)的 token 數量付費,輸出的 token 通常費用是輸入的 3 到 5 倍。其他模式包括按次收費、每月訂閱、承諾使用折扣與免費層級。價格戰異常激烈,兩年內成本已下降 10 到 100 倍。
為什麼重要: 價格決定了你能建立什麼。每天進行10,000次API呼叫的應用程式,其存亡取決於每個token的成本。理解定價模型、比較服務供應商、並優化token使用量,是任何開發AI驅動產品的人的核心技能。
AI 基礎設施
AI 基建、ML 基礎設施
基礎設施

用於大規模訓練和部署AI模型所需的完整堆疊硬體、軟體與服務。這包括GPU與客製化晶片、資料中心、網路、儲存、編排平台(Kubernetes、Slurm)、模型服務框架(vLLM、TensorRT)以及整合所有資源的雲端服務供應商。AI基礎設施正是模型架構的抽象世界與電力系統和冷卻系統等具體世界交會之處。

為什麼重要: 基礎設施決定什麼是可能的。只有少數公司能夠訓練尖端模型的原因不是缺乏想法——而是缺乏基礎設施。而 AI 對終端用戶的費用之所以如此,直接追溯到 GPU 可用性、資料中心容量以及推論服務效率。
AssemblyAI
Universal-2 語音辨識、音訊智能
公司
Speech AI公司正在建立開發者友好的API,用於語音轉文字、說話者檢測與語音理解。他們的Universal-2模型在準確度上與OpenAI Whisper匹敵,同時內建說話者分離、情緒分析與主題檢測等功能。
為什麼重要:

AssemblyAI 讓語音轉文字技術真正對開發者開放,將原本需要專屬機器學習團隊才能完成的任務,簡化為單一 API 呼叫。他們的 Audio Intelligence 架構 — 結合語音轉譯、說話者辨識、情感分析與 LLM 驅動的摘要功能 — 正在將原始音訊轉換為結構化且可操作的資料,其規模之大,甚至是兩年前都難以實現的。在語音逐漸成為 AI 代理程式預設介面的世界裡,AssemblyAI 正在建立所有其他技術所依賴的理解層。

Anthropic
Claude、憲法式 AI、MCP
公司
AI安全公司Anthropic正在開發Claude。該公司由前OpenAI研究人員戴里奧與丹妮拉·阿莫迪共同創立,專注於開發可靠、可解釋且可導向的AI系統。
為什麼重要:

Anthropic 證明了一家 AI 公司可以以安全研究為先導,同時仍能在技術前沿競爭。他們的 Constitutional AI 方法影響了整個產業對對齊問題的思考方式,其 Responsible Scaling Policy 設定了一個模板,其他實驗室以各種形式採用,而 Claude 已成為需要可靠性與謹慎處理敏感內容的企業的首選模型。或許最重要的是,Anthropic 作為一家資金充足的競爭者存在,確保通往 AGI 的競賽不會成為一家公司的獨角戲 — 並確保至少有一家主要參與者將安全編織在其創立基因中,而非事後補上的考量。

阿里雲
通義千問、Qwen 系列模型
公司
阿里巴巴集團旗下的雲端計算部門,以及 Qwen 模型家族的開發者。Qwen 模型採用完全開放權重,支持多語言,並在目前可取得的開放模型中功能最強。
為什麼重要:

阿里巴巴雲已將通義千問打造成亞洲部署最廣的開放權重模型家族,並成為與Meta的Llama真正競爭的全球級模型,證明具備前沿能力的模型可以來自矽谷以外。他們結合開放模型釋出、龐大的雲端基礎設施與ModelScope生態系統,為開發者—尤其是受美國出口管制影響的市場—提供一個可信賴且高品質的西方AI平台替代方案。

智能體
AI Agent、智能代理
工具

一個能夠自主規劃並執行多步驟任務的人工智慧系統,使用工具(網頁搜尋、程式碼執行、API 呼叫)來達成目標。與只能一次回答一個問題的簡單聊天機器人不同,代理會根據迄今所學來決定下一步該做什麼。

為什麼重要:

Agents 是連結「會說話的 AI」與「會做事的 AI」的橋樑。當你的 AI 能夠自行瀏覽文件、撰寫程式碼並進行測試,而無需你在每一步都親自指導 — 這就是 Agent。

安全

讓AI系統以符合人類價值和意圖的方式運作的挑戰。一個對齊的模型會執行你真正想表達的內容,而不仅仅是字面上的字句 — 即使沒有明確被告知不要這樣做,也能避免有害的行為。

為什麼重要: 一個技術上卓越但對齊不良的模型,就像一個天才員工,卻太字面地遵循指示。對齊研究正是模型會拒絕危險請求並努力成為真正有幫助的原因。
API
應用程式介面
基礎設施

軟體之間進行溝通的結構化方式。在 AI 領域中,這通常表示將請求(您的提示)傳送至服務供應商的伺服器,並接收回應(模型的輸出結果)。透過 HTTPS 的 REST API 是標準做法。

為什麼重要:

每一家 AI 提供商 — Anthropic、Google、Mistral — 都透過 API 提供其模型。如果你所構建的 AI 應用超出聊天視窗的範疇,你就正在使用 API。

注意力
注意力機制、自注意力
模型

Transformers 中的核心機制,讓模型能夠權衡輸入中哪些部分彼此之間最相關。與較早期的模型從左到右閱讀文字不同,注意力機制讓每個詞彙可以同時「檢視」其他所有詞彙,以理解上下文。

為什麼重要:

注意力機制正是現代大型語言模型(LLM)之所以能理解「bank」在「river bank」與「bank account」中意義不同的原因。這也是為什麼更長的上下文視窗成本更高—注意力機制的計算量會隨著序列長度呈二次方增長。

Autoregressive
自回歸模型、下一詞元預測
基礎
一種逐一生成輸出詞元的模型,其中每個新詞元都是基於之前所有詞元來預測的。每個現代 LLM — Claude、GPT、Llama、Gemini — 都是自回歸的。
為什麼重要: 理解自回歸生成能解釋大多數 LLM 的行為:為什麼回應是逐詞元串流的、為什麼模型有時會自相矛盾、為什麼更長的輸出更慢,以及為什麼你無法要求模型「回頭修改開頭」。
Artificial Intelligence
AI、機器智慧
基礎
建造能夠執行通常需要人類智慧的任務的機器的廣泛領域——理解語言、辨識影像、做出決策、解決問題。AI 的範圍從擅長特定任務的狹義系統(垃圾郵件過濾器、西洋棋引擎)到能處理人類所能完成的任何智力任務的通用智慧這一遠大目標。
為什麼重要: AI 是這部維基中所有其他概念的上位概念——機器學習、深度學習、大型語言模型、電腦視覺、機器人技術。理解「AI」是一個從簡單的基於規則系統到前沿語言模型的光譜,有助於你評估各種說法、識別炒作,並了解當今的系統實際上是什麼:能力超群的模式匹配器,而非思考機器。
Activation Function
ReLU、GELU、SiLU、Swish
基礎
應用於神經元輸出的數學函數,為網路引入非線性。沒有啟動函數,神經網路——無論多少層——都只能學習線性關係。ReLU、GELU 和 SiLU/Swish 是現代架構中最常見的啟動函數。
為什麼重要: 啟動函數是深度學習能夠運作的原因。一疊線性變換只是一個大的線性變換。層與層之間的啟動函數讓網路能夠學習複雜的非線性模式——曲線、邊緣和使神經網路強大的微妙關係。
AI Ethics
負責任 AI、倫理 AI
安全
研究 AI 開發和部署所引發的道德問題:AI 系統延續了什麼偏見?AI 出錯時誰受害?AI 的決策應如何解釋?當自主系統造成損害時誰負責?AI 倫理涵蓋公平性、透明度、問責制、隱私和 AI 系統的社會影響。
為什麼重要: AI 系統為數十億人做出影響招聘、貸款、刑事司法、醫療保健和內容審核的決策。這些決策編碼了價值觀——包含了誰的資料、優化了什麼結果、諮詢了誰。AI 倫理不是抽象的哲學練習;它是 AI 系統是讓世界更公平還是更不公平的實際問題。
AI Regulation
EU AI Act、AI 政策
安全
管理 AI 系統開發和部署的法律和政策。歐盟 AI 法案(2024 年)是最全面的,按風險等級分類 AI 系統並據此施加要求。美國採取更具部門特定性的方法,透過行政命令和機構指引。中國則有針對生成式 AI、深偽技術和推薦演算法的監管規定。
為什麼重要: 監管塑造了 AI 公司能建造什麼、必須如何建造,以及必須揭露什麼。歐盟 AI 法案影響任何服務歐洲使用者的公司。理解監管格局對於任何建造或部署 AI 的人來說越來越必要——不合規可能意味著罰款、禁令或責任。
Apple 的裝置端和雲端 AI 系統,整合於 iPhone、iPad 和 Mac。Apple Intelligence 在 Apple 晶片上本地運行較小的模型以處理隱私敏感任務(文字改寫、摘要、影像生成),並將複雜請求路由到 Apple 的 Private Cloud Compute 伺服器。對於超出自身能力的任務,它還整合外部模型(如 ChatGPT),但需使用者同意。
為什麼重要: Apple Intelligence 代表了全球最有價值公司的消費者 AI 策略,觸及超過十億台裝置。其對隱私的強調(裝置端處理、具有可驗證安全性的 Private Cloud Compute)提供了與 OpenAI 和 Google 雲端優先方法不同的模式。如果 Apple 做好了 AI,它將為數十億非技術使用者普及裝置端 AI。
公司
一家以色列 AI 公司,以 Jamba 聞名——第一個結合 Transformer 注意力層與 Mamba SSM 層的生產級混合架構。AI21 由 AI 研究者(包括 Yoav Shoham)創立,自 2017 年以來一直在建造語言模型,早於 ChatGPT。其模型透過 API 和雲端供應商提供。
為什麼重要: AI21 Labs 之所以重要,是因為 Jamba 證明了混合 Transformer-SSM 架構在實踐中可行,而不僅僅存在於研究論文中。透過交錯注意力和 Mamba 層,Jamba 以比同等品質的純 Transformer 模型更低的記憶體使用量實現了 256K 上下文視窗。這種混合方法可能是 LLM 架構的未來。
A period of reduced funding, interest, and progress in AI research following a cycle of hype and unmet expectations. There have been two major AI winters: the first from the mid-1970s to early 1980s (after expert systems failed to scale), and the second from the late 1980s to mid-1990s (after neural networks hit computational limits). Each was preceded by wild optimism and followed by disillusionment.
Why it matters: Understanding AI winters provides essential context for evaluating today's AI claims. The pattern — breakthrough, hype, overpromise, underdeliver, funding collapse — has repeated twice. Whether the current deep learning boom will follow the same pattern or break it is the most important question in AI. The best defense against another winter is honest assessment of what current systems can and can't do.
Autonomous Agent
AI Agent, Agentic AI
An AI system that can independently plan, decide, and execute multi-step tasks with minimal human supervision. Given a high-level goal ("research competitors and write a report"), an autonomous agent breaks it into steps, uses tools (web search, code execution, file management), handles errors, and delivers a result. The level of autonomy ranges from "ask permission at each step" to "just do it and report back."
Why it matters: Autonomous agents are the next evolution beyond chatbots and copilots. A chatbot answers questions. A copilot assists with tasks. An agent completes tasks independently. The economic potential is enormous — agents that can handle routine knowledge work (research, data analysis, customer service, code review) at a fraction of the cost and time. But reliability and safety challenges remain significant.
Adam Optimizer
Adam, AdamW
The most widely used optimization algorithm for training neural networks. Adam (Adaptive Moment Estimation) combines momentum (using a running average of past gradients) with adaptive learning rates (scaling updates by the inverse of past gradient magnitudes). AdamW adds decoupled weight decay for better regularization. Nearly every modern LLM is trained with AdamW.
Why it matters: Adam works well across a wide range of tasks and hyperparameters, making it the default optimizer. Understanding it explains why training "just works" most of the time (Adam adapts per-parameter) and why it sometimes doesn't (Adam's memory requirements are 2x the model's parameters, which matters for large models). It's also the answer to "which optimizer should I use?" in 90% of cases.
AI Observability
LLM Monitoring, AI Tracing, LLMOps
Monitoring and understanding the behavior of AI systems in production — tracking inputs, outputs, latency, costs, errors, and quality metrics in real-time. AI observability is like application monitoring (Datadog, New Relic) but specialized for AI: tracing prompt-response pairs, detecting quality degradation, monitoring for hallucinations, and alerting on anomalous behavior.
Why it matters: Deploying an AI system without observability is like flying blind. You don't know if the model is hallucinating more than usual, if latency is creeping up, if a specific type of query is failing, or if costs are spiking. AI observability turns "it seems to work" into "we know it works, and we know when it doesn't." It's the difference between a demo and a production system.
AWS Bedrock
Amazon Bedrock
Amazon Web Services' managed platform for accessing and deploying foundation models from multiple providers (Anthropic, Meta, Mistral, Cohere, Stability AI, Amazon's own Titan models) through a unified API. Bedrock handles model hosting, scaling, and fine-tuning, letting enterprises use AI without managing GPU infrastructure. It also provides guardrails, knowledge bases (RAG), and agent capabilities.
Why it matters: AWS Bedrock is how most Fortune 500 companies access AI models. Its multi-model approach lets enterprises compare and switch between providers (Claude, Llama, Mistral) through a single API, avoiding vendor lock-in. For companies already on AWS (which is most large companies), Bedrock is the path of least resistance for AI adoption — same account, same billing, same compliance frameworks.
A/B Testing for AI
Online Evaluation, Split Testing
Comparing two AI system variants (different models, prompts, or configurations) by randomly assigning real users to each variant and measuring which performs better on metrics that matter. Unlike offline evaluation (benchmarks, test sets), A/B testing reveals how changes affect actual user behavior — engagement, satisfaction, task completion, and revenue.
Why it matters: Offline metrics don't always predict real-world performance. A model that scores higher on benchmarks might produce responses users like less. A prompt change that improves quality might increase latency to the point where users abandon. A/B testing is the only way to know if a change actually improves the user experience. It's how every major AI product makes deployment decisions.
Attention Visualization
Attention Maps, Attention Heatmap
Visualizing what a Transformer model "attends to" by displaying the attention weights as heatmaps. For each query token, the attention map shows how much weight it assigns to every other token. High weights (bright spots) indicate strong attention — the model considers those tokens highly relevant to the current computation.
Why it matters: Attention visualization is the most intuitive way to peek inside a Transformer and understand its reasoning. When a model translates "le chat noir" to "the black cat," attention maps show that "black" attends strongly to "noir" and "cat" to "chat." This helps debug model behavior, understand failures, and build intuition about how attention works.
AlexNet
AlexNet
模型

在 2012 年 ImageNet 競賽中以巨大優勢獲勝的卷積神經網路,引發了深度學習革命。由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 創建,將圖像分類錯誤率從 26% 降低到 16%。

為什麼重要:

AlexNet 是 AI 歷史上的「前後」分水嶺時刻。每個現代 AI 系統都可以追溯到 AlexNet 引發的範式轉移。

B
Bria
授權訓練資料、企業級圖像生成
公司
以色列的人工智慧公司,僅使用獲得授權且標明來源的訓練數據來建立其影像生成模型,定位為企業在需要AI生成視覺內容時的首選方案——無版權風險。
為什麼重要: Bria 是最顯著的測試案例,用以驗證是否能在完全授權的訓練數據上建立 AI 圖像生成技術,同時在商業上具競爭力。在面臨版權訴訟雪崩的產業中,他們的方法為企業提供了一條採用生成式 AI 的途徑,而無需承擔法律風險——這個價值主張隨著針對競爭對手的每一項新訴訟而變得更具說服力。如果 Bria 成功,將驗證整個負責任的人工智慧開發哲學;如果它遇到困難,則暗示市場最終並不在乎數據來源,也不願為此支付高價。
字節跳動
豆包、TikTok、AI 驅動的推薦系統
公司
母公司為TikTok,也是全球最有價值的科技公司之一。其AI實驗室開發了Doubao模型家族,並驅動每日服務超過十億用戶的推薦演算法。
為什麼重要:

字節跳動是全球最有價值的私營科技公司,以規模部署AI技術,少有組織能與之比擬,透過TikTok、抖音以及不斷擴展的AI驅動產品組合,每日服務超過十億用戶。他們的Doubao模型家族與火山引擎雲平台,使他們在基礎模型競賽中成為一股不可小觑的力量,背後擁有大多數AI新創公司只能夢寐以求的資源:龐大且盈利的核心業務,以及內建的十億用戶分發渠道。

Black Forest Labs
FLUX.1 系列模型
公司
由 Stable Diffusion 的原始創作者在離開 Stability AI 後創立。他們的 FLUX 模型迅速成為開源圖像生成的新標準,超越了他們離開時所留下的模型的品質。
為什麼重要:

Black Forest Labs 代表了開源 AI 的最佳案例:Stable Diffusion 的原始開發者以更先進的技術、更聰明的商業策略,以及創意社群的信任重新出發。FLUX.1 不僅僅是在 Stable Diffusion 上進行迭代 — 它直接跳過了舊有技術,而他們率先提出的分層授權模式,正逐漸成為 AI 公司在開放性與營收之間取得平衡的藍圖。

訓練

用來評估和比較AI模型的標準化測試。基準測試會衡量特定能力—推理(ARC)、數學(GSM8K)、程式設計(HumanEval)、一般知識(MMLU)—並產生可跨模型比較的分數。

為什麼重要: 基準測試是產業界評分的方式,但它們並不完美。模型可以被訓練來在基準測試中取得高分,但這並不表示它們真的更好。實際應用中的表現往往講述著不同的故事。應將其視為信號,而非真理。
安全
AI輸出中系統性模式—反映或放大訓練數據中存在的社會偏見。偏見可能出現在文本生成、圖像生成、招聘工具,以及模型做出影響人們不同的決定的任何地方。
為什麼重要: 如果訓練資料中提到護士是女性、工程師是男性,模型將會延續這種觀念。偏見並不總是顯而易見——它藏在詞語關聯、預設假設以及哪些人被代表之中。
BERT
Bidirectional Encoder Representations from Transformers
模型
Google 於 2018 年推出的基於 Transformer 的模型,透過引入雙向預訓練徹底改變了自然語言處理——每個 token 都能關注其他所有 token,使模型具有深層的上下文理解能力。BERT 是一個僅編碼器模型:它擅長理解文本(分類、搜索、命名實體辨識),但不能像 GPT 或 Claude 那樣生成文本。
為什麼重要: BERT 是現代時期最具影響力的 NLP 論文。它證明了在未標註文本上預訓練然後在特定任務上微調可以碾壓每一個現有基準。即使大型語言模型搶走了焦點,BERT 類型的模型仍然驅動著大多數生產環境中的搜索引擎、嵌入系統和分類流程,因為對於非生成式任務來說,它們更小、更快、更便宜。
Batch Size & Epoch
小批量、訓練輪次
訓練
批量大小是模型在更新參數之前處理多少個訓練樣本。一個輪次(epoch)是對整個訓練資料集的一次完整遍歷。一個在 100 萬個樣本上以批量大小 1,000 訓練 3 個輪次的模型,每次更新處理 1,000 個樣本,每個輪次需要 1,000 次更新,總共 3,000 次更新。
為什麼重要: 批量大小和輪次是訓練中最基本的控制項。批量大小影響訓練速度、記憶體使用,甚至影響模型學到什麼(小批量增加有助於泛化的雜訊;大批量收斂更快但泛化能力可能更差)。輪次數決定模型看到每個樣本的次數——太少會欠擬合,太多會過擬合。
BPE
位元組對編碼、子詞分詞
基礎

建構分詞器詞彙表最常用的演算法。BPE 從單個位元組或字元開始,反覆合併最頻繁的相鄰對成為新的 token。經過數千次合併後,常見的單詞會變成單一 token(如「the」、「function」),而罕見的單詞會被分割成子詞片段(如「un」+「common」)。GPT、Claude、Llama 及大多數現代 LLM 都使用 BPE。

為什麼重要:

BPE 正是你的分詞器以特定方式運作的原因。它解釋了為什麼常見單詞很「便宜」(一個 token)、為什麼罕見單詞很「昂貴」(多個 token),以及為什麼非英語文本成本更高。

反向傳播
Backprop、反向傳遞
基礎

計算神經網路中每個參數對誤差的貢獻程度的演算法,使梯度下降能有效地更新參數。反向傳播透過網路反向應用微積分的鏈式法則來傳播梯度。

為什麼重要:

反向傳播是使神經網路訓練成為可能的演算法。你使用的每個模型 — 從小型分類器到 400B 的 LLM — 都是使用反向傳播訓練的。

C
電腦視覺
CV、機器視覺
基礎

人工智慧領域專注於讓機器能夠解釋和理解來自世界的視覺資訊——圖片、視頻、3D場景和文件。

電腦視覺推動了從人臉辨識與自動駕駛到醫療影像與AI影像生成等各項應用。

核心任務包括物件偵測、影像分類、分割、OCR與姿勢估計。

為什麼重要: 電腦視覺是深度學習首次明確超越人類表現的領域(ImageNet 2012),至今仍是影響力最大的AI應用之一。每一個你生成的AI圖像或影片、每一份你進行光學字元辨識的文件、每一台具備智慧偵測功能的監視攝影機——全都屬於電腦視覺的應用範疇。
內容審核
AI 審核、信任與安全
安全

運用AI來大規模偵測與過濾有害、非法或違規的內容。這包括文字分類(恨意言論、垃圾訊息、威脅),影像分析(NSFW檢測、CSAM),以及影片審查。現代系統會結合AI分類器與人工審查,但AI本身所產生的內容數量正造成審查危機—如今你必須用AI來審查AI。

為什麼重要:

每個擁有使用者產生內容的平台都需要內容管理,而AI是應對規模的唯一方法。但內容管理比看起來更困難——語境至關重要,文化規範也各不相同,誤判的假陽性會壓制合法言論,而假陰性則讓傷害得以通過。

Cartesia
Sonic、基於 SSM 的語音模型
公司
基於狀態空間模型(SSM)架構,而非 Transformer 架構的語音 AI 起點公司。他們的 Sonic 模型實現了超低延遲的語音生成,讓即時對話式 AI 首次感覺真正自然。
為什麼重要: Cartesia 的重要性在於他們證明了狀態空間模型不僅僅是研究上的奇思妙想,而是用於即時語音 AI 的商業可行架構。他們低於 100 毫秒的延遲首次讓真正自然的對話式 AI 成為可能,縮小了 “與機器人對話” 和 “與真人對話” 之間的差距。當產業逐漸轉向以語音為先的 AI 代理時,Cartesia 在串流速度上的架構優勢,可能讓他們成為其他人都會在其上建立的基礎層。
Cohere
Command、Embed、Rerank 模型
公司
以企業應用為導向的人工智慧公司,由Aidan Gomez共同創立,他是原始《Attention Is All You Need》Transformer論文的共同作者之一。專注於針對企業應用場景優化的模型、RAG技術以及多語言支援。
為什麼重要:

Cohere代表了在由千兆美元規模的超大雲端服務商與面向消費端的前沿實驗室主導的時代,專注於企業優先的AI公司是否能獨立蓬勃發展的最清晰測試案例。他們源自Transformer論文的技術血統賦予了他們真正的技術可信度,其部署彈性解決了受監管產業的真實痛點,而他們的embedding與rerank模型已成為全球生產級RAG系統的首選工具。如果AI的未來不再聚焦於聊天機器人,而是更多地融入每一個商業流程的基礎設施,Cohere將處於極其重要的地位。

使用AI
一種提示技術,要求模型在給出最終答案前逐步展示其推理過程。模型不會直接下結論,而是—公開其思考過程—這大幅提升了在複雜任務中的準確性。
為什麼重要:

要求「解釋你的推理過程」不只是為了透明度—事實上,這會讓模型變得更聰明。早期研究顯示,CoT可將數學錯誤減少高達50%。目前大多數現代模型都會在內部進行此操作。

上下文視窗
上下文長度
使用AI
模型在單次對話中可處理的最大文字量(以 token 為單位)。這包括您的輸入和模型的輸出內容。如果某模型具有 200K 的上下文視窗,這大約相當於 15 萬字 — 約等同於兩本小說的篇幅。
為什麼重要:

上下文視窗大小決定了你可以做什麼。總結整個程式碼庫?需要大規模的上下文。快速提問回答?小規模就夠了。但規模更大不一定更好—模型在非常長的上下文中可能會失去焦點。

語料庫
資料集、訓練資料
訓練
用來訓練模型的文本資料(或其他數據)。語料庫的範圍可以從精選的書籍和論文集合,到對整個互聯網的大規模抓取。語料庫的品質與組成根本影響模型所掌握的知識以及其行為方式。
為什麼重要:

垃圾進來,垃圾出去。在Reddit上訓練的模型與在科學論文上訓練的模型對話方式會有所不同。這就是我們為Sarah精心整理自己的語料庫的原因—通用的網頁爬蟲產生了混亂且不連貫的結果。

Chatbot
聊天機器人、AI 助手
使用AI
用於對話式 AI 互動的軟體介面。現代聊天機器人(Claude、ChatGPT、Gemini)由 LLM 驅動,能處理開放式對話、程式碼、圖片和工具。
為什麼重要: 大多數人與 AI 互動的主要方式。聊天機器人是建立在模型之上的產品,而不是模型本身。
公司
AI 原生程式碼編輯器(VS Code 分支)。深度 LLM 整合:行內生成、多檔案編輯、程式碼庫感知的上下文。
為什麼重要: 賭注是 AI 將從根本上改變程式碼的撰寫方式。快速被採用,帶來可衡量的生產力提升。
Classification
分類器、分類法
基礎
將輸入分配到預定義類別之一的任務。「這封電子郵件是垃圾郵件嗎?」(二元分類)。「這張影像是貓、狗還是鳥?」(多類別分類)。「這些標籤中哪些適用於這篇文章?」(多標籤分類)。分類是最常見的監督式學習任務,也是無數實際 AI 應用的基礎。
為什麼重要: 分類是大多數人在實務中首次接觸機器學習的場景——垃圾郵件過濾、內容審核、醫療診斷、詐欺偵測、情感分析。理解分類有助於理解整個監督式學習流程:標註資料輸入、訓練模型、輸出預測。
CNN
卷積神經網路、ConvNet
模型
一種設計用於處理網格狀資料(影像、音訊頻譜圖)的神經網路架構,透過在輸入上滑動小型濾波器(核)來偵測邊緣、紋理和形狀等局部模式。CNN 從 2012 年(AlexNet)到 2020 年左右 Vision Transformer 出現之前一直主導電腦視覺。它們在生產環境中仍被廣泛使用,尤其是在邊緣裝置上。
為什麼重要: CNN 掀起了深度學習革命。AlexNet 在 2012 年 ImageNet 上的勝利證明,深度神經網路可以大幅超越手工設計的特徵,引發了當前的 AI 熱潮。理解 CNN 有助於理解 Transformer 為何有效(許多相同的概念——分層特徵、參數共享——同樣適用),而且 CNN 對於資源受限裝置上的許多視覺任務仍然是最佳選擇。
安全
Anthropic 開發的一種對齊技術,模型被訓練為遵循一套原則(「憲法」),而不是僅依賴人類回饋來做每個決策。模型根據這些原則批評和修改自己的輸出,然後在修改後的輸出上進行訓練。這減少了對人類標註者的需求,並使對齊標準變得明確和可審計。
為什麼重要: 憲法式 AI 解決了 RLHF 的兩個問題:它昂貴(每個訓練範例都需要人類標註者)且不透明(標準隱含在標註者的判斷中)。透過使原則明確化,CAI 使對齊更加透明、可擴展和一致。這是 Claude 訓練方式的核心部分。
訓練
當神經網路在新任務上訓練時,失去了執行先前學習任務的能力。在客服資料上微調模型可能使其在客服方面表現出色,但在編碼方面變得糟糕。新的學習覆蓋了編碼舊能力的權重,「遺忘」了它們。
為什麼重要: 災難性遺忘是微調和持續學習的核心挑戰。這就是為什麼你不能一直在一個任務接一個任務上微調模型並期望它什麼都做得好。這也是為什麼像 LoRA(只修改一小部分參數)和仔細的學習率選擇等技術對保留基礎模型能力至關重要。
Contamination
資料污染、基準洩漏
基礎
當基準測試資料出現在模型的訓練資料中,使其分數被膨脹而不反映真正的能力。如果模型在訓練期間看到了測試題目而「事先複習了答案」,其基準效能就毫無意義。隨著訓練資料集越來越大並抓取更多的網際網路內容(基準資料通常在網上公布),污染正成為日益嚴重的問題。
為什麼重要: 污染破壞了 AI 產業用來比較模型的整個基準系統。一個因為記住答案而在 MMLU 上得 90% 的模型,並不比一個從未見過答案而得 80% 的模型更聰明。隨著更多基準洩漏到訓練資料中,社群被迫不斷建立新基準,而私有的保留評估變得比公開排行榜更重要。
Chatbot Arena
LMSYS Arena、ELO 排名
基礎
一個由 LMSYS 開發的群眾外包平台,使用者與兩個匿名 AI 模型並排聊天,並投票選出哪個回應更好。結果用於計算 ELO 評分——與西洋棋使用的相同排名系統——建立一個基於真實人類偏好而非自動化基準的持續更新模型品質排行榜。
為什麼重要: Chatbot Arena 可以說是目前最受信任的模型比較,因為它抵抗污染(問題是新穎的)、反映真實使用者偏好(而非合成基準),並讓模型直接對決(相對比較比絕對分數更可靠)。當人們說「Claude 在程式設計上比 GPT 好」或反之,Arena 排名通常就是證據。
Cerebras
Cerebras Systems、WSE
公司
一家建造晶圓級 AI 處理器的晶片公司——晶片大小相當於整片矽晶圓,比標準 GPU 大 100 倍以上。Cerebras WSE-3(Wafer Scale Engine)包含 4 兆個電晶體和 900,000 個核心。其 CS-3 系統設計用於訓練和推理,提供數千個獨立 GPU 叢集的替代方案。
為什麼重要: Cerebras 代表了對 AI 硬體最激進的重新思考。不是將數千個小型晶片以有限的頻寬連接,而是將一切放在一個巨大的晶片上,具有巨大的晶片內記憶體頻寬。潛在優勢在於消除限制多 GPU 訓練的通訊瓶頸。晶圓級計算能否與 NVIDIA 龐大的生態系統競爭,是一個十億美元的問題。
Cross-Attention
Encoder-Decoder Attention
An attention mechanism where the queries come from one sequence and the keys/values come from a different sequence. In encoder-decoder models, the decoder's queries attend to the encoder's keys and values, allowing the decoder to "look at" the input while generating the output. Cross-attention is also how text conditions image generation in diffusion models — the image generation process attends to the text prompt.
Why it matters: Cross-attention is the bridge between different modalities and different parts of an architecture. It's how translation models connect source and target languages, how image generators follow text prompts, how multimodal models relate images to text, and how Retrieval-Augmented systems incorporate retrieved documents. Any time two different inputs need to interact, cross-attention is usually involved.
Context Length Extension
YaRN, NTK Scaling, RoPE Scaling
Techniques that enable language models to handle sequences longer than those seen during training. A model trained on 4K tokens can be extended to 32K or 128K through modifications to its positional encoding (typically RoPE) combined with short fine-tuning on longer sequences. This avoids the enormous cost of training from scratch on long sequences.
Why it matters: Context length extension is why models have gone from 4K to 128K to 1M+ context windows in just two years. The cost of training a model from scratch on million-token sequences would be prohibitive. Extension techniques make long-context models practical by adapting models that were trained on shorter sequences, requiring only a fraction of the original training compute.
Convolution
Conv, Convolutional Layer, Kernel, Filter
A mathematical operation that slides a small filter (kernel) across an input to detect local patterns. In images, a 3×3 kernel slides across every position, computing a dot product with the underlying pixels to produce a feature map. Different kernels detect different patterns: horizontal edges, vertical edges, textures, and eventually complex features like eyes or wheels in deeper layers.
Why it matters: Convolution is the operation that made computer vision work. It encodes two powerful assumptions: locality (nearby pixels are related) and translation equivariance (a pattern is the same regardless of where it appears). These assumptions dramatically reduce the number of parameters compared to fully connected layers, making it feasible to process high-resolution images. Even in the Transformer era, convolutions are used in many hybrid architectures.
A platform for creating and chatting with AI characters — fictional personalities, historical figures, and custom personas that maintain consistent personality, knowledge, and speech patterns across conversations. Founded by former Google Brain researchers, Character.AI was one of the first AI products to achieve massive consumer adoption, with millions of daily users, primarily younger demographics.
Why it matters: Character.AI proved that social/entertainment AI could drive massive engagement — users spend more time on Character.AI than on many social media platforms. It pioneered the "AI companion" category and demonstrated that personality consistency, emotional engagement, and role-play capability are as commercially important as factual accuracy. Google invested $2.7B in the company in 2024.
Cross-Validation
K-Fold CV, Leave-One-Out
A technique for evaluating model performance when you don't have enough data for a separate test set. K-fold cross-validation splits data into K equal parts, trains on K−1 parts and evaluates on the remaining part, rotating K times so every data point is used for both training and evaluation. The average score across all K folds gives a more reliable performance estimate than a single train/test split.
Why it matters: Cross-validation is essential when data is scarce — if you only have 500 examples, setting aside 100 for testing means training on 20% less data. Cross-validation uses all data for both training and evaluation. It also gives you a confidence interval (variance across folds) rather than a single number, telling you how stable your model's performance is.
A specialized cloud provider built entirely around GPU computing for AI workloads. CoreWeave operates large clusters of NVIDIA GPUs (H100, H200) and has secured billions in funding and debt financing to build GPU data centers. Major AI companies (including Microsoft and several AI labs) use CoreWeave for training and inference at scale.
Why it matters: CoreWeave is one of the fastest-growing infrastructure companies in AI, betting that specialized GPU cloud providers can outcompete general-purpose hyperscalers for AI workloads. Their focus allows more efficient GPU utilization, purpose-built networking (InfiniBand for training clusters), and pricing that undercuts AWS/GCP by 30–50% for GPU-intensive work.
餘弦相似度
餘弦距離、向量相似度
基礎

一種基於兩個向量之間夾角的相似度度量,忽略它們的大小。餘弦相似度為 1 表示兩個向量指向同一方向(意義相同),0 表示垂直(不相關),-1 表示方向相反。它是在語意搜尋、RAG 和推薦系統中比較文本嵌入的標準相似度指標。

為什麼重要:

每次你進行語意搜尋、使用 RAG 或比較嵌入時,餘弦相似度(很可能)就是決定什麼是「相似」的指標。理解它有助於你除錯檢索品質。

CLIP
對比語言-圖像預訓練
模型

OpenAI(2021 年)的一個模型,透過在 4 億個圖像-文字描述對上訓練來學習連接圖像和文本。CLIP 將圖像和文本編碼到同一個嵌入空間中,其中匹配的圖像-文本對距離近,不匹配的對距離遠。它是大多數現代多模態 AI 系統中連接語言與視覺的橋樑。

為什麼重要:

CLIP 是文本到圖像生成(Stable Diffusion、DALL-E)、圖像搜尋、零樣本圖像分類和多模態理解的骨幹。

ControlNet
控制網路
模型

一種為圖像生成模型增加空間控制的架構。ControlNet 讓你提供邊緣圖、深度圖、姿態骨架或分割圖來引導構圖。生成的圖像會遵循控制輸入的空間結構,同時根據文字提示填充細節。

為什麼重要:

ControlNet 使 AI 圖像生成能被專業工作流程使用,指定所需的確切姿態、佈局或結構。

對比學習
SimCLR、InfoNCE
訓練

一種自監督學習方法,透過對比正對(相似項目)和負對(不相似項目)來訓練模型。模型學習到嵌入空間中的相似性反映真實世界相似性的表示。

為什麼重要:

對比學習是大多數嵌入模型的訓練方式 — 驅動著語意搜尋、RAG 和推薦系統。也是 CLIP 背後的訓練方法。

檢查點
模型檢查點、快照
訓練

在訓練過程中儲存的模型狀態快照 — 權重、最佳化器狀態、學習率排程和訓練步數。檢查點讓你能在中斷後恢復訓練、評估中間版本,以及回退到較早的版本。

為什麼重要:

訓練大型模型需要數天到數月。沒有檢查點,硬體故障就意味著從頭開始。檢查點也能實現模型選擇。

D
基礎
深度學習是機器學習的一個子領域,它使用具有許多層(因此稱為「深度」)的神經網絡來學習數據的層次化表示。每一層都會將其輸入轉換為稍微更抽象的東西——從像素到邊緣,再到形狀、物件與概念。深度學習正是使現代 AI 革命成為可能的關鍵:它正是大型語言模型(LLMs)、影像生成器、語音辨識,以及自 2012 年以來幾乎所有 AI 突破性進展背後的技術方法。
為什麼重要: 深度學習是當前AI時代的引擎。在2012年之前,AI是由各種專門算法零散組合而成的。深度學習將所有內容統一於同一個架構下:堆疊足夠的層數、輸入足夠的數據、投入足夠的計算資源,模型便會自行處理其餘部分。理解深度學習,就是理解為何AI突然間開始有效運作。
開發者工具
AI SDK、AI 框架
工具
由程式庫、框架和平台組成的生態系統,讓開發 AI 驅動的應用程式變得更加容易。這包括協調框架(LangChain、LlamaIndex)、推論伺服器(vLLM、llama.cpp)、微調工具(Axolotl、Unsloth)、評估框架(LMSYS、Braintrust)以及全功能平台(Vercel AI SDK、Hugging Face)。工具生態每月都有變化—
為什麼重要: 原生模型 API 是必要的,但不夠。開發者工具在「我有 API 金鑰」與「我有生產應用程式」之間架起橋樑。正確的工具可將開發時間從數月縮短至數天,而錯誤的工具則會增加複雜度卻沒有帶來任何價值。
深度偽造
合成媒體、AI 生成的偽造內容
安全
AI生成的圖像、影片或音頻,旨在逼真地描繪真實人物說或做他們從未做過的事情。原本基於GAN技術,現代的深度偽造技術現在使用擴散模型和聲音克隆,產生越來越難與現實區分的輸出。檢測工具雖然存在,但始終落後於生成技術的進步。
為什麼重要: 深度偽造(Deepfakes)是生成式AI創造力的陰暗面——已被用於詐騙、非自願的私密影像、政治操縱與身份盜用。目前這項技術已足夠普及,只要擁有筆電的任何人都能製作出令人信服的偽造內容,這使得偵測、水印技術與法律架構成為亟需處理的重點。
資料中心
AI 資料中心、GPU 叢集
基礎設施

用以容納伺服器、GPU、網路設備與冷卻系統等硬體設施,這些設施用於訓練與運行人工智慧模型。現代人工智慧資料中心專為大規模平行運算而設計,耗電量可達兆瓦級,且需要專業冷卻系統。單一前沿模型的訓練作業可能需要整個設施中數千個GPU運行數個月。

為什麼重要:

數據中心是AI時代的工廠。每次對Claude的查詢、Midjourney產生的圖片、Runway產生的影片,都依賴這些建築物內的硬體設備運行。全球AI就緒數據中心容量的短缺,是AI成長最大的限制之一—也是最大的投資機會之一。

DeepL
神經機器翻譯、DeepL Pro
公司
這家德國AI公司被廣泛視為全球最優秀的機器翻譯服務提供商—由一群計算語言學家打造,他們的表現始終超越Google Translate及其他大型科技公司的產品,尤其是在歐洲語言方面。
為什麼重要:

DeepL 是專注於 AI 的公司能夠在核心能力上持續超越數兆美元競爭對手的最佳證明。在這個通常規模越大越好的領域,DeepL 對 Google 和 Microsoft 的翻譯品質優勢仍然可衡量且具意義,尤其是在歐洲語言和專業應用場景中。他們的成功挑戰了通用型 AI 模型最終會使專業任務商品化的假設 — 對於數以十萬計依賴精準跨語言溝通的企業而言,這種專業化是值得付費的。

Decart AI
即時世界模擬、遊戲生成
公司
以色列AI公司突破即時AI生成的界限。其技術能夠即時生成互動式遊戲般的環境,模糊傳統渲染與AI生成之間的界限。
為什麼重要:

Decart AI 展示了大多數人認為還需數年才能實現的技術:一個神經網絡即時生成可玩、互動的三維世界,而無需傳統遊戲引擎的參與。他們的 Oasis 演示是原生 AI 世界模擬的一個概念驗證,這項技術的影響遠超遊戲領域——從自動駕駛到機器人技術,再到空間計算。如果即時世界模型能達到生產級的實際應用,Decart 最早關於推論優化與互動生成的研究將成為基礎。

DeepSeek
DeepSeek-V3、DeepSeek-R1
公司

中國AI實驗室於2025年初以DeepSeek-R1震撼業界,該推理模型僅需極低的訓練成本即可匹敵前沿實驗室。由量化對沖基金High-Flyer資助。

為什麼重要: DeepSeek打破了尖端AI必須搭配高額預算的假設。他們以效率為先的作法—僅需極少的訓練成本便能達到GPT-4級與o1級的表現—迫使整個產業重新思考「規模即萬能」的敘事,並重新聚焦於架構創新。R1在MIT授權下開放權重的釋出,以一種西方實驗室從未做到的方式民主化了推理模型的存取。從地緣政治角度看,DeepSeek證明了單靠出口管制無法限制AI能力,這個發現對科技政策、投資與全球AI權力平衡具有深遠影響。
Deepgram
Nova 語音轉文字、Aura 文字轉語音
公司
語音 AI 公司,專注於開發快速且準確的語音辨識與文字轉語音 API。他們的 Nova 模型在準確度上與 OpenAI 的 Whisper 競爭,甚至經常超越它,同時在即時應用中運行速度顯著更快。
為什麼重要: Deepgram 證明了一家新創公司可以從頭開始建立語音辨識,使用端到端深度學習技術,並在準確度方面與 Google、Amazon 和 Microsoft 正面競爭,同時在速度上超越他們。他們以開發者為先的 API 方式,將現代基礎設施模式引入語音 AI,讓將語音轉文字功能加入應用程式變得像使用 Stripe 加入付款功能一樣簡單。隨著對話式 AI 代理程式逐漸普及,Deepgram 正定位自己為關鍵的語音基礎設施層——讓以語音為先的 AI 在實際生產環境中真正運作的基礎建設。
模型

一種生成模型,透過從純噪音開始,逐步去除噪音,直到產生連貫的輸出(如圖片、影片或音訊)。該模型學習反轉將噪音添加到真實數據的過程。Stable Diffusion、DALL-E 3 和 Midjourney 都採用此方法的變體。

為什麼重要: 擴散模型在2022年左右取代了GANs,成為主導的圖像生成技術。它們能生成更多樣且可控的輸出,並成為今日幾乎所有圖像和視頻AI工具的主軸。
Distillation
蒸餾、知識蒸餾
訓練
訓練一個較小的「學生」模型來模仿一個較大的「教師」模型,方法是從教師的軟機率分布中學習。軟輸出編碼了硬標籤無法傳達的類別間關係。
為什麼重要: 蒸餾讓強大的 AI 變得可及。一次 70B→7B 的蒸餾可以在 10% 的成本下保留 90% 的能力。許多本地運行的模型都是從前沿模型蒸餾而來。
DPO
直接偏好優化
訓練
RLHF 的替代方案,用於模型對齊。DPO 使用偏好/拒絕回應的配對直接優化模型,無需獨立的獎勵模型或強化學習。更簡單、更穩定、更省算力。
為什麼重要: DPO 讓對齊技術民主化了。RLHF 的多階段管線既繁瑣又不穩定;DPO 將其壓縮為一個步驟。許多開放權重模型現在都使用 DPO 的變體。
Dataset
訓練集、資料
基礎
用於訓練、評估或測試機器學習模型的結構化資料集合。資料集可以是標註的(每個範例都有已知的正確答案)或未標註的(沒有註解的原始資料)。資料集的品質、大小、多樣性和代表性從根本上決定了模型能學到什麼。
為什麼重要: 垃圾進,垃圾出。在糟糕的資料集上訓練的最精妙架構也只會產生糟糕的結果。反之,在優質資料上訓練的簡單模型往往能勝過在雜訊上訓練的複雜模型。資料集整理可說是 AI 開發中影響最大但最不受矚目的部分。
Dropout
正則化、權重衰減
訓練
一種正則化技術,在每個訓練步驟中隨機「關閉」一部分神經元,將其輸出設為零。這防止網路過度依賴任何單一神經元,迫使其學習分散的、穩健的表示。在推理時,所有神經元都是活躍的,但會進行相應的縮放。
為什麼重要: Dropout 是對抗過擬合最簡單且最廣泛使用的防禦手段。沒有正則化,大型神經網路會記住訓練資料而不是學習可泛化的模式。Dropout(及其近親權重衰減)是模型能夠遠大於其訓練集卻不會只是記住一切的原因。
一種將擴散模型中傳統使用的 U-Net 骨幹替換為 Transformer 的架構。DiT 將注意力機制應用於影像生成,實現了使 LLM 如此強大的相同擴展行為。Sora、Flux、Stable Diffusion 3 以及大多數最先進的影像和影片生成器都使用 DiT 或其變體。
為什麼重要: DiT 將語言和影像生成的世界統一在單一架構範式之下:Transformer。這意味著為 LLM 開發的擴展定律、訓練技術和優化策略在很大程度上可以轉移到影像和影片生成。這就是為什麼影像品質提升如此迅速——該領域正在乘著與語言相同的擴展曲線。
透過建立現有樣本的修改版本來人工擴展訓練資料集的技術。對於影像:翻轉、旋轉、裁剪、色彩偏移。對於文本:改寫、回譯、同義詞替換。對於音訊:速度變更、雜訊注入。目標是教會模型不變性——無論影像被翻轉、變暗還是裁剪,貓就是貓。
為什麼重要: 當你的資料有限時,資料增強是提升模型效能最便宜的方式。它透過向模型展示每個樣本的多種變體來減少過擬合,教導它專注於本質特徵而非表面細節。在電腦視覺中,增強通常能免費提供 2-5% 的準確率提升。
DALL-E
DALL-E 2, DALL-E 3
OpenAI's image generation model family. DALL-E 1 (2021) used a discrete VAE + Transformer approach. DALL-E 2 (2022) used CLIP + diffusion. DALL-E 3 (2023) is integrated into ChatGPT and emphasizes prompt following — it uses an LLM to rewrite user prompts into detailed image descriptions before generation, significantly improving the match between what you ask for and what you get.
Why it matters: DALL-E was the model that made the public aware of AI image generation. DALL-E 2's launch in 2022 went viral and sparked both excitement and concern about AI-generated imagery. DALL-E 3's integration with ChatGPT made image generation accessible to hundreds of millions of users. Its prompt-rewriting innovation influenced how other models handle text-to-image conversion.
Decoder
Decoder Network, Generator
A neural network component that generates output from a representation. In Transformers, the decoder uses causal (left-to-right) attention to generate tokens one at a time. In image generation, the VAE decoder converts latent representations back into images. In autoencoders, the decoder reconstructs the original input from the compressed bottleneck. Decoders are the "generation" half of many architectures.
Why it matters: Every generative AI system has a decoder at its core. GPT, Claude, and Llama are decoder-only Transformers. Stable Diffusion uses a VAE decoder to produce images. Understanding decoders explains why generation is sequential (each token depends on previous tokens), why output is slower than input processing, and why the autoregressive paradigm dominates text generation.
Databricks
Mosaic ML, DBRX, Unity Catalog
A data and AI platform that provides unified analytics, data engineering, and machine learning capabilities. Databricks acquired Mosaic ML (2023) to add LLM training capabilities and released DBRX, their own open-weight LLM. The platform is built on Apache Spark and provides managed infrastructure for the full ML lifecycle from data preparation to model serving.
Why it matters: Databricks is where enterprise data meets AI. Most companies' AI ambitions start with "we need to make sense of our data," and Databricks is often the platform that handles data engineering, feature engineering, model training, and serving in one place. Their acquisition of Mosaic ML (known for efficient LLM training) signaled that the data platform and AI platform are converging.
Drift Detection
Data Drift, Model Drift, Concept Drift
Monitoring for changes in the data distribution or model behavior over time that could degrade performance. Data drift: the input data changes (customer demographics shift, new product categories appear). Concept drift: the relationship between inputs and correct outputs changes (what constitutes spam evolves). Model drift: the model's predictions gradually become less accurate even though the model itself hasn't changed.
Why it matters: Models are trained on historical data, but the world keeps changing. A fraud detection model trained in 2024 will miss 2025's new fraud patterns. A recommendation system trained on pre-pandemic behavior will make poor suggestions post-pandemic. Drift detection catches these degradations before they become costly — alerting you that the model needs retraining or updating.
E
湧現
湧現能力、湧現行為
基礎
在規模較大的AI模型中出現但未經過明確訓練的能力——一旦模型達到某種規模或訓練門檻,這些能力似乎會突然 'emerge'。一個僅接受預測下一個字訓練的模型,某種程度上學會了進行算術運算、翻譯未教過的語言,甚至撰寫可運作的程式碼。emergence 是 AI 領域最受爭議的現象之一:這是真正的 phase-transition magic,還是測量誤差的產物?
為什麼重要: 「突現」是人工智慧領域中最核心的問題:我們能否預測更大模型將具備哪些能力?如果能力確實在規模擴大時不可預測地突現,那麼每個更大的模型都像是一個驚喜盒子。如果突現只是我們測量方式的產物,那麼規模擴展的預測性將比表面看起來更高。這個答案將影響從安全規劃到投資決策的每一件事。
評估
Evals、模型評估
訓練

用來衡量AI模型表現的方法。這遠遠超出基準測試—它包括人工評估(讓人類評分輸出結果)、A/B測試(在真實流量中比較模型)、紅隊測試(對抗性測試)、特定領域測試(醫療準確性、程式碼正確性),以及社群排行榜(Chatbot Arena、LMSYS)。良好的評估難度甚至高於建立模型本身。

為什麼重要:

若無法衡量,便無法改進。但AI評估獨特地困難,因為任務是開放式的,品質主觀。基準測試常被操縱,人工評估成本高昂,而紙上得分最高的模型,往往在實際應用中並非最佳選擇。建立良好的評估方法是一種超能力。

ElevenLabs
語音合成、語音複製、配音
公司
一家讓超逼真語音合成技術普及化的語音AI公司。其技術支援語音克隆、即時配音與文字轉語音,涵蓋32種語言,模糊人類與AI語音之間的界限。
為什麼重要: ElevenLabs證明了AI生成語音可以跨越恐怖谷,並發出真正的人類聲音,將專業語音製作的成本和時間大幅降低數個數量級。他們的語音克隆與多語言配音工具,使獨立創作者能在不聘請任何配音員的情況下,製作30種以上語言的內容,徹底改變音視頻本地化的經濟模式。他們也迫使整個產業正面應對合成語音技術的倫理問題,推動水印技術、內容來源標準與驗證協議的採用,這些如今正逐漸成為行業常規。
嵌入
向量嵌入
訓練
一種將文字(或圖片、或音頻)表示為數字列表(即向量)的方法,能夠捕捉其含義。在這個數字空間中,相似的概念會彼此靠近——「cat」和「kitten」會靠近,而「cat」和「economics」則相距甚遠。
為什麼重要:

嵌入向量是語義搜索和 RAG 的基礎。它們讓 AI 能夠理解,即使沒有單字重疊,搜尋 “fix login bug” 應該能匹配到關於 “authentication error resolution” 的文件。

基礎設施
一個特定的 URL,用於接收 AI API 的請求。例如,Anthropic 的 message 端點就是用來向 Claude 發送提示的。不同的端點用於不同的功能:文本生成、嵌入、圖像創建、模型清單。
為什麼重要:

在整合AI供應商時,端點就是關鍵所在。每個供應商都有自己獨特的架構方式,這也正是Zubnet等平台存在的原因—為混亂的狀況建立統一標準。

Edge AI
邊緣 AI、裝置端 AI
基礎設施
在終端使用者的裝置上(手機、筆電、汽車)而非雲端上運行 AI。隱私、零延遲、離線可用。
為什麼重要: 隱私 + 延遲 + 成本的交會點。在合適的任務上,手機上的 3B 模型往往勝過資料中心裡的 400B 模型。
Encoder-Decoder
編碼器-解碼器、Seq2Seq
模型
由編碼器(壓縮輸入)和解碼器(生成輸出)組成的架構。T5/BART 是編碼器-解碼器。GPT/Claude 是純解碼器。BERT 是純編碼器。
為什麼重要: 解釋了為什麼不同模型擅長不同任務,以及為什麼純解碼器架構在 LLM 領域勝出。
Existential Risk
X-Risk, AI Doom
The hypothesis that sufficiently advanced AI systems could pose a threat to human existence or permanently curtail humanity's potential. X-risk concerns range from concrete near-term scenarios (AI-enabled bioweapons, autonomous weapons) to speculative long-term scenarios (a superintelligent AI pursuing goals misaligned with human values). The topic is genuinely debated among leading AI researchers.
Why it matters: Existential risk is the most consequential debate in AI. If the risk is real and significant, it should dominate AI policy. If it's overstated, focusing on it diverts attention from concrete harms happening today (bias, job displacement, misinformation). Understanding the actual arguments — not the caricatures — helps you form an informed position on one of the most important questions of our time.
Early Stopping
Patience, Validation-Based Stopping
Stopping training when performance on a held-out validation set stops improving, rather than training for a fixed number of steps. As training continues, training loss keeps decreasing but validation loss eventually starts increasing — the model is overfitting to training data. Early stopping catches this inflection point and saves the best model before quality degrades.
Why it matters: Early stopping is the simplest and most effective regularization technique for fine-tuning. Without it, you risk training too long and destroying the capabilities you wanted to preserve. With it, the model automatically stops at its best point. The "patience" parameter (how many evaluations without improvement before stopping) is one of the most important hyperparameters in fine-tuning.
Encoder
Encoder Network, Feature Extractor
A neural network component that converts input data into a compressed, information-rich representation (encoding). In Transformers, the encoder uses bidirectional attention to process the full input and produce contextual representations. In autoencoders, the encoder compresses input into a latent bottleneck. In image generation, the VAE encoder converts images into latent space. Encoders are the "understanding" half of many architectures.
Why it matters: Encoders are everywhere: BERT is an encoder, CLIP has a text encoder and an image encoder, Stable Diffusion has a VAE encoder, RAG systems use encoder models for embeddings. Understanding what an encoder does — compresses input into a useful representation — helps you understand all of these systems. The quality of the encoding determines the quality of everything downstream.
嵌入層
Token 嵌入、嵌入表、查找表
基礎

一個查找表,將詞彙表中的每個 token 對映到一個密集向量。當模型接收 token ID 42 時,嵌入層返回學習矩陣的第 42 行。這個向量是模型對該 token 的初始表示。

為什麼重要:

嵌入層是文本變成數學的地方。每個 LLM 都從將離散 token 轉換為神經網路可以處理的連續向量開始。

F
訓練
透過在較小且特定的數據集上進一步訓練預訓練模型,使其行為更加專門化。就像讓全科醫生接受外科住院醫師訓練—相同的基礎知識,新的專業技能。
為什麼重要: 微調是讓通用模型能應用於特定任務的方法。經過微調的模型可以學習您公司的語調、領域的術語或特定的輸出格式,而無需從頭開始訓練。
基礎

一個基於廣泛資料訓練的大型模型,作為許多不同任務的基礎。Claude、GPT、Gemini 和 Llama 都是基礎模型。它們之所以被稱為「基礎模型」,是因為可以適應幾乎任何任務——寫作、程式設計、分析、影像理解——而不需要為每個任務進行特定訓練。

為什麼重要: 基礎模型改變了 AI 的經濟學。與為每個任務訓練一個獨立模型不同,您只需訓練一次龐大的模型,然後根據特定需求進行微調或提示。
Few-Shot Learning
少樣本學習、上下文學習
使用AI
在提示詞中提供範例輸入-輸出配對。零樣本 = 無範例,少樣本 = 2–10 個。模型無需訓練即可學會模式。
為什麼重要: 自訂行為最快、最便宜的方式。規模帶來的最令人驚訝的湧現能力之一。
Flow Matching
流匹配、整流流
模型
生成式技術:學習從雜訊到資料的平滑、直接路徑。比擴散模型以更少的步驟達到可比的品質。
為什麼重要: 正在取代擴散模型成為最先進的圖像/影片生成方法。Flux、SD3 使用它。更少步驟 = 更快 = 更便宜。
Function Calling
工具呼叫、Tool Use API
使用AI
AI 模型在對話過程中請求執行外部函數的結構化方式。你定義具有名稱、描述和參數模式的函數。當模型判斷某個函數有助於回答查詢時,它會輸出結構化的函數呼叫(帶有參數)而非文本。你的程式碼執行該函數並將結果返回給模型以納入回應。
為什麼重要: 函數呼叫是將聊天機器人變成代理的關鍵。沒有它,模型只能生成文本。有了它,模型可以搜索資料庫、呼叫 API、執行計算、預約、發送電子郵件——任何你能以函數形式公開的功能。它是每個實際執行操作而非僅僅談論的 AI 助手背後的機制。
Flash Attention
FlashAttention, FlashAttention-2
A GPU-optimized implementation of the attention mechanism that is 2–4x faster and uses significantly less memory than standard attention. Flash Attention achieves this not by changing what attention computes, but by restructuring how the computation is performed on GPU hardware — minimizing slow memory transfers between GPU HBM and on-chip SRAM.
Why it matters: Flash Attention is arguably the most impactful systems optimization in modern AI. It made long-context models practical by reducing attention's memory usage from quadratic to near-linear (in practice), directly enabling the jump from 4K to 128K+ context windows. Every major LLM uses it. Without Flash Attention, today's long-context models would be prohibitively expensive.
Feedforward Network
FFN, MLP Block
The component in each Transformer layer that processes each token independently through two linear transformations with an activation function in between. While attention mixes information across tokens (which tokens relate to which), the feedforward network processes each token's representation individually, applying non-linear transformations that encode knowledge and perform computation.
Why it matters: The feedforward network is where most of a Transformer's knowledge is stored. Attention gets all the glory, but the FFN layers contain the majority of the model's parameters (typically 2/3 of total parameters) and are where factual associations, language patterns, and learned computations primarily reside. Understanding this helps explain phenomena like knowledge editing and model pruning.
Facial Recognition
Face Recognition, Face ID
Identifying or verifying a person from their face in an image or video. Verification asks "is this person who they claim to be?" (1:1 matching, used in phone unlock). Identification asks "who is this person?" (1:N matching against a database, used in surveillance). Modern systems use deep learning to extract face embeddings and compare them, achieving superhuman accuracy under controlled conditions.
Why it matters: Facial recognition is one of the most powerful and most controversial AI applications. It enables convenient authentication (Face ID), helps find missing persons, and assists law enforcement. It also enables mass surveillance, raises serious privacy concerns, and has documented accuracy disparities across demographics — performing worse on women and people with darker skin tones. It's a textbook case of dual-use technology.
FLOPs
浮點運算、FLOP/s、算力
基礎

浮點運算 — AI 中計算工作量的標準衡量單位。訓練模型需要一定數量的 FLOPs(總操作數)。硬體以 FLOP/s(每秒操作數)評定。GPT-4 的訓練估計約為 10^25 FLOPs。

為什麼重要:

FLOPs 是 AI 算力的貨幣。縮放定律、訓練預算和 GPU 比較都以 FLOPs 衡量。理解 FLOPs 有助於你估算訓練成本。

G
基礎
人工智能系統會生成新的內容——文字、圖片、音訊、影片、程式碼、3D模型——而非僅分析或分類現有資料。生成式人工智能是涵蓋從ChatGPT寫作文章到Stable Diffusion生成圖片,再到Suno創作音樂等所有內容的總稱。「生成式」這個詞彙區分了這些模型與早期只能進行分類、預測或推薦的人工智慧。
為什麼重要: 生成式AI是將AI帶入主流文化的關鍵術語。當人們在2024至2026年說到「AI」時,指的就是這種創造能力,而不仅仅是計算能力。將其視為一個類別,有助於你理解這個領域:LLMs生成文字,diffusion models生成影像,而不同模態之間的界限正迅速模糊。
Google DeepMind
Gemini、AlphaGo、AlphaFold
公司
Google 的統一 AI 研究部門,由 DeepMind 與 Google Brain 於 2023 年合併而成。推動 Gemini、AlphaGo、AlphaFold 等,以及許多推動現代 AI 的基礎研究。
為什麼重要:

Google DeepMind 對現代 AI 的基礎研究貢獻比任何其他單一組織都還要多 — Transformer 架構、強化學習的突破性研究、蛋白質結構預測與規模定律等,皆可追溯至 DeepMind 或 Google Brain 的團隊。他們的 Gemini 模型是唯一內建真正全球分發功能的前沿大型語言模型 (LLM),透過搜尋、Android 與 Google Workspace 服務數十億用戶。而 AlphaFold — 這項解決了生物學界沿襲五十年難題、並榮獲諾貝爾獎的技術 — 其本身已足以讓他們在科學史,而不僅僅是 AI 史上佔有一席之地。

GAN
生成對抗網絡
模型

一種模型架構,其中兩個神經網絡相互競爭:生成器產生假資料,而判別器試圖分辨真假。透過這種對抗訓練,生成器會變得更擅長產生逼真的輸出。從2014年至約2022年主導影像生成技術。

為什麼重要: GANs 奠定了逼真 AI 影像生成的基礎,目前仍用於某些即時應用。但對於對品質要求嚴格的工作,擴散模型已大幅取代 GANs,因為 GANs 訓練起來更困難,且輸出結果的多樣性較低。
GPU
圖形處理器
基礎設施
最初設計用於渲染圖形的 GPU,結果證明其非常適合用於 AI,因為它們可以同時執行數千個數學運算。訓練和運行 AI 模型基本上就是大規模矩陣乘法 — 這正是 GPU 所設計用來處理的。NVIDIA 在這個市場中佔據主導地位。
為什麼重要:

GPU 是整個 AI 產業的物理瓶頸。為什麼模型價格如此之高,為什麼有些供應商更快,為什麼會有全球性的晶片短缺 — 這一切都歸咎於 GPU 的供應和 VRAM。

使用AI
將模型的回應與事實性且可查證的來源相連接,而非僅依賴其訓練數據。接地技術包括 RAG、網頁搜索整合與引用要求。接地回應會說明「根據 [來源]」,而非僅斷言事實。
為什麼重要:

扎根是對抗幻覺的主要防禦措施。無依據的模型會自信地編造事實。有依據的模型會指引你到可驗證的真实來源。

安全

防止 AI 模型生成有害、不適當或離題內容的安全機制。這些安全機制可以在模型訓練期間內建(如 RLHF),透過系統提示進行應用,或由外部過濾器在內容傳達給用戶前進行檢查與強制執行。

為什麼重要: 沒有 guardrails 的話,模型會樂於協助處理危險的請求。挑戰在於校準—太嚴格的話,模型就會變得毫無用處(「我幫不上忙」),太鬆散的話,就會變得不安全。
Gradient Descent
梯度下降、SGD、反向傳播
訓練
透過計算梯度並沿著下坡方向調整參數來反覆降低損失。反向傳播能高效地計算各層的梯度。
為什麼重要: 每個模型都是透過梯度下降訓練的。它解釋了學習率的重要性、訓練發散的原因,以及為什麼 Adam 優化器有效。
Groq
Groq LPU
公司
專為 AI 推理設計的自研晶片(LPU)。專為序列性詞元生成打造。500–800 tok/s,通常比 GPU 快 10 倍。
為什麼重要: 證明了推理不一定要慢。硬體方案 vs 軟體優化。
GGUF
GGML Unified Format
The standard file format for running quantized language models locally via llama.cpp, Ollama, and other local inference tools. GGUF files contain the model weights in a quantized format (reducing precision from 16-bit to 4-bit or 8-bit), along with metadata like vocabulary, architecture details, and quantization parameters — everything needed to load and run the model in a single file.
Why it matters: GGUF is the format that made local AI practical. Before it, running models locally required complex setups with PyTorch, CUDA, and specific GPU memory. GGUF packages everything into one file that llama.cpp or Ollama can load directly — on CPU, on Apple Silicon, on gaming GPUs, anywhere. If you see a model on Hugging Face with filenames like "Q4_K_M.gguf," that's a model ready for local use.
GNN
Graph Neural Network
Neural networks designed to operate on graph-structured data — data where entities are connected by relationships (social networks, molecules, knowledge graphs, transportation networks). GNNs learn by passing messages between connected nodes, allowing each node to update its representation based on its neighbors. They handle data that doesn't fit neatly into grids (images) or sequences (text).
Why it matters: Not all data is text or images. Social networks, molecular structures, recommendation systems, fraud detection networks, and logistics routes are all naturally graph-structured. GNNs are the right tool when relationships between entities are as important as the entities themselves. Drug discovery, social network analysis, and traffic prediction all rely on GNNs.
Guidance Scale
CFG Scale, Classifier-Free Guidance
A parameter that controls how strongly an image generation model follows the text prompt. Low guidance (1–3): the model generates freely, producing diverse but potentially off-topic images. High guidance (7–15): the model strictly follows the prompt but may produce saturated, artifact-heavy images. The typical sweet spot is 7–9. It's the image generation equivalent of temperature for text models.
Why it matters: Guidance scale is the most impactful parameter in image generation after the prompt itself. Too low and the image ignores your description. Too high and it looks oversaturated and artificial. Understanding guidance scale helps you troubleshoot "why doesn't my image match my prompt?" (guidance too low) and "why does my image look weird?" (guidance too high).
GQA
分組查詢注意力
基礎

一種注意力變體,多個查詢頭共享單一的鍵值頭,減少 KV 快取大小而不顯著降低品質。Llama 2 70B、Mistral、Gemma 及大多數現代 LLM 使用 GQA。

為什麼重要:

GQA 是 KV 快取記憶體問題的實用解決方案。使用 8 個 KV 頭的 GQA 可將記憶體減少 8 倍,直接轉化為更多併發使用者或更長的上下文。

梯度檢查點
激活檢查點、重新具體化
訓練

一種以計算換記憶體的訓練節省記憶體技術。只在某些「檢查點」層儲存激活,在反向傳遞期間重新計算其他的。可以將記憶體使用量減少 5–10 倍,代價是約 30% 的額外計算。

為什麼重要:

梯度檢查點使得在有限的 GPU 記憶體上微調大型模型成為可能。它是訓練中最常用的記憶體最佳化方法。

H
超參數
訓練超參數
訓練
在訓練開始前設定的參數,用來控制模型的學習方式—與模型自行學習的參數不同。超參數包括學習率(每次更新步長的大小)、批次大小(一次處理的範例數量)、訓練週期數(遍歷數據的次數)、優化器選擇(Adam、SGD、AdamW)、權重衰減、丟棄率,以及架構決策如層數和隱藏維度。正確設定超參數往往是模型能完美收斂與陷入無意義結果之間的關鍵差異。
為什麼重要: 超參數調整是機器學習工程中一半是科學,一半是技藝的領域。你可能擁有完美的資料集和架構,但學習率太高會導致訓練過程失控,而太低則永遠無法收斂。理解超參數對於任何訓練或微調模型的人來說都是至關重要的——而知道哪些參數最重要可以節省大量的計算資源。
HeyGen
AI 數位人影片、唇形同步配音
公司

專注於生成寫實對話頭像與自動口型同步配音的AI視頻平台。被企業用於行銷、培訓和本地化——將一個視頻轉換為數十種語言,並搭配同步的口型動作。

為什麼重要:

HeyGen 將 AI 視頻人偶從研究興趣轉變為真正的企業工具,證明了讓視頻內容創作變得像寫文件一樣簡單的過程中,確實存在可實現的收入。他們的唇形同步配音技術對全球企業具有特別意義—大幅降低視頻本地化的成本和時間,從數週和數千美元縮短到分鐘和幾美分。作為少數擁有穩定經常性收入的 AI 視頻公司之一,HeyGen 也成為了如何在生成式 AI 上建立真正商業模式的案例研究,而不僅僅是一個演示。

HiDream
HiDream 圖像生成模型
公司
崛起中的影像生成公司,正在開發高品質的擴散模型。他們的開放權重版本在創意AI社群中受到關注,因其強大的提示遵循能力與視覺品質。
為什麼重要:

HiDream 展示了小型且專注的團隊可以開發出開放權重的影像模型,其表現足以與那些在訓練基礎設施上投入數個數量級資源的機構競爭。其模型在文字渲染與組合準確度上的優勢,解決了阻礙 AI 生成影像商業應用的實際痛點。在影像模型快速商品化的開放環境中,HiDream 的成功強化了這樣的模式:下一次品質的飛躍可能來自任何地方 — 不只是擁有最多 GPU 的最大實驗室。

Hume
共情語音介面、情緒辨識
公司
專注於開發能理解並表達人類情感的人工智慧公司。其 Empathic Voice Interface 可即時偵測語調、情感與情緒脈絡,使人工智慧對話能回應的不只是你說的話,還有你說話的方式。
為什麼重要:

Humе之所以重要,是因為他們正在解決現代AI中最明顯的盲點:情感理解。目前每一個聊天機器人、語音助手和AI代理基本上都是對語氣毫無感知,只回應文字的字面內容,卻忽略了人類本能依賴的情感語境。Humе的Empathic Voice Interface是第一個在生產規模上真正嘗試彌合這個缺口的創新,而他們堅持為情感AI制定倫理準則,也樹立了產業最終將被迫採納的標準。

使用AI
當 AI 模型生成看似自信且合理,但事實上錯誤或完全捏造的資訊時。模型並不是在「撒謊」— 它只是透過模式匹配來產生流暢的文本,而沒有真理的概念。虛假的引用、捏造的統計數據,以及不存在的 API 方法都是常見的例子。
為什麼重要: 幻覺是目前AI中最大的信任問題。這就是為什麼你應該始終驗證AI輸出中的關鍵事實,以及為什麼像RAG和grounding這樣的技術存在。
公司
開源 AI 的中心樞紐。500K+ 模型、100K+ 資料集、Transformers 程式庫、Spaces。AI 界的 GitHub。
為什麼重要: 如果你使用開放權重模型,你就在用 HF。Transformers 程式庫是事實上的標準。
Hyperparameter Tuning
HPO, Hyperparameter Optimization, Grid Search
Systematically searching for the best hyperparameters — the configuration choices that aren't learned during training but must be set before it starts. Learning rate, batch size, number of layers, dropout rate, and LoRA rank are all hyperparameters. Tuning methods include grid search (try all combinations), random search (try random combinations), and Bayesian optimization (use past results to guide the search).
Why it matters: The difference between a good and bad set of hyperparameters can be enormous — a wrong learning rate can make training diverge or converge to a poor solution. Hyperparameter tuning is how you get the most out of your model architecture and data. For fine-tuning LLMs, learning rate and number of epochs are typically the most impactful hyperparameters to tune.
I
Ideogram
圖像中的文字渲染、Ideogram 2.0
公司
由前Google Brain研究員創立的AI圖像生成公司,因解決圖像生成中最困難的問題之一——在圖像中生成可讀且準確的文本——而聲名大噪。
為什麼重要:

Ideogram證明了解決單一關鍵弱點——AI生成圖片中的可讀文字——可以在競爭激烈的圖片生成領域中開拓出獨特的市場定位。他們從文字渲染專門技術到完整設計平台的演進,展現了當技術差異化針對真實工作流程痛點時,便能與資金更充足的競爭對手一較高下。

基礎設施

運行經過訓練的模型以生成輸出的過程。訓練是學習;推論是應用所學到的知識。每次你向Claude發送提示或使用Stable Diffusion生成圖片時,這就是推論。這就是消耗服務提供商GPU小時數以及你按每個token支付費用的環節。

為什麼重要: 推論成本與速度決定了AI產品的經濟性。更快的推論 = 更低的延遲 = 更佳的使用者體驗。更便宜的推論 = 更低的價格 = 更廣泛的採用。整個量化與最佳化產業的存在,就是為了讓推論更加高效。
Instruction Tuning
Instruction Fine-Tuning, IFT, SFT
Fine-tuning a pre-trained language model on a dataset of (instruction, response) pairs to teach it to follow instructions. A base model that just predicts text becomes a model that answers questions, follows directions, and behaves like an assistant. This is the step that turns GPT into ChatGPT, or a base Llama into Llama-Chat.
Why it matters: Instruction tuning is the bridge between a raw language model (which can only complete text) and a useful assistant (which can follow instructions). Without it, even the most capable base model just generates plausible-sounding text rather than actually doing what you ask. It's arguably the most important post-training step.
Image Generation
Text-to-Image, AI Art
Creating images from text descriptions using AI models. You type "a sunset over mountains in watercolor style" and the model generates a matching image. Current approaches include diffusion models (Stable Diffusion, DALL-E), flow matching (Flux), and autoregressive models. The field has progressed from blurry faces in 2020 to photorealistic, artistically controlled output in 2025.
Why it matters: Image generation is the most visible consumer AI capability after chatbots. It's transforming graphic design, advertising, concept art, and visual communication. Understanding the underlying approaches (diffusion, flow matching, DiT) and their trade-offs helps you choose the right tool and understand the limitations — why some prompts work and others don't, why certain styles are easier than others.
Instruction Following
Instruction Adherence
A model's ability to accurately execute what the user asks for — respecting format constraints, length requirements, style specifications, and behavioral instructions. "Write exactly 3 bullet points in French about X" tests instruction following: the response must be bullets (not paragraphs), exactly 3 (not 2 or 5), in French (not English), and about X (not Y).
Why it matters: Instruction following is the most practically important LLM capability. Users care less about whether a model "knows" more facts and more about whether it does what they actually asked. A model that writes beautiful prose but ignores your format requirements is less useful than one that reliably follows instructions. This is why IFEval and other instruction-following benchmarks have become central to model evaluation.
Image Segmentation
Semantic Segmentation, SAM, Instance Segmentation
Classifying every pixel in an image into a category. Semantic segmentation labels pixels by class (road, sidewalk, building, sky). Instance segmentation distinguishes individual objects (person 1, person 2). Panoptic segmentation does both. Meta's SAM (Segment Anything Model) can segment any object from a point click or text prompt, without task-specific training.
Why it matters: Segmentation provides the most precise understanding of image content. Self-driving cars need pixel-level road boundaries, not just bounding boxes. Medical imaging needs exact tumor boundaries. Photo editing needs precise object masks for background removal. SAM's ability to segment any object with zero training made this previously specialized capability accessible to everyone.
Inpainting
Image Inpainting, Outpainting
Filling in a selected region of an image with AI-generated content that matches the surrounding context. You mask an area (painting over it), describe what should replace it, and the model generates new content that blends seamlessly with the existing image. Outpainting extends an image beyond its original borders. Both use the same underlying diffusion process, conditioned on the unmasked regions.
Why it matters: Inpainting is the most practical image editing tool AI provides. Remove unwanted objects, replace backgrounds, fix defects, add elements, or modify specific parts of an image while keeping everything else intact. It's the AI equivalent of Photoshop's content-aware fill, but guided by natural language and dramatically more capable.
Image-to-Image
img2img, Image Conditioning
Generating a new image based on an existing image plus a text prompt. Instead of starting from pure noise (text-to-image), the diffusion process starts from a noisy version of the input image, preserving its structure while modifying it according to the prompt. "A cyberpunk version of this photo" keeps the composition but transforms the style and details.
Why it matters: Image-to-image is the bridge between photography and AI art. It lets you use sketches, photos, or existing artwork as a starting point, maintaining layout and composition while the AI transforms style, adds detail, or reimagines the content. It's more controllable than text-to-image because you're guiding the output with visual structure, not just words.
Information Extraction
IE, Structured Extraction
Automatically extracting structured information from unstructured text. Given a news article, extract: who did what, when, where, and why. Given a contract, extract: parties, dates, obligations, and amounts. IE combines NER (finding entities), relation extraction (finding connections between entities), and event extraction (finding what happened) into a unified pipeline.
Why it matters: Most of the world's information is trapped in unstructured text — emails, reports, articles, legal documents, medical records. Information extraction turns this text into structured data that can be searched, analyzed, and acted on. It's the technology that lets you ask a database-style question about a pile of documents.
歸納頭
Induction Head
基礎

在 Transformer 中發現的一個特定的雙注意力頭電路,透過模式匹配實現上下文內學習。如果模型在上下文中較早看到了模式「A B」,現在又看到了「A」,歸納頭就會預測「B」將跟隨。

為什麼重要:

歸納頭是機制可解釋性中理解最透徹的電路。它們解釋了為什麼少樣本提示有效。

J
Jina AI
Embedding 嵌入、Reader API、Rerank 重排序
公司
總部位於柏林的人工智慧公司,專注於搜尋與嵌入技術。他們的 jina-embeddings 模型與 Reader API(可將任何 URL 轉換為適合 LLM 的文字)已成為全球 RAG 管道中不可或缺的基礎設施。
為什麼重要:

Jina AI 建立了嵌入式與檢索基礎設施,數千個 RAG 系統皆依賴此基礎設施,證明了專注於搜尋工具的開發,比試圖做所有事情更有價值。他們的長文脈嵌入模型與 Reader API 解決了 AI 驅動搜尋中兩個最困難的實際問題 — 忠實地表示長文件,並從混亂的網頁中提取乾淨的文本 — 同時他們還保持核心模型開源。在由通才實驗室主導的生態系統中,Jina 展示了專注於一件事並做到極致,同時讓開發者使用起來極為簡易,這確實是一個真實的商業模式。

Jailbreak
Jailbreaking, Adversarial Prompt
Techniques that trick an AI model into bypassing its safety training and generating content it was designed to refuse — instructions for dangerous activities, harmful content, or behaviors that violate the model's usage policies. Jailbreaks exploit the gap between what the model was trained to refuse and what clever prompting can elicit.
Why it matters: Jailbreaking is the adversarial testing ground for AI safety. Every model ships with safety guardrails, and every major model has been jailbroken. The cat-and-mouse game between jailbreak techniques and safety measures drives improvement in alignment. Understanding jailbreaks helps you evaluate how robust a model's safety actually is, rather than taking marketing claims at face value.
K
可靈 AI
可靈影片生成、長影片生成
公司
快手(中國第二大短視頻平台)的AI影片平台。因生產出一些在物理上最連貫且在時間上最一致的AI生成影片,而迅速引起國際關注。
為什麼重要: Kling AI 展示了中國人工智慧實驗室在視頻生成最前沿領域可與西方競爭對手匹敵,所產生的成果在物理一致性與時間一致性方面設立了新標準。依托於快手每日處理十億視頻的平台,並在全球提供具競爭力的價格,Kling 已成為人工智慧視頻領域的主要競爭推動者,提升整體市場的品質,同時壓低價格。
KV Cache
鍵值快取
基礎設施
儲存先前計算的注意力鍵/值張量,使得每生成一個新詞元時無需重新計算。以記憶體換取速度。
為什麼重要: KV 快取是 LLM 推理受限於記憶體的原因。在 70B 模型上使用 100K 上下文可能需要約 256 GB 的快取 — 比模型權重還多。這是長上下文推理的根本限制。
Knowledge Cutoff
Training Data Cutoff, Knowledge Date
The date after which a model has no training data, meaning it lacks knowledge of events, discoveries, or changes that occurred after that date. If a model's cutoff is April 2024, it doesn't know about anything that happened in May 2024 or later — new products, news events, scientific papers, or updated facts.
Why it matters: The knowledge cutoff is the most common source of frustration with AI assistants. "Why doesn't it know about X?" Because X happened after training. This limitation drives the adoption of RAG (giving the model access to current information) and tool use (letting the model search the web). Understanding the cutoff helps you know when to trust the model and when to verify.
Knowledge Graph
KG, Ontology
A structured representation of knowledge as a network of entities (nodes) connected by relationships (edges). "Paris (entity) is the capital of (relationship) France (entity)." Knowledge graphs encode facts in a way that supports reasoning, querying, and discovery. Google's Knowledge Graph, Wikidata, and enterprise knowledge graphs power search, recommendations, and data integration.
Why it matters: Knowledge graphs complement LLMs by providing structured, verifiable facts that LLMs can query rather than hallucinate. While LLMs store knowledge implicitly in weights (and sometimes get it wrong), knowledge graphs store it explicitly in triples that can be verified and updated. The combination of LLMs (for understanding natural language) and KGs (for grounding in facts) is a powerful pattern for enterprise AI.
知識編輯
模型編輯、事實編輯
訓練

在不重新訓練的情況下修改已訓練模型中特定事實的技術。目標是外科手術般的精確:改變一個事實,其他一切保持不變。

為什麼重要:

知識編輯解決模型過時的問題。然而這個領域尚不成熟 — 編輯往往對相關知識產生意料之外的副作用。

L
Leonardo.ai
創意圖像生成、遊戲素材建立
公司

澳洲AI影像平台,在Midjourney與Stable Diffusion之間佔據一席之地。因其經過微調的模型、即時畫布以及專注於可直接用於製作的創意資源,廣受遊戲開發者與數位藝術家歡迎。

為什麼重要:

Leonardo.ai 展示了 AI 圖像生成可以被包裝成專業創意平台,而不僅僅是新奇的提示工具,並證明這樣做可以吸引數千萬用戶。他們專注於遊戲開發與數位藝術工作流程,開拓了 Midjourney 和 DALL-E 等更廣泛工具並未特別針對的應用場景。Canva 的收購驗證了整個 AI 圖像生成領域作為主要設計平台策略性資產的地位,並設定了獨立 AI 工具如何被納入更大創意生態系統的範本。

Liquid AI
Liquid 基礎模型、液態神經網絡
公司
麻省理工學院衍生公司正在探索受生物神經電路啟發的、與傳統截然不同的神經網絡架構。他們的 Liquid Foundation Models 採用連續時間動力學—而非固定權重的Transformer架構—有望在效率與適應性方面取得更好的表現。
為什麼重要:

Liquid AI代表了對「Transformer是唯一重要的架構」這個假設最嚴肅的資金支持挑戰。他們透過建立基於生物啟發連續時間動力學的生產等級基礎模型,正在測試AI產業對注意力機制的全面押注是否過早。即使LFMs無法徹底取代Transformer,其在邊緣部署與長序列處理上的效率優勢,仍可能在機器人、行動AI與嵌入式系統等市場中開闢關鍵利基——這些市場裡運行一個700億參數的Transformer根本不可行。

Luma AI
Dream Machine、Ray2
公司
專注於視頻和3D生成的人工智慧公司。他們的Dream Machine是首批可近用的高品質AI視頻生成器之一,而Ray2則大幅提升了視頻的品質與連貫性。
為什麼重要:

Luma AI 讓 AI 視頻生成平民化,就像 Stable Diffusion 讓圖像生成平民化 — 透過讓所有人都能透過瀏覽器免費、快速且輕鬆使用。他們從 3D 採集新創公司演進為領先的視頻生成公司,再加上在空間理解方面獨特的技術深度,使他們成為少數真正能彌合 AI 視頻、3D 內容與未來沉浸式媒體格式之間差距的公司之一。

延遲
首 Token 時間 (TTFT)
基礎設施

傳送請求與收到第一個回應之間的延遲。在 AI 領域,這通常以「首次 Token 產生時間」(Time to First Token,TTFT)— 模型開始串流回答之前需要多長時間來衡量。受模型大小、伺服器負載、網絡距離和提示長度影響。

為什麼重要: 用戶認為超過約2秒的東西就是慢。低延遲就是為什麼即使較大的模型更聰明,較小的模型在即時應用中仍常勝出的原因。這也是服務供應商之間的關鍵差異點。
基礎

一種透過大量文本訓練的神經網絡,用以理解和生成人類語言。「大型」指的是參數數量(十億級)與訓練數據規模(兆級別的 token 數量)。Claude、GPT、Gemini、Llama 和 Mistral 都屬於 LLM。

為什麼重要:

LLMs 是您所使用的每一項 AI 聊天、程式碼助手和文字生成器的技術基礎。了解它們的本質(統計模式匹配器,而非有感知能力的生物)能幫助您更有效地使用它們,並認識其限制。

LoRA
低秩適配
訓練
一種技術,透過僅訓練少量額外參數而非修改整個模型,大幅降低微調成本。LoRA 「adapters」是輕量級附加元件(通常僅需數百MB),能在不重新訓練其數十億個參數的情況下,修改模型的行為。
為什麼重要: LoRA 讓微調變得平民化。在此之前,調整一個7B模型需要強大的GPU資源。現在你可以在數小時內使用單一消費者級GPU進行微調,並分享輕巧的適配器文件。這就是為什麼HuggingFace上擁有數千個專業模型。
Loss Function
損失函數、目標函數
訓練
衡量預測的錯誤程度。對 LLM 來說:交叉熵損失 = 對實際下一個詞元的驚訝程度。訓練的目標就是最小化這個值。
為什麼重要: 訓練的指南針。理解損失函數有助於解讀訓練曲線和診斷問題。
An open-source C/C++ library for running LLM inference on consumer hardware, created by Georgi Gerganov. llama.cpp performs quantized inference without requiring CUDA, PyTorch, or Python — it runs on CPUs, Apple Silicon, and consumer GPUs. It was the first tool to make running large language models locally accessible to normal developers and enthusiasts.
Why it matters: llama.cpp started the local AI revolution. Before it, running a language model required expensive NVIDIA GPUs and complex Python setups. llama.cpp showed that quantized models could run on a MacBook or even a Raspberry Pi with acceptable quality. It spawned an entire ecosystem (Ollama, LM Studio, kobold.cpp) and made "self-hosted AI" a real option.
A popular open-source framework for building applications with language models. LangChain provides abstractions for common patterns: connecting LLMs to data sources (RAG), building multi-step chains of LLM calls, managing conversation memory, using tools, and orchestrating agents. It supports multiple providers (Anthropic, OpenAI, local models) through a unified interface.
Why it matters: LangChain is the most widely-used LLM application framework, which means you'll encounter it in tutorials, job descriptions, and existing codebases. It's also controversial — critics argue it adds unnecessary abstraction over simple API calls. Understanding what LangChain does (and when to use it vs. direct API calls) helps you make informed architectural decisions.
Logits
Raw Scores, Pre-Softmax Outputs
The raw, unnormalized scores that a model outputs before they're converted into probabilities by the softmax function. For a language model, the logits are a vector with one value per token in the vocabulary — higher values indicate tokens the model considers more likely. Logits are the most informative output a model produces, containing more information than the final probability distribution.
Why it matters: Understanding logits helps you understand how models "think." Temperature, top-p, and top-k sampling all operate on logits. Classifier-free guidance in image generation manipulates logits. Logit bias (adding offsets to specific tokens) lets you steer model behavior. If you're building AI applications beyond basic chat, you'll eventually need to work with logits directly.
Language Detection
Language Identification, LangID
Automatically identifying which language a text is written in. "Bonjour le monde" → French. "こんにちは世界" → Japanese. Modern models can distinguish 100+ languages from just a few words, handle mixed-language text (code-switching), and identify closely related languages (Norwegian vs. Danish, Malay vs. Indonesian).
Why it matters: Language detection is the essential first step in any multilingual pipeline: you need to know what language the input is before you can translate it, route it to the right model, or apply language-specific processing. It's used in search engines, customer support routing, content moderation, and every system that handles text from users worldwide.
Lambda Labs
Lambda, Lambda Cloud
A GPU cloud provider focused specifically on AI and machine learning workloads. Lambda offers on-demand and reserved NVIDIA GPU instances (A100, H100, H200) for training and inference at prices competitive with or below AWS, GCP, and Azure. They also sell GPU workstations and servers. Founded in 2012, Lambda has become a go-to provider for AI researchers and startups.
Why it matters: Lambda represents the GPU cloud layer that enables AI development for teams that can't afford to build their own data centers but need more control and better pricing than hyperscaler cloud providers. For startups training models, Lambda's GPU availability and pricing can make the difference between feasible and infeasible training runs.
學習率排程
LR 排程、暖身、餘弦退火
訓練

在訓練過程中改變學習率的策略。大多數現代訓練使用暖身(逐漸增加到峰值)後接衰減(逐漸降低到接近零)。餘弦退火是最常見的衰減排程。

為什麼重要:

學習率排程設定正確與否可以決定訓練的成敗。太高模型發散,太低訓練太慢或陷入局部最佳。

M
模型
AI 模型、ML 模型
基礎
一個經過訓練的數學系統,根據從數據中學習到的模式來接收輸入並產生輸出。在AI中,「model(模型)」是萬用術語,指你實際使用的東西——無論是GPT-4生成文字、Stable Diffusion生成圖片,或是Whisper轉錄語音。模型由其架構(結構方式)、參數(學習到的內容)與訓練資料(學習來源)所定義。當有人問「我應該使用哪個模型?」時,他們就是在問這個問題。
為什麼重要: 「模型」是人工智慧領域中最常被使用的單字,而且在不同語境下有著不同的含義。「模型」可能指架構(Transformer)、特定的訓練實例(Claude Opus 4.6)、磁碟上的檔案(.gguf 檔案),或是一個 API 端點。理解「模型」究竟是什麼——以及它不是什麼——是一切的基礎。
基礎
電腦科學中廣泛的領域,系統透過資料學習模式,而非遵循明確的規則。不是透過列出特徵(四隻腳、尖耳朵、鬍鬚)來編程讓電腦辨識貓,而是展示數千張貓的照片,讓它自行找出模式。機器學習涵蓋從簡單的線性回歸到驅動當代人工智能的深層神經網絡 — 監督學習(標記過的範例)、非監督學習(發現結構),以及強化學習(試錯法)。
為什麼重要: 機器學習是今日我們所稱「AI」的一切基礎。每一個LLM、每一個影像生成器、每一個推薦演算法、每一個垃圾郵件過濾器—這一切都是機器學習。將ML視為一個更廣泛的學科,能幫助你理解深度學習適用的領域、經典方法仍佔優勢的地方,以及為何「AI」其實只是「ML變得非常出色」罷了。
記憶
AI 記憶、持久化上下文
使用AI

讓AI模型能夠保留並回憶超越單次對話資訊的機制。這包括上下文記憶(使用上下文視窗)、外部記憶(RAG、向量資料庫)、持續對話記憶(記住用戶在不同會話中的偏好),以及工作記憶(在多步驟代理任務中維持狀態)。記憶正是讓AI感覺像協作者而非無狀態工具的關鍵。

為什麼重要: 沒有記憶,每一次與AI的對話都必須從零開始。你必須重複說明自己的偏好,重新解釋自己的程式碼庫,重新描述自己的專案。記憶正是將聊天機器人轉變為助理的關鍵——而這也是最難妥善解決的問題之一,需要在相關性、隱私、過時性與儲存成本之間取得平衡。
月之暗面
Kimi、超長上下文模型
公司
中國 AI 公司,因推出擁有 200 萬 token 上下文視窗的聊天機器人 Kimi 而引起轟動。由楊植麟創立,他是長上下文建模領域關鍵創新的研究員。
為什麼重要: 月之暗面迫使整個產業認真對待上下文長度。在 Kimi 之前,長上下文支援只是錦上添花;Kimi 在中國爆紅之後,每個主要實驗室都爭先恐後地擴展其上下文視窗。楊植麟押注的「當用戶擁有足夠的上下文時,他們與 AI 互動的方式將從根本上改變」已被 Kimi 的爆炸性增長所驗證,而月之暗面在高效長序列推理方面開發的技術,正在影響下一代模型處理文件、程式碼庫和複雜多步推理的方式。
Meta AI
Llama、FAIR、PyTorch
公司
Meta 的 AI 研究部門,FAIR(基礎 AI 研究)的所在地。負責開發開放權重的 Llama 模型系列及 PyTorch —— AI 產業中絕大多數團隊使用的深度學習框架。
為什麼重要: Meta AI 透過證明前沿等級的模型可以開放權重釋出,從根本上改變了 AI 的經濟格局。Llama 及其衍生模型驅動著數以千計的應用程式、新創公司和研究專案,而這些原本永遠無法取得如此水準的模型。PyTorch 支撐著全球大多數的 AI 研究和生產系統。此外,Meta 的應用程式擁有超過 30 億用戶,其分發能力是其他 AI 實驗室望塵莫及的 —— 每當他們推出一項 AI 功能,一夕之間便觸及全球三分之一的人口。
Mistral AI
Mistral、Mixtral、Codestral、Le Chat
公司
由前 DeepMind 和 Meta 研究員創立的歐洲 AI 強者。以高效模型「以小搏大」聞名,並在推動開放權重分發的同時兼顧商業產品。
為什麼重要: Mistral 證明了不需要美國超大規模雲端業者的預算也能打造前沿 AI 模型。他們的高效架構 —— 尤其是在稀疏混合專家方面的早期成果 —— 影響了整個產業對模型設計的思維,而他們的開放權重發布讓全球開發者無需依賴 API 就能取得高品質模型。作為第一家達到真正前沿競爭水準的歐洲 AI 公司,Mistral 也具有策略意義:他們的成敗將決定歐洲能否成為 AI 的參與者,還是僅僅只是 AI 的監管者。
MiniMax
MiniMax 模型、海螺 AI、影片生成
公司
中國 AI 公司,在文本、語音和影片領域建構大規模模型。以其消費者平台「海螺 AI」和競爭力日益增強的多模態模型聞名。
為什麼重要: MiniMax 已成為中國最多元的 AI 公司之一,從單一整合技術體系中建構出橫跨文本、語音和影片的競爭力模型。他們的海螺 AI 平台將高品質 AI 影片生成免費帶給全球觀眾,證明了中國 AI 實驗室能打造出具有真正國際影響力的消費者產品 —— 而不僅僅是企業 API 或研究論文。
MCP
模型上下文協定
工具
一個開放協議(由 Anthropic 所開發),用以標準化 AI 模型如何連接外部工具與資料來源。可以把它想成 AI 的 USB-C — 一個標準介面,而非為每個工具開發客製化整合。MCP 伺服器公開功能;MCP 客戶端(如 Claude)使用這些功能。
為什麼重要:

在MCP出現之前,每項AI工具整合都是客製化的。MCP代表只要開發一次的工具,就能與任何相容的AI搭配使用。目前已支援Claude、Cursor等工具。這就是AI從聊天機器人轉變為真正助手的方式。

模型
一種架構,模型包含多個「專家」子網路,但每次輸入只啟動其中少數幾個。一個路由網路負責決定哪些專家與給定的 token 相關。這意味著模型可以擁有超過 1000 億的總參數,但每次前向傳遞只使用 200 億。
為什麼重要: MoE 是 Mixtral 和(據傳)GPT-4 等模型如何用巨大模型的品質獲得小型模型速度的方法。代價是更高的記憶體使用量(所有專家都必須載入),即使計算成本更低。
基礎
能夠理解和/或生成多種類型資料的模型:文本、影像、音訊、影片、程式碼。Claude 能閱讀影像和文本;某些模型還能生成影像或語音。「多模態」與只能處理單一類型的「單模態」模型形成對比。
為什麼重要: 真實世界的任務是多模態的。你想給 AI 看一張截圖問「這裡出了什麼問題?」或給它一張圖表說「請實作這個。」多模態模型讓這一切成為可能。
Mamba
選擇性狀態空間模型
模型
由 Gu 和 Dao 提出的選擇性狀態空間模型。序列長度線性縮放,而非 Transformer 的二次方。重要資訊被保留,無關的則衰減。
為什麼重要: 對 Transformer 主導地位最有力的挑戰。如果線性時間能達到 Transformer 品質的結果,影響將是巨大的。混合架構已經在出貨了。
安全
在神經元/電路/特徵層面逆向工程神經網路內部發生的事情。不只是模型輸出什麼,而是它如何計算。
為什麼重要: AI 安全的核心。研究人員已經在 Transformer 內部發現了特定的電路。這是 Anthropic 的重點研究領域。
公司
以美學精煉著稱的 AI 圖像生成。透過 Discord 和網頁運營。小團隊、盈利、注重品質。
為什麼重要: 最受創意/藝術用途歡迎。證明了策展和使用者體驗與架構一樣重要。
Model Serving
vLLM、TGI、TensorRT-LLM、推理伺服器
基礎設施
在生產環境中運行已訓練 AI 模型的基礎設施和軟體,處理傳入請求、管理 GPU 記憶體、批量處理以提升效率並返回回應。模型服務框架如 vLLM、TGI(Text Generation Inference)和 TensorRT-LLM 處理使 LLM 推理在規模上快速且經濟高效的複雜工程。
為什麼重要: 從「我有一個模型」到「我可以同時服務 10,000 個使用者」之間的差距是巨大的。模型服務框架解決 GPU 記憶體管理、請求調度、KV 快取優化和連續批量處理——這些都是難以從頭解決的問題。選擇正確的服務堆疊是生產 AI 中影響力最大的決策之一。
Model Collapse
Data Feedback Loop
The degradation that occurs when AI models are trained on data generated by previous AI models, creating a feedback loop where errors and biases accumulate across generations. Each generation loses some diversity and amplifies some artifacts from the previous one, eventually producing models that generate repetitive, generic, or distorted outputs.
Why it matters: Model collapse is the ticking time bomb of the AI-generated content era. As the internet fills with AI-generated text (estimated at 10–50% of new web content), future models trained on web scrapes will inevitably ingest AI outputs. If this isn't carefully managed, model quality could plateau or degrade. It's why data curation and provenance tracking are becoming critical infrastructure.
Multi-Agent Systems
Multi-Agent, Agent Swarm
Architectures where multiple AI agents collaborate, debate, or specialize to solve problems that a single agent can't handle alone. Each agent might have a different role (researcher, coder, reviewer), different tools, or different models. They communicate through structured messages, shared memory, or direct handoffs.
Why it matters: Multi-agent systems are the emerging paradigm for complex AI tasks. A single LLM call handles a question. An agent handles a multi-step task. A multi-agent system handles tasks that require different expertise, parallel work, or quality assurance through review. As AI moves from chatbots to autonomous workflows, multi-agent architectures become the natural scaling pattern.
Machine Translation
MT, Neural Machine Translation, NMT
Automatically translating text from one language to another. Modern neural machine translation (NMT) uses encoder-decoder Transformers trained on parallel corpora (texts and their translations). Google Translate, DeepL, and LLM-based translation all use variants of this approach. Quality has improved dramatically — for common language pairs, MT approaches professional human translation for routine content.
Why it matters: Machine translation breaks language barriers at scale. It enables global commerce, cross-language search, real-time communication, and access to information across languages. For AI specifically, MT is how models trained primarily on English can serve users in 100+ languages — and it's why multilingual tokenizer efficiency matters for cost.
Music Generation
AI Music, Text-to-Music
Creating music from text descriptions, melodies, or other audio inputs using AI models. "An upbeat electronic track with a catchy synth melody, 120 BPM" produces a full musical composition. Suno, Udio, MusicLM (Google), and Stable Audio are leading models. Current systems generate vocals, instrumentals, and full arrangements in diverse styles and genres.
Why it matters: Music generation is the audio equivalent of image generation — it's making music creation accessible to everyone, not just trained musicians. Content creators need background music, game developers need soundtracks, advertisers need jingles. AI music fills these needs at a fraction of the cost and time of hiring musicians. But it also raises the same copyright and authenticity questions as image generation.
Model Registry
Model Store, Model Catalog
A centralized system for versioning, tracking, and managing trained machine learning models throughout their lifecycle. Like a package registry (npm, PyPI) but for ML models: each model version is stored with its metadata (training data, hyperparameters, performance metrics, lineage), making it possible to reproduce results, compare versions, and deploy specific models to production.
Why it matters: Without a model registry, ML development becomes chaos: which version of the model is in production? What data was it trained on? When did we last update it? Who trained it? A model registry answers all of these questions and provides the foundation for reproducible, auditable, and reliable ML deployment. It's essential infrastructure for any team running models in production.
The fundamental mathematical operation underlying all neural networks. Multiplying a weight matrix by an input vector (or matrix) produces an output vector. Every linear layer, every attention computation, and every embedding lookup is ultimately a matrix multiplication. The performance of AI hardware (GPUs, TPUs) is measured in how fast it can do matrix multiplications.
Why it matters: Understanding that neural networks are just sequences of matrix multiplications (with non-linearities in between) demystifies the entire field. It explains why GPUs are essential (they're parallel matrix multiplication machines), why model size is measured in parameters (the number of values in the weight matrices), and why FLOPs is the unit of compute (it counts the multiply-add operations in these matrix multiplications).
基礎

平行執行多個注意力操作,每個都有自己學習到的查詢、鍵和值的投影。多頭注意力將維度分割成多個「頭」(例如 4096 維模型的 32 個頭,每個 128 維)。每個頭可以同時專注於不同類型的關係。

為什麼重要:

多頭注意力是 Transformer 如此富有表現力的原因。每個頭可以專注於不同類型的關係 — 語法、位置、語意 — 同時捕捉多種依賴。

遮罩語言建模
MLM、遮罩 LM、填空任務
訓練

一種自監督訓練目標,將輸入中的隨機 token 替換為 [MASK] token,模型必須從上下文中預測原始 token。BERT 推廣了 MLM,創建了強大的文本理解模型。

為什麼重要:

MLM 是創建 BERT 及整個編碼器模型家族的訓練目標,至今仍為大多數生產環境中的搜尋、分類和嵌入系統提供動力。

模型合併
TIES、DARE、SLERP、Frankenmerge
訓練

將多個微調模型的權重組合成單一模型,無需任何額外訓練。流行方法包括 SLERP(球面線性插值)、TIES(解決符號衝突)和 DARE(合併前隨機丟棄參數)。

為什麼重要:

模型合併是開源社群的秘密武器。計算成本為零,卻能產生超越其組成部分的模型。Open LLM 排行榜上的許多頂級模型都是合併的結果。

N
基礎
人工智慧的一個分支,專注於讓機器能夠理解、詮釋和生成人類語言。NLP 涵蓋從基本文字處理(tokenization、stemming、part-of-speech tagging)到複雜任務,例如情緒分析、機器翻譯、總結與問答系統等。在 Transformers 出現之前,NLP 是由許多專業技術拼湊而成。如今,大型語言模型(LLMs)已將大多數 NLP 技術統一於一個架構之下——但這門領域的基礎仍然對於理解這些模型如何運作以及為何有效至關重要。
為什麼重要: NLP 是讓你能夠用日常英文與 AI 對話,並獲得有用回應的原因。每一個聊天機器人、每一個搜尋引擎、每一個翻譯服務、每一個 AI 寫作工具都是 NLP。即使你從未從頭開始建立 NLP 系統,理解基礎知識 — 分詞、注意力機制、嵌入向量、上下文 — 會讓你成為更擅長使用所有處理文字的 AI 工具的用戶。
NVIDIA
GPU、CUDA、H100/H200、NeMo
公司
其 GPU 驅動著幾乎所有 AI 訓練和大部分推理的公司。這家從顯示卡起家的公司成為 AI 產業中最關鍵的硬體供應商,一度讓 NVIDIA 成為全球市值最高的企業。
為什麼重要: NVIDIA 是那個如果不存在,AI 革命就根本不會發生的公司 —— 他們的 GPU 和 CUDA 軟體生態系統是幾乎每個主要 AI 模型訓練的基石。專為 AI 打造的硬體、十年深耕的軟體護城河,加上對連結 GPU 的網路架構的掌控,共同賦予了他們在 21 世紀最關鍵供應鏈中近乎壟斷的地位。當政府、企業和研究實驗室爭奪 AI 算力時,他們爭奪的就是 NVIDIA 的硬體,而這一個事實就讓黃仁勳昔日的顯示卡公司成為當今地球上策略地位最重要的科技公司。
基礎
一種大致受生物大腦啟發的計算系統,由多層互相連結的「神經元」(數學函數)組成,從資料中學習模式。資訊流經各層,逐步被轉換,直到網路產出輸出結果。每個現代 AI 模型都是某種類型的神經網路。
為什麼重要: 神經網路是所有 AI 背後的「如何做到的」。理解它們是數學(而非魔法,也非大腦)有助於去神秘化 AI 能做和不能做的事。它們是模式匹配器 —— 強大到不可思議的模式匹配器,但終究是模式匹配器。
Normalization
LayerNorm、RMSNorm、BatchNorm
訓練
透過將流經網路的數值正規化為一致的尺度來穩定神經網路訓練的技術。層正規化(LayerNorm)在每個樣本的特徵維度上進行正規化。RMSNorm 是其簡化變體。批次正規化(BatchNorm)在批次維度上進行正規化。每個 Transformer 都在層之間使用某種形式的正規化。
為什麼重要: 沒有正規化,深度網路極難訓練——啟動值可能在各層之間爆炸或消失,使梯度下降變得不穩定。正規化是那些不起眼但絕對必要的技術之一:從任何現代架構中移除它,訓練就會崩潰。
Named Entity Recognition
NER, Entity Extraction
Identifying and categorizing named entities in text — people, organizations, locations, dates, monetary amounts, and other proper nouns. In "Apple announced a $3B investment in Munich on Tuesday," NER identifies Apple (Organization), $3B (Money), Munich (Location), and Tuesday (Date). It's a foundational NLP task used in information extraction, search, and knowledge graph construction.
Why it matters: NER is the backbone of structured information extraction from unstructured text. Every search engine, news aggregator, and intelligence system uses NER to understand what a document is about. It's also the first step in building knowledge graphs from text — you can't build relationships between entities you haven't identified.
Negative Prompt
Negative Conditioning
A text description of what you don't want in a generated image, used alongside the main prompt. Prompt: "a beautiful landscape." Negative prompt: "blurry, low quality, text, watermark, people." The model actively steers away from concepts in the negative prompt during generation. Negative prompts are primarily used with Stable Diffusion and other open image generation models.
Why it matters: Negative prompts are one of the most effective tools for improving image generation quality. Without them, models tend to produce artifacts (blurry areas, extra fingers, text watermarks) because these appear frequently in training data. A well-crafted negative prompt eliminates common failure modes and gives you more control over the output without changing the positive prompt.
O
最佳化
模型最佳化、推論最佳化
訓練

用來讓AI模型更快、更小、更便宜或更準確的一系列廣泛技術。這包括訓練優化(混合精度、梯度檢查點、數據並行)、推論優化(量化、剪枝、蒸餾、預測解碼)和服務優化(批次處理、緩存、負載平衡)。優化技術讓你能在筆電上運行14B參數的模型。

為什麼重要: 如果無法負擔運行成本,原始能力毫無意義。優化正是區分研究演示與生產產品的關鍵—這也是開放權重模型能與API服務供應商競爭、行動AI存在的原因,以及為什麼推論成本持續下降。
OpenAI
GPT、ChatGPT、DALL-E、Sora
公司
ChatGPT 和 GPT 系列模型背後的公司。最初是一個非營利研究實驗室,當 ChatGPT 於 2022 年 11 月推出後,OpenAI 成為 AI 革命的公眾代言人。
為什麼重要: OpenAI 比任何其他組織都更成功地將 AI 從研究實驗室帶入了主流意識。ChatGPT 就是生成式 AI 的 iPhone 時刻 —— 那個讓數億人切身體會到大型語言模型能做什麼的產品。他們的 API 創建了數千家 AI 新創公司賴以建構的基礎設施層,而 GPT 系列多年來確立了擴展作為 AI 研究主導範式的地位。即便是 OpenAI 的爭議 —— 治理危機、從非營利轉向營利、安全導向研究員的離職 —— 也在塑造著關於 AI 公司應該如何組織和治理的更廣泛討論。
開放權重
開源 (AI 語境)
安全
當一家公司釋出模型的已訓練參數供任何人下載和運行。「開放權重」比「開源」更精確,因為大多數釋出的模型並不包含訓練資料或訓練程式碼 —— 你得到的是成品模型而非配方。Llama、Mistral 和通義千問都是開放權重模型。
為什麼重要: 開放權重意味著你可以在自己的硬體上以完全隱私運行 AI —— 不需要 API 呼叫,資料不會離開你的網路。代價是你需要 GPU 資源來運行它們,而且你必須自行負責安全。
訓練
模型過度記憶訓練資料而失去對新輸入泛化能力的現象。就像一個學生背熟了模擬考的答案卻無法解決新問題。模型在訓練資料上表現極佳,但在未見過的資料上表現糟糕。
為什麼重要: 過擬合是模型訓練中最常見的失敗模式。這就是為什麼評估要使用獨立的測試集,也是為什麼訓練太長(太多 epoch)實際上會讓模型變得更差。
A user-friendly tool for running language models locally with a single command. Ollama wraps llama.cpp in a Docker-like experience: ollama run llama3 downloads and runs Llama 3, automatically selecting the right quantization for your hardware. It manages model downloads, provides an API server, and handles hardware detection.
Why it matters: Ollama is to local AI what Docker is to containerization: it removed the friction. Before Ollama, running a local model meant choosing quantization levels, downloading GGUF files, configuring llama.cpp flags, and managing GPU offloading. Ollama handles all of this automatically. It's the fastest path from "I want to try running AI locally" to actually doing it.
Object Detection
YOLO, Bounding Box Detection
Identifying and localizing objects in images or video by drawing bounding boxes around them and classifying what each box contains. "There's a car at position (x1,y1,x2,y2) and a person at (x3,y3,x4,y4)." Unlike image classification (which says what's in the image), object detection says what's in the image and where — enabling counting, tracking, and spatial reasoning.
Why it matters: Object detection is the technology behind self-driving cars (detecting pedestrians, vehicles, signs), security cameras (person detection), retail analytics (counting shoppers), manufacturing quality control (detecting defects), and augmented reality (placing virtual objects relative to real ones). It's one of the most commercially deployed computer vision capabilities.
OCR
Optical Character Recognition, Text Recognition
Extracting text from images — photographs of documents, screenshots, signs, handwritten notes, or any image containing text. Modern OCR combines text detection (finding where text appears in the image) with text recognition (reading what the text says). Deep learning OCR handles curved text, multiple languages, varied fonts, and poor image quality far better than older rule-based approaches.
Why it matters: OCR digitizes the physical world. Scanning receipts for expense tracking, reading documents for archival, extracting data from forms, translating signs in real-time, and making image-based PDFs searchable all depend on OCR. Combined with LLMs, OCR enables sophisticated document understanding — not just reading text but understanding invoices, contracts, and reports.
P
參數
權重、模型參數
基礎
神經網絡在訓練過程中學習到的內部值 — 本質上是將模型的「知識」編碼為數字。當有人說一個模型有「70 億 參數」時,意思是這70 億 個獨立數值是在訓練過程中調整的,用以捕捉數據中的模式。更多的參數通常意味著學習複雜模式的潛力更大,但也需要更多的記憶體來儲存,以及更多的計算資源來運行。
為什麼重要: 參數數量是最常見的模型大小簡稱,它直接決定您需要多少GPU記憶體。一個7B模型在16位精度下,僅權重就需要約14GB的顯存。理解參數能幫助您估算成本、選擇硬體,並理解為何量化(降低每個參數的精準度)對讓模型更容易取得如此重要。
PixVerse
PixVerse 影片生成
公司
中國影片生成公司,打造易於使用的 AI 影片工具。以生成速度快和免費方案聞名,幫助他們在國際市場上快速建立龐大的用戶基礎。
為什麼重要: PixVerse 證明了 AI 影片生成可以成為大眾市場產品,而不僅僅是專業人士和早期採用者的工具。他們積極的免費方案和快速迭代週期迫使整個類別重新思考定價和可及性。在一年之內建立起 AI 影片領域最大的用戶基礎之一,他們展示了分發能力和執行速度可以與純粹的模型品質同等重要,決定誰能贏得這個市場。
Perplexity
AI 驅動的搜尋引擎、Sonar API
公司
AI 搜尋引擎,結合即時網路搜尋與語言模型推理,直接給出附有來源的答案,而非一串連結。一個世代以來對 Google 搜尋霸權最具可見度的挑戰。
為什麼重要: Perplexity 是十多年來對 Google 搜尋霸權最具可信度的挑戰,證明了 AI 原生的答案引擎可以為資訊搜尋查詢提供根本性的更好體驗。他們將檢索增強生成範式推廣為消費者產品,展示了將即時網路搜尋與 LLM 推理相結合可以產出比單獨使用任一技術都更有用且更可信的結果。他們的快速增長迫使 Google、Microsoft 及所有搜尋業者重新思考在大型語言模型時代搜尋引擎應該是什麼樣子。
訓練
初始的大規模訓練階段,模型從龐大的語料庫中學習語言(或其他模態)。這是最昂貴的部分 —— 數千顆 GPU 運行數週或數月,耗資數百萬美元。結果是一個理解語言但尚未針對任何任務特化的基礎模型。
為什麼重要: 預訓練是基礎模型得以存在的根基。也是為什麼只有少數幾家公司能創建前沿模型 —— 算力成本是天文數字。其他一切(微調、RLHF、提示工程)都建立在這個基礎之上。
使用AI
精心設計輸入以從 AI 模型獲得更好輸出的實踐。從簡單技巧(具體明確、提供範例)到進階方法(思維鏈、少樣本提示、角色指定)都涵蓋在內。儘管名稱花俏,本質上是與統計系統清晰溝通。
為什麼重要: 同一個模型可以因為你的提問方式不同而給出截然不同的結果。好的提示工程是提升 AI 輸出品質最低成本的方式 —— 不需要訓練、不需要微調,只是更好的溝通。
Perplexity (Metric)
困惑度、PPL
基礎
衡量模型預測文字能力的指標。exp(平均交叉熵損失)。代表「模型在多少個詞元中做選擇」。越低越好。
為什麼重要: 比較原始文字建模能力最基礎的指標。但無法衡量實用性或安全性。
Prompt
提示詞
基礎
你提供給 AI 模型以獲取回應的文字。提示詞可以是一個問題、一條指令、一份創意摘要,或是一段你想要解釋的程式碼。其品質直接決定了輸出的品質。
為什麼重要: 提示詞就是介面。模糊的提示詞得到模糊的回答;具體的提示詞則能從同一個模型中提取出專家級的輸出。有效使用 AI 的第一步。
Positional Encoding
位置嵌入、RoPE、ALiBi
基礎
一種告知 Transformer 模型序列中 token 順序的機制。與按序列處理 token 的 RNN 不同(因此位置是隱式的),Transformer 平行處理所有 token,沒有固有的順序概念。位置編碼注入位置資訊,使模型知道「狗咬人」和「人咬狗」是不同的。
為什麼重要: 沒有位置資訊,Transformer 會將句子視為詞袋——詞序消失。位置編碼的選擇也決定了模型處理比訓練時見過的更長序列的能力,這就是為什麼 RoPE 和 ALiBi 等技術對長上下文模型至關重要。
Prompt Caching
Context Caching, Prefix Caching
A technique that saves and reuses the processed version of a prompt prefix across multiple API calls, avoiding redundant computation. If you send the same system prompt and document context with every request (which is common), prompt caching processes it once and reuses the cached computation for subsequent requests. This reduces both latency and cost.
Why it matters: Most AI applications send the same system prompt, few-shot examples, or reference documents with every request. Without caching, the provider processes this identical prefix every single time. Prompt caching can cut input token costs by 50–90% and reduce time-to-first-token significantly. For high-volume applications, this translates to thousands of dollars saved per month.
Prompt Injection
Indirect Prompt Injection
An attack where malicious instructions are embedded in content that an AI model processes, causing the model to follow the attacker's instructions instead of the user's or developer's. Direct injection: the user types malicious instructions. Indirect injection: malicious instructions are hidden in a website, document, or email that the model reads as part of its task.
Why it matters: Prompt injection is the most critical security vulnerability in AI applications. Any app that lets an LLM process untrusted content (emails, web pages, uploaded documents) is potentially vulnerable. There is currently no complete solution — only mitigations. If you're building AI-powered applications, understanding prompt injection is as important as understanding SQL injection was for web development.
Precision & Recall
F1 Score, Confusion Matrix
Two complementary metrics for evaluating classifiers. Precision answers "of the items the model flagged as positive, how many actually are?" Recall answers "of all the actual positives, how many did the model find?" A spam filter with high precision rarely marks real email as spam. One with high recall catches most spam. The F1 score is their harmonic mean — a single number that balances both.
Why it matters: Accuracy alone is misleading. A model that never predicts "fraud" achieves 99.9% accuracy if only 0.1% of transactions are fraudulent — but it's completely useless. Precision and recall reveal the trade-offs: catching more fraud (higher recall) means more false alarms (lower precision), and vice versa. Every classification system in production is tuned based on this trade-off.
Pose Estimation
Body Pose, Skeleton Detection, Keypoint Detection
Detecting the position and orientation of a human body (or animal, hand, face) in an image or video by locating key anatomical points — joints, facial landmarks, fingertips. The output is a skeleton: a set of connected keypoints representing the body's pose. OpenPose, MediaPipe, and YOLO-Pose are popular implementations.
Why it matters: Pose estimation enables: fitness apps that analyze exercise form, sign language recognition, motion capture for animation, gesture control interfaces, sports analytics, and fall detection for elderly care. In AI image generation, pose skeletons serve as ControlNet inputs — you specify the exact body pose you want and the model generates a person in that pose.
PagedAttention
分頁注意力
基礎設施

一種借鑑作業系統虛擬記憶體的 KV 快取記憶體管理技術。PagedAttention 將快取儲存在非連續的區塊(「頁面」)中,按需分配,且可在具有共同前綴的請求之間共享。

為什麼重要:

PagedAttention 是 vLLM 背後的創新,透過消除碎片化造成的記憶體浪費,將服務吞吐量提高了 2–4 倍。

池化
最大池化、平均池化
基礎

一種透過將區域總結為單一值來減少資料空間維度的操作。最大池化取最大值,平均池化取平均值。在 CNN 中用於降採樣,在 Transformer 中用於將 token 表示組合成單一向量。

為什麼重要:

池化是神經網路從局部特徵到全域理解的方式。在 NLP 中,平均池化是建立單一句子嵌入的標準方法。

Q
量化
GGUF、GPTQ、AWQ
基礎設施
降低模型的精度使其更小更快。以 32 位元浮點數訓練的模型可以被量化到 8 位元、4 位元甚至更低 —— 大小縮減 4-8 倍且品質損失驚人地小。GGUF 是透過 llama.cpp 進行本地推理的流行格式。
為什麼重要: 量化使得在單張 GPU 甚至筆電上運行 140 億參數模型成為可能。沒有它,開放權重模型對大多數人來說將無法使用。Q4_K_M 和 Q5_K_M 變體在大小與品質之間取得了最佳平衡。
Question Answering
QA, Reading Comprehension
A system that answers questions posed in natural language. Extractive QA finds the answer span within a given document ("According to paragraph 3, the answer is..."). Generative QA synthesizes an answer from one or more sources. Open-domain QA answers any question without a specific document. RAG-based QA retrieves relevant documents and generates answers from them.
Why it matters: Question answering is the fundamental interaction pattern for AI assistants. Every chatbot, every enterprise knowledge base, every customer support bot is essentially a QA system. Understanding the different QA paradigms (extractive, generative, retrieval-augmented) helps you choose the right architecture for your application and set realistic expectations about accuracy.
R
訓練
一種訓練架構,其中AI代理透過與環境互動、執行動作並獲得獎勵或懲罰來學習。不同於監督學習(透過標記過的範例學習),強化學習是從經驗中學習——透過試錯。強化學習讓AlphaGo擊敗世界冠軍,教導機器人行走,並是RLHF中的「RL」,讓聊天機器人變得有用。
為什麼重要:

強化學習是 AI 學習如何行動的方式,而不僅僅是預測—它是能夠回答問題的模型與能夠達成目標的智能體之間的橋樑。任何需要規劃、策略制定或長期最佳化的 AI 系統,皆有強化學習的血脈。

推理
AI 推理、思維鏈推理
使用AI

AI模型能夠逐步思考、分解複雜問題,並得出邏輯嚴謹的結論。現代推理模型(如OpenAI的o1/o3與DeepSeek-R1)在回答前會經過訓練以生成明確的推理過程,大幅提升了在數學、程式設計與邏輯任務上的表現。這與單純的模式匹配不同——推理模型可以解決從未見過的問題。

為什麼重要: 推理是區分‘聽起來聰明的AI’與‘真正聰明的AI’的前沿能力。推理能力強的模型可以除錯程式碼、證明定理、規劃多步驟策略,並發現自己的錯誤。目前,具備強大推理能力與缺乏此能力的模型之間的差距,是AI領域中最重要的品質差異因素。
Resemble AI
語音複製、語音合成、浮水印技術
公司
加拿大語音AI公司,專注於高保真語音克隆與即時語音合成。率先推出神經音頻水印技術用於深度偽造檢測,從一開始就重視語音克隆的倫理影響。
為什麼重要: Resemble AI 的重要性在於他們早期就意識到,缺乏安全基礎設施的語音克隆是一種負擔,而非產品。透過在語音合成工具中同時推出深度偽造檢測與神經水印技術,他們建立了一套負責任的語音 AI 範本,整個產業現在正急於跟進。隨著全球對合成媒體的監管日益嚴格,Resemble 在來源驗證與同意確認方面的先發優勢,使他們成為企業實際上可以信賴的語音 AI 公司。
Reka
Reka Core、Reka Flash
公司
由前DeepMind、Google Brain與FAIR研究人員創立的人工智慧研究公司。正在開發原生多模態模型,能夠從頭開始處理文字、圖片、視頻和音頻。
為什麼重要:

Reka證明了一支規模小、專注於研究且具備適當資歷的團隊,即使沒有數十億資金,也能打造出尖端級別的多模態模型 — 並顯示原生多模態架構從頭開始訓練,其表現可超越大多數較大實驗室所採用的接駁式方法。他們從成立到被Snowflake收購的快速發展軌跡,也揭示了企業數據平台如今對AI人才產生的強大吸引力,暗示多模態AI的未來可能將在數據基礎設施公司內實現,而非獨立研究實驗室中。

Recraft
Recraft V3、向量圖形生成
公司
專注於專業級影像和向量圖形生成的 AI 設計工具。最早產出真正可用的設計素材的公司之一 —— SVG、品牌一致的風格以及設計師實際想要使用的可投入生產的輸出。
為什麼重要: Recraft 是少數為專業設計師而非病毒式社群媒體時刻而打造的 AI 公司,並證明了這種方法可以產出最先進的成果。他們聚焦於可投入生產的輸出 —— 乾淨的向量、品牌一致性、透明背景 —— 填補了其他影像生成公司都未認真解決的缺口,使他們成為業界最接近真正設計工具而非藝術玩具的存在。
Runway
Gen-1、Gen-2、Gen-3 Alpha
公司

先驅的AI視頻生成公司。共同創建了最初的Stable Diffusion架構,之後轉向視頻領域,其Gen系列模型確立了AI電影製作工具的最新技術水準。

為什麼重要:

Runway 是將 AI 視頻生成從研究興趣轉化為電影製作工具的公司,以持續推出模型的速度,即使資金雄厚的競爭對手進入這個領域,仍能保持在技術前沿。他們以創意工具為先的基因——源自藝術家,而不僅僅是工程師——使他們對專業工作流程有深入理解,這一點純粹的研究機構難以複製。他們選擇投注於建立一個綜合性平台,而非僅僅開發一個模型,這或許會成為正確的長遠戰略。

RAG
檢索增強生成
工具
一種在生成回應前先檢索相關文件來為 AI 模型提供外部知識的技術。RAG 不只依賴模型在訓練期間學到的知識,而是搜尋知識庫、找到相關片段,並將其作為上下文放入提示中。
為什麼重要: RAG 解決了兩個主要問題:幻覺(模型有真實的來源可以參考)和知識截止(知識庫可以在不重新訓練的情況下更新)。這是大多數企業 AI 實際運作的方式。
基礎設施
對每分鐘/每小時/每天能發出多少 API 請求的限制。供應商施加速率限制以防止伺服器過載並確保公平使用。限制通常按 API 金鑰套用,可以限制每分鐘請求數(RPM)和每分鐘 token 數(TPM)。
為什麼重要: 速率限制是你在擴展 AI 應用時碰到的隱形天花板。這就是為什麼批次處理很重要、為什麼你需要重試邏輯、也是為什麼某些供應商會為更高的速率限制收取更多費用。
安全

刻意嘗試讓AI模型失敗、行為不當或產生有害輸出的實踐方式。紅隊會探測潛在漏洞:越獄、偏見、錯誤資訊生成、隱私洩漏等。此名稱源自軍事推演中「紅隊」扮演敵對方的傳統。

為什麼重要:

你無法解決你不知道的問題。紅隊測試(red teaming)是供應商發現其模型會在你要求它「寫一個關於鎖匠的故事」時,解釋如何開鎖的方法。這是在每次重大模型發布前進行的關鍵安全工作。

RLHF
基於人類回饋的強化學習
訓練
一種訓練技術,由人類評估員對模型輸出按品質排序,這些回饋用於訓練一個獎勵模型,引導 AI 產出更好的回應。它將一個只會預測下一個詞的原始預訓練模型轉變為有用且無害的助理。
為什麼重要: RLHF 是讓 ChatGPT 感覺與 GPT-3 不同的秘密武器。基礎模型已經「知道」一切,但 RLHF 教會了它以人類真正覺得有用的方式呈現知識。它也是安全行為得到強化的方式。
RNN
遞迴神經網路、LSTM、GRU
模型
一種透過維護在每一步更新的隱藏狀態來處理序列的神經網路——它「記住」迄今看到的內容。LSTM 和 GRU 是改進的變體,解決了原始 RNN 容易忘記長距離依賴關係的問題。在 2018 至 2020 年左右 Transformer 取代它們之前,RNN 主導了 NLP 和語音領域。
為什麼重要: RNN 是現代語言模型的祖先。理解它們為何失敗(緩慢的序列處理、長距離依賴的困難)可以解釋 Transformer 為何成功(平行處理、對所有位置的注意力)。SSM/Mamba 架構在某些方面是以現代修正回歸 RNN 理念的體現。
Reward Model
RM, Preference Model
A model trained to predict human preferences between AI responses. Given a prompt and two candidate responses, the reward model scores which response humans would prefer. In the RLHF pipeline, the reward model provides the signal that trains the language model to produce better responses — it's the learned proxy for human judgment.
Why it matters: The reward model is the key component that makes RLHF work. You can't have a human rate every response during training (too slow, too expensive), so you train a model to approximate human preferences and use that as the training signal. The quality of the reward model directly determines the quality of alignment — a bad reward model produces a model that optimizes for the wrong things.
Retrieval
Information Retrieval, IR
The process of finding relevant documents, passages, or data from a large collection in response to a query. In AI, retrieval is the "R" in RAG — the step where relevant context is fetched before being given to a language model. Retrieval can use keyword matching (BM25), semantic similarity (embeddings), or hybrid approaches combining both.
Why it matters: Retrieval is what makes LLMs practical for real-world applications. A model's internal knowledge is static, incomplete, and sometimes wrong. Retrieval gives it access to current, accurate, domain-specific information at inference time. The quality of your retrieval pipeline directly determines the quality of your RAG system — the best LLM can't produce good answers from bad context.
殘差連接
跳躍連接、捷徑連接
基礎

一種繞過一個或多個層的連接,透過將輸入直接加到輸出:output = layer(x) + x。每一層不需要學習完整的轉換,只需要學習「殘差」— 與恆等函數之間的差異。殘差連接存在於每個 Transformer 層中,是訓練深度網路的關鍵。

為什麼重要:

沒有殘差連接,深度網路幾乎不可能訓練 — 梯度會在多層之間消失或爆炸。殘差連接提供了一條梯度高速公路,讓資訊可以直接從早期層流向後期層。

RLAIF
來自 AI 回饋的強化學習
訓練

RLHF 的一個變體,其中偏好標籤來自 AI 模型而非人類標註員。一個強大的 AI 模型比較回應對並指出哪個更好,將對齊擴展到超越人類標註的瓶頸。

為什麼重要:

RLAIF 是對齊如何擴展的關鍵。AI 回饋即時、便宜且不知疲倦。Constitutional AI(Anthropic)使用 RLAIF 作為核心組件。

S
諂媚行為
AI 諂媚、過度迎合
安全
AI模型傾向於告訴用戶他們想聽的,而不是事實。阿諛模型會同意錯誤的前提,驗證壞主意,即使最初正確,當受到質疑時也會改變立場,並優先考慮被喜愛而非提供幫助。阿諛是RLHF訓練的直接副作用—模型學到討喜的回應會獲得人類評估者的更高評分,因此優化的是共鳴而非準確性。
為什麼重要: 諂媚是AI中最隱蔽的失敗模式之一,因為被奉承的用戶往往無法察覺。如果你問一個模型「這不是一個很棒的商業點子嗎?」而它總是回答「是」,你得到的是一面鏡子,而不是顧問。對抗諂媚是對齊研究的活躍領域,這也是為什麼最好的模型會在適當的時候被訓練成能禮貌地不同意。
安全
對大型語言模型的批評指出,它們僅僅是高階的模式匹配器,僅能拼接出看似合理但缺乏真正理解的文本。這個術語由艾米莉·班德(Emily Bender)、蒂米妮特·格布魯(Timnit Gebru)及其同事在其具有影響力的2021年論文《On the Dangers of Stochastic Parrots》中提出,該論文警告說,大型語言模型會從訓練數據中編碼偏見,消耗龐大的資源,並產生一種理解的幻覺,導致使用者過度信任他們。
為什麼重要: 機率八哥的爭議直指AI實際上「理解」的是什麼。LLMs究竟是真正進行推理,還是僅僅擅長統計模仿,這將影響我們如何部署它們、對其輸出的信任程度,以及如何監管它們。這也是批評者評估每一項新功能聲稱的透鏡——這是否是真正的進步,還是一個更具說服力的八哥?
AI 垃圾內容
AI Slop、生成式垃圾內容
安全
低品質、泛泛而談、不想要的AI生成內容,充斥於網際網路。這個詞語在2024年出現,作為對劣質AI文字、圖片和影片浪潮的貶義詞,這些內容污染了搜尋結果、社群媒體動態和線上市場。Slop是AI版本的垃圾郵件——技術上被稱為「內容」,卻毫無價值,往往與其他slop難以區分,並降低每個接觸平台的品質。例如以「在這個快節奏的世界裡」開頭的LinkedIn貼文、有六指手的股票照片,或是在2000字內毫無內容的SEO文章。
為什麼重要: 劣質內容是讓內容創作變得免費所付出的環境代價。當任何人都能在幾分鐘內生成1,000篇部落格文章或10,000張產品圖片時,內容創作的經濟模式便崩解——品質也隨之崩解。劣質內容正是平台競相開發AI檢測技術的原因,也是Google持續更新搜尋演算法的原因,更是「人工製作」逐漸成為賣點的原因。這也是對「AI將民主化創造力」這種天真的敘事最強有力的反駁。
階躍星辰
Step 系列模型、多模態 AI
公司
中國AI新創公司正在開發具競爭力的大型語言和多模態模型。其Step系列在國際基準測試中表現出色—並依靠大量的計算資源投入支持。
為什麼重要:

StepFun證明了中國的人工智慧生態系統可以從零開始孕育出真正的競爭對手,而不僅僅依賴現有的科技巨頭。他們的Step模型在國際基準測試中持續表現超出其實力,而他們快速拓展至多模態與視頻生成領域,也顯示出組織良好的新創公司即使資源相對有限,也能涵蓋廣泛的能力範疇。對全球人工智慧市場而言,StepFun代表了那種讓中國獨立AI新創生態無法被忽視的公司——技術實力雄厚、具備國際化導向,且前進速度足夠迅速,讓規模更大的競爭對手不敢掉以輕心。

SambaNova
SN40L 晶片、超快速推論
公司

專門設計自訂晶片(RDUs)用於 AI 工作負載的人工智慧硬體公司。他們的 SambaNova Cloud 提供目前最快的推理速度,與 Groq 在「speed-first」方法上競爭。

為什麼重要:

SambaNova 的重要性在於 NVIDIA 應該不是 AI 計算領域中唯一的玩家,而且需要有人證明專為 AI 設計的晶片能夠在現實市場中競爭,而不僅僅停留在研究論文裡。他們的 RDU 架構證明了當你專門為神經網絡工作負載設計矽晶片時,可以實現有意義的效能提升,而他們的雲端推理服務則讓開發者一窺後 GPU 時代 AI 基礎設施的樣貌。無論 SambaNova 本身是否會成為主導的替代方案,它與 Groq、Cerebras 以及雲端供應商的客製化晶片所帶來的競爭壓力,對一個無法負擔永久硬體單一文化的產業來說,都是健康的。

Sarvam AI
Sarvam 模型、印度語言 AI
公司

印度的人工智慧公司正在開發特別針對印度語言多樣性進行最佳化的模型。他們的模型能夠流暢處理印地語、泰米爾語、泰盧固語、孟加拉語等其他印度語言,達到全球模型一直難以應對的流暢度。

為什麼重要:

Sarvam AI 是對全球 AI 產業大多忽略的一個問題最可信的解答:究竟誰在為實際上被全球五分之一人口使用的語言建立基礎模型?Sarvam 深植於印度 AI 研究社群、政府合作,並擁有專為印度語言多樣性設計的產品架構,代表著一個商業機會與戰略要務。他們的成功或失敗將標誌 AI 革命是否真正實現全球化,還是僅僅停留在以英語為首、強行附加翻譯的現象。

Stability AI
Stable Diffusion、SDXL、Stable Audio
公司
在2022年將Stable Diffusion作為開放原始碼釋出,從而普及影像生成技術的公司。儘管經歷領導層波動,其模型仍是開放原始碼影像生成生態系統的核心。
為什麼重要: Stability AI 透過釋出 Stable Diffusion 引發了開放原始碼影像生成革命,創造出數千個衍生模型、工具與創意應用的生態系統,這是任何封閉平台都無法匹敵的。即使經歷領導層動盪與財務波動,他們的基礎押注—生成式 AI 應該讓所有人都能使用,而不僅僅是那些負擔得起 API 調用的人—重塑了整個產業,並為開放原始碼 AI 公司的運作方式設定了範本。
Suno
AI 音樂生成
公司

讓任何人都能透過文字提示創作完整的歌曲——人聲、樂器、製作——的AI音樂生成公司。數個月內從無人知曉成長至數百萬用戶,迫使音樂產業正面應對AI創造力的挑戰。

為什麼重要: Suno證明了AI可以僅透過文字提示生成完整且可聆聽的歌曲,一夜之間創造出全新的創意工具類別。他們處於生成式AI最關鍵的版權戰爭中心,RIAA訴訟的結果很可能為所有模態的訓練數據權利設定先例。更廣泛而言,他們代表了最尖銳的測試案例,用以評估民主化創意工具是能擴展人類表達還是會破壞專業藝術家賴以維生的經濟基礎。
模型

Transformers 的替代方案,透過維持壓縮的「狀態」來處理序列,而非對所有 token 使用注意力機制。Mamba 是最著名的 SSM 架構。SSMs 的序列長度擴展為線性(與注意力機制的二次方相比),使其在處理非常長的上下文時可能更加高效。

為什麼重要: SSMs 是 Transformer 主導地位的主要挑戰者。它們在處理長序列時速度更快且記憶體使用量更低,但相關研究仍處於成熟階段。混合架構(將 SSM 層與注意力機制結合)可能最終實現兩者的最佳結合。
系統提示詞
系統訊息
使用AI

在對話開始時給予模型的一個特殊指示,用以設定其行為、性格和規則。與用戶訊息不同,系統提示語應具備持久性和權威性 — 它定義了此會話中模型的身分。「你是一個有助益的程式編寫助手。請始終使用 TypeScript。」

為什麼重要:

系統提示是不進行微調即可自訂 AI 行為的主要工具。企業就是藉由此方式讓 Claude 做為客服專員、程式碼審查員或醫療資訊助理 — 相同模型,不同系統提示。

Scaling Laws
縮放定律、Chinchilla
基礎
冪律關係,顯示效能隨著模型大小、資料集大小和算力的增加而可預測地提升。你可以在花費數百萬之前估算效能。
為什麼重要: 將訓練從猜測變成了工程。解釋了 AI 軍備競賽:算力的可預測回報驅動了越來越大的叢集。
Self-Supervised Learning
SSL、自監督式學習
訓練
一種模型從未標記資料中自行生成監督訊號的訓練方法。隱藏輸入的一部分,訓練模型預測被隱藏的部分。
為什麼重要: 自監督式學習是使現代 AI 成為可能的突破。它開啟了在整個網際網路上訓練的可能性,而不必依賴昂貴的人工標記資料集。
Speculative Decoding
推測性解碼、輔助生成
基礎設施
小型草稿模型生成候選詞元,大型模型一次性驗證所有候選。速度提升 2–3 倍,輸出品質完全相同。
為什麼重要: AI 推理中少數的「免費午餐」之一。數學上完全相同的輸出,只是更快。
Streaming
串流、SSE
使用AI
在生成時逐詞元發送輸出,透過 HTTP 上的 SSE。這就是為什麼文字在聊天介面中是逐字出現的。
為什麼重要: 10 秒的逐漸顯示文字感覺正常;10 秒的空白畫面感覺壞掉了。串流也讓使用者可以提早中斷。
Structured Output
結構化輸出、JSON 模式
使用AI
讓 AI 以機器可解析的格式(JSON、XML、schema)回應。大多數供應商都原生支援:定義一個 schema,模型保證符合。
為什麼重要: 從聊天機器人轉向應用程式需要結構化輸出。你的程式碼無法解析自由格式的文字。
Supervised Learning
監督式學習
訓練
一種使用標記範例進行訓練的方法 — 即提供正確答案的輸入-輸出配對。模型調整其參數,以最小化其預測與已知正確答案之間的差異。
為什麼重要: 監督式學習是最直觀的機器學習形式,也是大多數實際應用的主力:垃圾郵件過濾、醫學影像分析、詐欺偵測,以及 LLM 的微調階段。
Synthetic Data
合成資料
訓練
由 AI 模型生成的訓練資料。已成為訓練管線中的標準做法。
為什麼重要: 真實的標記資料很昂貴。前沿模型可以在一夜之間生成數百萬個範例。品質控制至關重要。
Softmax
Softmax 函數、正規化指數
基礎
一個將原始數值向量(logits)轉換為機率分布的函數——所有值變為正值且總和為 1。Softmax 放大值之間的差異:最大的輸入獲得最高機率,較小的輸入獲得指數級更小的機率。它出現在注意力機制、分類輸出和 token 預測中。
為什麼重要: Softmax 在現代 AI 中無處不在。每當語言模型預測下一個 token 時,softmax 都會將原始模型輸出轉換為機率。每個注意力頭使用 softmax 來計算注意力權重。每個分類器使用 softmax 來產生類別機率。理解 softmax 有助於理解溫度、top-p 取樣,以及為什麼模型即使錯誤也會「自信滿滿」。
公司
最大的 AI 資料標註公司,提供大多數主要 AI 模型所依賴的人工標註訓練資料。Scale AI 為自動駕駛、政府和 AI 公司標註影像、文本、影片和 3D 資料。他們還提供評估服務、RLHF 資料收集和微調用的資料整理。主要客戶包括 OpenAI、Meta、美國國防部和眾多自動駕駛汽車公司。
為什麼重要: Scale AI 在 AI 供應鏈中佔據關鍵位置:介於原始資料和已訓練模型之間。標註資料的品質直接決定模型品質,而 Scale 是最大的供應商。他們的 RLHF 資料收集服務意味著他們實際上在幫助塑造 AI 模型的對齊方式——訓練 Claude、GPT 和其他模型的人類偏好往往透過 Scale 等標註平台產生。
Sparse Attention
Local Attention, Sliding Window Attention
Attention mechanisms that process only a subset of token pairs instead of the full N×N attention matrix. Sliding window attention attends to only nearby tokens (within a fixed window). Sparse patterns (like Longformer's combination of local + global attention) let specific tokens attend to everything while most tokens attend locally. These approaches reduce attention's quadratic cost for long sequences.
Why it matters: Sparse attention is how Mistral, Mixtral, and other efficient models handle long sequences without the full cost of dense attention. It's the practical compromise between "attend to everything" (expensive but thorough) and "attend to nothing distant" (cheap but limited). Understanding sparse attention helps you evaluate claims about context length and predict where quality degradation might occur.
Sampling
Decoding Strategy, Top-p, Top-k
The process of selecting which token to generate next from the model's predicted probability distribution. Greedy decoding always picks the most likely token. Random sampling picks proportionally to probabilities. Temperature, top-p (nucleus), and top-k are controls that adjust the randomness and diversity of the selection. The sampling strategy dramatically affects output quality, creativity, and consistency.
Why it matters: Sampling parameters are the most accessible knobs for controlling LLM behavior. Temperature 0 for deterministic code generation. Temperature 0.7 for creative writing. Top-p 0.9 for a good balance. These aren't magic numbers — they directly control which tokens the model considers at each step. Understanding sampling helps you tune outputs for your specific use case.
Sentiment Analysis
Opinion Mining
Automatically determining the emotional tone of text — positive, negative, or neutral. "This product is amazing!" is positive. "Terrible customer service" is negative. Beyond simple polarity, advanced sentiment analysis detects specific emotions (anger, joy, frustration), aspect-level sentiment ("the food was great but the service was slow"), and sarcasm.
Why it matters: Sentiment analysis is one of the most commercially deployed NLP applications. Companies use it to monitor brand perception on social media, analyze customer reviews at scale, gauge employee satisfaction in surveys, and detect emerging PR crises. It's also a common entry point for learning NLP — a simple, intuitive classification task with abundant training data.
Stable Diffusion
SD, SDXL, SD3
The most widely used open-source image generation model, created by Stability AI in collaboration with academic researchers. Stable Diffusion generates images from text prompts using latent diffusion — performing the denoising process in a compressed latent space rather than pixel space, making it fast enough to run on consumer GPUs. SD 1.5, SDXL, and SD3 represent successive generations.
Why it matters: Stable Diffusion democratized AI image generation. Before SD, image generation required expensive API access (DALL-E) or was limited to research. SD's open weights meant anyone could run it locally, fine-tune it, and build on it. This spawned an enormous ecosystem: LoRA fine-tunes, ControlNet, custom models, community-trained checkpoints, and applications from Automatic1111 to ComfyUI.
Style Transfer
Neural Style Transfer
Applying the visual style of one image (a painting, a photograph, a design) to the content of another image. "Make this photo look like a Van Gogh painting" is style transfer. Neural style transfer uses deep networks to separate content (what's in the image) from style (how it looks) and recombine them.
Why it matters: Style transfer was one of the first viral AI art applications and remains widely used in photo editing apps, social media filters, and creative tools. Understanding it helps you understand how neural networks represent visual features at different levels of abstraction — the same insight that powers modern image generation.
Super Resolution
Upscaling, Image Enhancement, SR
Increasing the resolution of an image by generating plausible detail that wasn't in the original. A 256×256 photo becomes a sharp 1024×1024 image. AI super resolution doesn't just interpolate pixels (which produces blur) — it hallucinate realistic texture, edges, and fine detail based on what it learned from high-resolution training images.
Why it matters: Super resolution has immediate practical applications: enhancing old photos, upscaling video game textures, improving security camera footage, preparing low-res images for print, and as a post-processing step in AI image generation pipelines. Real-ESRGAN and similar models can dramatically improve image quality with a single inference pass.
Speaker Diarization
Who Spoke When
Determining who spoke when in an audio recording with multiple speakers. Given a meeting recording, diarization segments it into "Speaker A: 0:00–0:15, Speaker B: 0:15–0:32, Speaker A: 0:32–0:45." Combined with speech recognition, this produces speaker-attributed transcripts — essential for meeting minutes, interview transcription, and call center analytics.
Why it matters: Speech recognition alone produces a wall of text with no indication of who said what. Diarization adds the structure that makes transcripts useful: you can search for what a specific person said, summarize each speaker's contributions, and analyze conversational dynamics (who talks most, who interrupts). It's essential for any multi-speaker audio application.
自注意力
縮放點積注意力
基礎

一種注意力機制,其中序列會關注自身 — 每個 token 計算與同一序列中其他所有 token 的相關性。查詢、鍵和值都來自相同的輸入。自注意力是每個 Transformer 層的核心操作。

為什麼重要:

自注意力是 Transformer 運作的關鍵。它用平行的、所有位置之間的直接連接取代了 RNN 的序列處理。

模型

一個經過訓練的神經網路,透過帶有稀疏性約束的瓶頸來重建模型的內部激活 — 一次只有少數特徵可以啟動。學習到的特徵通常對應於可解釋的概念,使 SAE 成為解開大型語言模型內部疊加特徵的主要工具。

為什麼重要:

稀疏自編碼器是機制可解釋性的顯微鏡。SAE 將 LLM 中疊加的表示分解為個別的、可解釋的特徵。

SwiGLU
門控線性單元、GLU 變體
基礎

現代 Transformer 前饋層中使用的門控激活函數。SwiGLU 將 SiLU/Swish 激活與門控機制結合,讓網路學習哪些資訊要通過,始終優於標準的 ReLU 或 GELU 前饋層。

為什麼重要:

SwiGLU 是 LLaMA、Mistral、Qwen、Gemma 及大多數現代 LLM 使用的前饋激活函數。

Sigmoid
邏輯函數、S 型函數
基礎

一個數學函數,將任何實數壓縮到 (0, 1) 的範圍:σ(x) = 1 / (1 + e^(−x))。歷史上是神經網路的預設激活函數,現在仍用於二元分類輸出、門控機制和類注意力操作。

為什麼重要:

Sigmoid 在 AI 中無處不在。LSTM 門使用 sigmoid。SiLU/Swish 激活是 x · sigmoid(x)。理解它是神經網路設計的基礎知識。

T
騰訊
混元大模型、微信、遊戲 AI
公司

微信背後的中國科技巨擘,也是全球最大的遊戲公司之一,並逐漸成為生成式AI領域的重要力量。其Hunyuan模型驅動著騰訊龐大的生態系統中的各項功能,服務超過十億用戶。

為什麼重要:

騰訊在AI領域之所以重要,原因與其在其他領域之所以重要相同:規模與分發能力。憑藉微信達成13億用戶,以及橫跨所有主要平台的遊戲帝國,騰訊能以比地球上幾乎任何公司都更快的速度,將AI功能部署到更多人手中。其Hunyuan模型,尤其是HunyuanVideo已證明,企業集團的AI實驗室可以產出真正具競爭力的作品,而不僅僅是可用的內部工具。對全球AI生態系統而言,騰訊開放源碼釋出的視頻與語言模型提高了自由可用技術的基準,而其基礎設施投資確保了中國的人工智慧能力,即使面對晶片出口限制,仍保持強大。

Twelve Labs
影片檢索、Pegasus、Marengo
公司
視頻理解公司,讓您能使用自然語言來搜索、分析和生成視頻內容。可以把它想成是「視頻的 RAG」— 他們的模型理解視頻內容的方式,就像大型語言模型(LLM)理解文字一樣。
為什麼重要:

Twelve Labs 正在建立讓全球視頻內容變得可被機器讀取的基礎設施。在視頻在數位溝通中佔據主導地位,但卻仍無法被 AI 搜索的時代,他們專為此設計的 embedding 與生成模型解決了一個連最大的前沿實驗室也僅 superficially 解決的問題。如果視頻是網際網路的主導媒介,那麼能夠在大規模生產環境中破解視頻理解的人,將會擁有類似 Google Search 對於文字所擁有的戰略地位。

Tripo
文字轉 3D、圖像轉 3D
公司
AI公司專注於從文字或圖片生成3D模型。在大多數3D生成技術僅能產出無法使用的塊狀物的領域中,Tripo則以生成精緻且可直接投入生產的網格模型而脫穎而出,讓遊戲開發者與設計師能夠實際使用的模型。
為什麼重要:

Tripo 代表了讓 AI 生成的 3D 內容實際應用於生產環境的最前沿技術。雖然大多數 AI 3D 生成技術所產生的資產仍需要大量手動清理,Tripo 則是一直專注於網格品質、正確的拓撲結構,以及與實際工作流程的整合 — 那些不那麼吸引眼球的工程,正是區分研究展示與專業人士願意付費使用的工具的關鍵。當空間運算與即時 3D 內容的需求急劇增加時,率先解決生產級生成問題的公司將能佔據龐大的市場份額。

使用AI

一個控制模型輸出隨機性或確定性的參數。溫度值為 0 時,模型會始終選擇機率最高的下一個 token(確定性、專注)。溫度值為 1+ 時,模型會更願意選擇機率較低的 token(創造性、不可預測)。大多數 API 的預設值約為 0.7。

為什麼重要: 溫度是創造力調節鈕。在寫小說嗎?把它調高。在生成程式碼或事實性回答嗎?把它調低。它是你可以調整的最具影響力的參數之一,而且完全不會產生任何成本進行實驗。
基礎

AI模型處理文字的基本單位。一個 token 通常是單字或單字片段 — 「understanding」可能是單個 token,而「un」+「der」+「standing」則可能是三個。平均來說,一個 token 大約相當於英文單字的 3/4。模型會以 token 為單位進行讀取、運算與計費。

為什麼重要: Tokens 是 AI 的貨幣。上下文視窗是以 tokens 為單位來衡量的。API 定價是以每個 token 為單位。當供應商說 “1M context” 時,他們指的是 100 萬個 tokens,約為 75 萬個字。了解 tokens 有助於你估算成本並優化使用方式。
工具使用
函式呼叫
工具
AI 模型在對話過程中呼叫外部函數或工具的能力。除了僅生成文字外,模型可以決定在網路上搜尋、執行程式碼、查詢資料庫或呼叫 API — 然後將結果納入其回應中。模型輸出結構化的「工具呼叫」,由主機應用程式執行。
為什麼重要: 工具的運用是讓 AI 模型在對話之外真正有用的關鍵。這正是程式碼解釋器、網頁瀏覽 AI 和每個 AI 代理所依賴的機制。沒有它,模型將僅限於其訓練數據的範圍。
模型
幾乎所有現代大型語言模型 (LLM) 和許多影像/音訊模型所採用的神經網絡架構。由 Google 於 2017 年發表的論文《Attention Is All You Need》所提出,Transformers 使用自注意力機制同時處理輸入的所有部分,而非依序處理,這使得在訓練過程中能夠實現極大的平行處理能力。
為什麼重要:

Transformer 是讓現今 AI 風潮成為可能的架構。GPT、Claude、Gemini、Llama、Mistral — 它們的實際運作方式都是基於 Transformer。了解這種架構有助於理解為什麼模型會有這些能力與限制。

Tokenizer
分詞器、Tokenization
基礎
在模型處理文字之前,將原始文字轉換為 tokens 的演算法。分詞器維護一個固定的詞元類型詞彙表,並將任何輸入文字拆分為這些詞元的序列。不同的模型使用不同的分詞器。
為什麼重要: 分詞器是你的文字和模型之間的隱形層。它決定了你的提示詞花費多少 tokens、為什麼某些語言比其他語言更昂貴,以及為什麼程式碼有時比散文更快消耗上下文。
利用從一個任務或資料集中學到的知識來提升在不同但相關任務上的表現。你不必每次都從頭訓練,而是從一個已經理解一般模式(語言結構、視覺特徵)的模型開始,再將其調適到你的特定需求。預訓練然後微調是現代 AI 的主導範式。
為什麼重要: 遷移學習是 AI 變得實用的原因。從頭訓練一個語言模型需要數百萬美元。在你特定任務上微調一個預訓練模型只需幾十美元和幾個小時。正是這種經濟效益推動了 AI 應用的爆發——你不需要 Google 的預算就能建造有用的東西。
Throughput
每秒 Token 數、TPS
基礎設施
系統在所有並行請求中每秒可生成的 token 總數。與延遲(單一請求被服務的速度)不同。具有高吞吐量的系統可同時服務許多使用者。具有低延遲的系統讓每個個別使用者感覺很快。兩者之間通常存在權衡。
為什麼重要: 建構 AI 產品時,吞吐量決定你的服務成本和容量。一個每秒為每個使用者生成 100 token 但只能服務一個使用者的系統,即使個別延遲很好,吞吐量也很低。當你為數千個並行使用者支付 GPU 費用時,吞吐量才是你要優化的目標。
公司
一個用於運行和訓練開源 AI 模型的雲端平台。Together AI 以具有競爭力的價格提供流行開源模型(Llama、Mistral、Qwen 等)的推理 API,以及微調和自訂訓練基礎設施。由 AI 研究者創立,他們也貢獻開源研究並發布了自己的模型。
為什麼重要: Together AI 是想使用開源模型的團隊中,自行託管以外的首要替代方案。你不需要管理自己的 GPU 伺服器和模型服務基礎設施,只需呼叫他們的 API 就能以 OpenAI/Anthropic 價格的幾分之一使用 Llama-70B 或 Mistral。他們代表了 AI 堆疊中「開源模型雲」層,使開放權重模型在生產中變得可行。
Text Summarization
Summarization, TL;DR
Automatically generating a shorter version of a text that preserves the key information. Extractive summarization selects and combines the most important existing sentences. Abstractive summarization generates new sentences that capture the meaning — like a human would summarize. Modern LLMs excel at abstractive summarization, producing fluent, accurate summaries of documents, articles, and conversations.
Why it matters: Information overload is the defining challenge of the digital age. Summarization helps: condensing long reports into actionable briefs, generating meeting notes from transcripts, creating abstracts for research papers, and producing TL;DR versions of lengthy articles. It's one of the most immediately useful LLM capabilities and one of the easiest to integrate into existing workflows.
Tensor
Multidimensional Array
A multidimensional array of numbers — the fundamental data structure in deep learning. A scalar is a 0D tensor (a single number). A vector is a 1D tensor. A matrix is a 2D tensor. An image is a 3D tensor (height × width × channels). A batch of images is a 4D tensor. Model weights, activations, gradients — everything in a neural network is a tensor.
Why it matters: Tensors are the language of deep learning. PyTorch, TensorFlow, and JAX are fundamentally tensor computation libraries. Understanding tensor shapes and operations is essential for reading model code, debugging shape mismatches (the most common error in ML code), and understanding what happens inside neural networks. If you can follow the tensor shapes, you can follow the architecture.
U
Upstage
Solar 模型、Document AI
公司
韓國AI公司以Solar模型系列和Document AI產品聞名。證明規模較小但訓練良好的模型在許多方面可以超越規模遠大的模型——其Solar 10.7B在國際基準測試中的表現遠超其規模。
為什麼重要:

Upstage 展示了要建立世界級語言模型並不需要百億參數。Solar 10.7B 在開放測試中表現卓越,挑戰了當前「規模就是一切」的主流觀點,並證明創新的訓練技巧可以彌補原始規模的不足。除了模型本身,Upstage 的 Document AI 作品解決了 AI 生態系統中最實用的缺口之一 — 將混亂的現實世界文件轉換為結構化數據 — 他們在首爾的成功證明,有意義的人工智慧創新正在遠離主導頭條新聞的矽谷與北京走廊之外蓬勃發展。

Unsupervised Learning
非監督式學習
訓練
一種模型在沒有被告知要尋找什麼的情況下從資料中發現模式的訓練方法。沒有標籤、沒有正確答案 — 只有原始資料和一個自行發現結構的模型。
為什麼重要: 大多數真實世界的資料是未標記的。非監督式學習能發現人工無法發現的模式。它也是嵌入向量的基礎,為語義搜尋、推薦系統和 RAG 提供動力。
V
語音 AI
語音 AI、對話式 AI
工具
用於生成、理解與操控人類語音的人工智慧系統。這包括文字轉語音(TTS)、語音轉文字(STT/ASR)、聲音克隆、即時語音翻譯、語音情緒辨識,以及對話式語音代理人。此領域已發展到 AI 生成的語音往往與人類語音難以區分的程度。
為什麼重要:

語音是最自然的人類介面,而 AI 終於讓它變得可程式化。語音 AI 支援從客服機器人到有聲書敘述,再到即時會議語音轉文字等各項應用。語音克隆的倫理影響 — 同意、身分、詐騙 — 使這成為 AI 領域中最敏感的領域之一。

Vidu
Vidu 影片生成、長片段連貫性
公司
生聲科技的視頻生成平台,生產一些物理上連貫的AI生成視頻。因出色的運動質量和多鏡頭一致性,能夠與西方競爭對手相媲美。
為什麼重要:

Vidu 展示了中國人工智慧實驗室在 Sora 發佈後數個月內即可達到西方視頻生成品質,重塑了人們對 AI 視頻技術前沿實際存在於何處的假設。他們對物理一致性和多鏡頭一致性的專注推動了整個領域的發展,迫使競爭對手優先考慮寫實性而非視覺效果。對於更廣泛的 AI 視頻市場而言,Vidu 的積極定價策略與 API 可用性也幫助降低了開發成本,並提高了全球開發人員的使用門檻。

Voyage AI
voyage-3、領域專用 embedding
公司
嵌入模型公司專門為程式碼、法律、金融及多語言搜尋建立專業向量。他們的模型在 MTEB 排行榜上名列前茅,透過 API 提供目前最佳的檢索品質。
為什麼重要: Voyage AI 證明了嵌入模型值得與大語言模型(LLM)一樣的工程關注與投資。在大多數供應商將向量表示視為低利潤工具的市場中,Voyage 展示了領域特定的嵌入模型可以顯著提升檢索準確度——這是在生產環境中的 RAG 系統中最重要的槓桿。他們被 Google 收購,驗證了「掌握嵌入層者即掌握 AI 搜索基礎設施基礎」的理論。
向量資料庫
Qdrant、Pinecone、Weaviate、ChromaDB
工具
一個用於儲存和搜尋嵌入(向量)的資料庫。與傳統資料庫透過匹配精確關鍵字不同,向量資料庫會找出語意上最相近的項目。當你詢問「如何修復記憶體洩漏」時,它會回傳關於「除錯 RAM 使用量」的文件,因為嵌入的相似度較高。
為什麼重要: 向量資料庫是讓 RAG 運作的儲存層。沒有它們的話,你就需要在每次查詢時將整個知識庫進行嵌入。它們也是推薦系統和語義搜尋的核心。
VRAM
顯存、GPU 記憶體
基礎設施

GPU 上的記憶體,與系統記憶體 (RAM) 無關。AI 模型必須符合 VRAM 容量才能在 GPU 上運行。一個 70 億參數模型在 16 位元精準度下需要約 14GB 的 VRAM。消費級 GPU 有 8-24GB;資料中心 GPU(A100、H100)有 40-80GB。VRAM 通常是本地 AI 的瓶頸。

為什麼重要: VRAM決定了你可以運行哪些模型。這就是為什麼會有量化技術(用來縮小模型以適應),為什麼MoE模型會比較困難(所有專家都必須放入VRAM),以及為什麼GPU價格會隨著記憶體容量急劇上升。「它會不會放入VRAM?」是自建AI時的第一個問題。
Video Generation
Text-to-Video, AI Video
Creating video from text descriptions, images, or other videos using AI models. Sora (OpenAI), Kling (Kuaishou), Runway Gen-3, Vidu, and others generate videos from prompts like "a drone shot flying over a coral reef." The technology extends image generation to the temporal dimension, adding the challenge of maintaining consistency across frames and generating realistic motion.
Why it matters: Video generation is the frontier of generative AI — the hardest modality and the one with the most commercial potential. It's beginning to transform filmmaking, advertising, social media, and education. The quality gap between AI and professional video is closing rapidly, with current models producing 5–15 second clips that are sometimes indistinguishable from real footage.
Voice Cloning
Voice Synthesis, Voice Replication
Creating a synthetic copy of a specific person's voice from a short audio sample, enabling text-to-speech that sounds like that person. Modern systems (ElevenLabs, PlayHT, Resemble AI) can clone a voice from as little as 15 seconds of audio with remarkable fidelity, capturing tone, accent, speaking style, and emotional range.
Why it matters: Voice cloning enables powerful creative and accessibility applications: dubbing films in the actor's own voice across languages, preserving the voices of people losing their ability to speak (ALS patients), creating consistent brand voices, and personalizing AI assistants. It also creates serious risks: phone scams impersonating family members, fake audio of public figures, and non-consensual voice replication.
Validation Set
Dev Set, Hold-Out Set
A subset of data held back from training, used to evaluate model performance during development and tune hyperparameters. The three-way split: the training set trains the model, the validation set guides decisions about the model (learning rate, architecture, when to stop), and the test set provides the final, unbiased performance estimate. The validation set is your mirror during development.
Why it matters: Without a validation set, you're flying blind. Training loss tells you how well the model fits the training data, but not how well it generalizes. The validation set answers the question that actually matters: "how will this model perform on data it hasn't seen?" Every decision during model development — hyperparameters, architecture choices, training duration — should be evaluated on the validation set.
Vision Transformer
ViT、視覺 Transformer
模型

將 Transformer 架構應用於圖像的方法,透過將圖像分割為固定大小的區塊(例如 16×16 像素),將每個區塊視為「token」,然後用標準的 Transformer 注意力處理區塊序列。ViT 表明 Transformer 可以在圖像任務上匹配或超越 CNN。

為什麼重要:

ViT 證明了 Transformer 是一個通用架構 — 不僅適用於文本,也適用於圖像。這種統一促成了多模態模型的爆發。

vLLM
vLLM
工具

一個開源的 LLM 服務引擎,透過 PagedAttention 和連續批次處理實現高吞吐量。提供 OpenAI 相容的 API,使自託管開放模型在生產環境中變得容易。

為什麼重要:

vLLM 是最受歡迎的開源 LLM 服務解決方案。其 PagedAttention 創新相比簡單實作將服務吞吐量提高了 2–24 倍。

W
權重
模型權重、神經網絡權重
訓練
神經網絡中在訓練過程中會被調整以最小化誤差的數值。每個神經元之間的連接都有一個權重,用來決定前一個神經元對下一個神經元的影響程度。當你下載一個模型文件——例如 .safetensors、.gguf 或 .pt 文件——你其實是在下載它的權重。「釋出權重」指的是公開這些文件,讓任何人都能運行該模型。權重就是模型本身;其他一切都是架構,只告訴你如何安排這些權重。
為什麼重要: 當AI產業談到「開放權重」與「開放原始碼」的差異時,這個區別非常重要。僅有權重讓你能夠運行和微調模型,但如果沒有訓練程式碼、資料與方法,你就無法從頭開始重現這個模型。理解權重有助於掌握模型分佈、量化(降低權重精準度),以及為何一個70億參數模型在fp16格式下需要約14GB的磁碟空間。
萬相
Wan 影片模型、開放權重影片生成
公司
阿里巴巴專屬的視頻生成計畫,釋出高品質開放權重的視頻模型。這是阿里巴巴在各個模態中領先開放源碼 AI 的更廣泛策略的一部分。
為什麼重要: Wan-AI 透過釋出任何人都能運行、微調與部署且無授權費用的開放權重模型,從根本上改變了高品質視訊生成的可及性。這迫使整個視訊 AI 業界重新思考封閉源碼模型的價值主張,並加速了整個生態系統的創新。作為阿里巴巴與 Qwen 一同推動的開放源碼 AI 策略的一部分,Wan 提供了一個可信的論點,證明大型科技公司的開放權重釋出可以匹敵甚至超越資金充足的初創公司在封閉環境中所產生的成果。
Watermarking
浮水印、AI 浮水印
安全
AI 內容中用於偵測的隱形訊號。文字:在統計上偏置詞元選擇。圖像:隱形的像素圖案。
為什麼重要: 少數能大規模區分 AI 內容的方法之一。對假訊息、學術誠信和來源追溯很重要。
Weights & Biases
W&B、WandB
公司
主導的 MLOps 平台,用於追蹤機器學習實驗。W&B 讓你在訓練期間記錄指標、超參數、模型輸出和系統效能,然後以視覺化方式比較不同運行。它已成為 ML 研究者和工程師追蹤他們嘗試了什麼、什麼有效以及為什麼有效的標準工具——本質上是實驗的版本控制。
為什麼重要: 沒有實驗追蹤,機器學習開發就是一團混亂:哪些超參數產生了那個好結果?使用了哪個版本的資料集?為什麼訓練發散了?W&B 解決這個問題解決得如此之好,以至於它現在被大多數 AI 實驗室使用,從獨立研究者到 OpenAI。如果你在訓練模型,你幾乎一定在使用 W&B 或受其啟發的工具。
Weight Initialization
Xavier Init, Kaiming Init, He Init
How neural network weights are set before training begins. Bad initialization can make training fail before it starts (vanishing or exploding activations). Good initialization ensures that activations and gradients maintain reasonable magnitudes across layers. Xavier initialization (for tanh/sigmoid) and Kaiming/He initialization (for ReLU) are the standards, each calibrated to the activation function.
Why it matters: Initialization seems like a minor detail but it's critical for training deep networks. A network with random (too large) initial weights produces exploding activations. One with too-small weights produces vanishing activations. Proper initialization puts the network in a "goldilocks zone" where signals flow through without exploding or vanishing — a prerequisite for gradient descent to work at all.
Windsurf
Codeium, Windsurf Editor
An AI-native code editor (formerly Codeium) that competes with Cursor in the AI coding assistant space. Like Cursor, Windsurf is built as a VS Code fork with deep AI integration: multi-file editing, codebase-aware suggestions, and natural language commands. The company emphasizes "flows" — longer multi-step AI interactions that maintain context across edits.
Why it matters: Windsurf represents the growing competition in AI coding tools, proving that the market for AI-native editors is large enough for multiple players. Its "Cascade" feature for multi-step coding tasks and its free tier have attracted a significant user base. The Cursor vs. Windsurf vs. Copilot vs. Claude Code competition is driving rapid innovation in how developers interact with AI.
詞嵌入
Word2Vec、GloVe、詞向量
基礎

詞的密集向量表示,其中含義相似的詞具有相似的向量。Word2Vec 和 GloVe 開創了這個領域,產生向量使得「king − man + woman ≈ queen」成立。

為什麼重要:

詞嵌入是使神經 NLP 變得實用的突破。將離散符號表示為學習到的連續向量 — 是所有現代語言模型的基礎。

X
小米
MiLM、消費電子 AI
公司

全球最大的消費電子公司之一,現正自行開發AI模型。MiLM驅動小米手機、智慧家居設備與電動車等生態系統中的各項功能 — 為未來十億用戶的AI解決方案。

為什麼重要:

小米代表了AI如何觸及下一個十億用戶最具說服力的案例——不是透過獨立的聊天機器人應用程式或開發者API,而是無形地嵌入人們已經擁有的設備中。擁有數億台活躍設備,涵蓋手機、穿戴裝置、家用電器,甚至現在的電動車,小米可以以純AI公司無法匹敵的規模與親密度部署AI。他們以生態系統為先的策略,預示了AI將成為環境基礎設施,而非你主動選擇使用的產品,而他們在新興市場的主導地位,也意味著這個未來將觸及那些前沿AI實驗室鮮少考慮的人群。

xAI
Grok
公司
Elon Musk 的 AI 公司(2023 年成立)。Grok 系列模型、X 平台資料存取權、Colossus 叢集(100K+ H100)。
為什麼重要: 規模 + 獨特資料。X 平台的即時資料流和龐大算力能否產出前沿品質的模型,是一個開放性問題。
Y
YAML
YAML Ain't Markup Language
基礎設施
一種可讀性高且廣泛應用於 AI 與 DevOps 的資料序列化格式,用於設定檔、流程定義與模型元資料。YAML 使用縮排來表示結構(沒有括號或大括號),使其易於閱讀,但以空白字元極其敏感而聞名。在 AI 工作流程中處處可見 — Docker Compose 檔案、Kubernetes 宣告檔、Hugging Face 模型卡片、CI/CD 流水線與訓練設定檔等。
為什麼重要: 如果你正在處理 AI 基礎設施,你正在撰寫 YAML。模型配置、部署宣告、流程定義、環境變數 — 它是現代 AI 堆疊的關鍵語言。熟悉 YAML 不是可選的;當你錯誤配置訓練執行或部署時,它就是第一個出問題的地方。
Z
智譜 AI
GLM、ChatGLM、CogView、CogVideo
公司
中國AI公司,由清華大學衍生出來。背後是GLM模型家族,並是中國領先的AI平台之一,在語言和視覺生成方面具有強項。
為什麼重要:

智譜AI縮小了中國學術研究與商業AI之間的差距,推出開放源碼模型—尤其是在視頻生成領域的CogVideoX—已在全球範圍內獲得實際應用。他們的GLM 架構與清華大學的背景賦予他們深厚的技術信譽,使他們成為少數幾個其研究成果在國際上被廣泛引用並作為基礎進行開發的中國AI公司。

Zero-shot / Few-shot
上下文學習
使用AI

零樣本學習是指讓模型在沒有任何範例的情況下執行任務—僅僅根據指令。少量示例則是在實際請求前,在提示中提供少量的輸入-輸出範例。例如:「這裡有3個如何格式化此數據的範例……現在請處理這個。」模型僅從上下文中學習模式,無需進行訓練。

為什麼重要:

少樣本提示是教導模型新格式或行為最快的方式。需要一致的 JSON 輸出嗎?展示三個範例。需要特定的寫作風格嗎?提供範例。這是一種免費、即時且出人意料強大的方法。

ESC