Concepts AI expliqués par des builders, pas des manuels. Pas de murs de jargon. Pas de gatekeeping académique. Des définitions claires et pratiques des termes que tu vas vraiment rencontrer.
Annotation Étiquetage de données, annotation de données
Entraînement
Le processus d'ajout d'étiquettes, de tags ou de métadonnées à des données brutes pour qu'elles puissent être utilisées pour l'apprentissage supervisé. Annoter des images signifie dessiner des boîtes englobantes autour des objets. Annoter du texte signifie étiqueter les entités, le sentiment ou l'intention. Annoter pour le RLHF signifie classer les réponses du modèle par qualité. L'annotation est le travail humain qui transforme les données brutes en données d'entraînement.
Pourquoi c'est important : L'annotation est le fondement peu glamour de l'IA supervisée. Chaque jeu de données étiquetées, chaque modèle ajusté, chaque assistant aligné dépend d'annotateurs humains qui ont passé des heures à étiqueter correctement les données. La qualité des annotations détermine directement la qualité du modèle — un étiquetage incohérent ou biaisé produit des modèles incohérents et biaisés. C'est la partie la plus intensive en main-d'œuvre et souvent la plus coûteuse de la construction de systèmes d'IA.
Apprentissage continu Apprentissage tout au long de la vie, apprentissage incrémental
Entraînement
La capacité d'un modèle à apprendre de nouvelles données en continu sans oublier ce qu'il a appris avant. Les LLM actuels sont entraînés une fois et figés — les mettre à jour nécessite un réentraînement coûteux. L'apprentissage continu permettrait aux modèles d'apprendre de chaque interaction, de rester à jour avec les nouvelles informations et de s'adapter aux utilisateurs individuels, comme les humains apprennent naturellement.
Pourquoi c'est important : L'apprentissage continu est l'un des grands problèmes non résolus de l'IA. Les modèles actuels ont des dates de coupure de connaissances, ne peuvent pas apprendre des corrections, et traitent chaque conversation comme une page blanche. Résoudre l'apprentissage continu éliminerait le besoin de cycles de réentraînement coûteux, permettrait une IA personnalisée qui s'adapte véritablement à chaque utilisateur, et permettrait aux modèles de rester perpétuellement à jour.
Une approche d'entraînement où le modèle est entraîné sur plusieurs appareils ou organisations sans partager les données brutes. Au lieu d'envoyer les données à un serveur central, chaque participant entraîne une copie locale du modèle sur ses propres données et envoie seulement les mises à jour du modèle (gradients) à un coordinateur central. Le coordinateur agrège les mises à jour de tous les participants pour améliorer le modèle global.
Pourquoi c'est important : L'apprentissage fédéré permet l'entraînement d'IA sur des données qui ne peuvent pas être centralisées pour des raisons de confidentialité, de réglementation ou de concurrence. Des hôpitaux peuvent collaborativement entraîner un modèle de diagnostic sans partager les dossiers des patients. Des entreprises peuvent améliorer un modèle partagé sans exposer leurs données propriétaires. C'est l'approche la plus pratique pour l'entraînement d'IA respectueux de la vie privée à grande échelle.
Une stratégie d'entraînement qui présente les exemples dans un ordre significatif — typiquement du facile au difficile — plutôt qu'aléatoirement. Comme enseigner l'arithmétique avant le calcul intégral à un élève, l'apprentissage par curriculum donne d'abord les patterns fondamentaux au modèle et augmente la complexité graduellement. Ça peut mener à une convergence plus rapide et parfois à de meilleures performances finales.
Pourquoi c'est important : L'apprentissage par curriculum est une technique sous-estimée qui peut améliorer l'efficacité d'entraînement sans changer le modèle ou les données. Le pré-entraînement des LLM utilise de plus en plus le scheduling de données — montrer des données plus propres et de meilleure qualité dans les dernières étapes d'entraînement — ce qui est une forme d'apprentissage par curriculum. L'ordre dans lequel tu présentes les données compte, pas seulement les données elles-mêmes.
Un système d'IA théorique qui dépasse les capacités cognitives de tous les humains dans presque tous les domaines — raisonnement scientifique, intelligence sociale, créativité, planification stratégique, etc. L'ASI dépasse l'AGI (qui correspond à l'intelligence humaine) pour atteindre quelque chose de qualitativement différent : une intelligence capable de s'améliorer de manière récursive et de résoudre des problèmes que les humains ne pourraient même pas formuler. Aucune ASI n'existe, et il n'y a pas de consensus scientifique sur le fait qu'elle puisse ou non être construite.
Pourquoi c’est important : ASI est le domaine où la sécurité de l'intelligence artificielle prend une dimension existentielle. Si vous croyez que l'intelligence surhumaine est possible, l'alignement n'est pas seulement question de rendre les chatbots polis — il s'agit d'assurer qu'un système plus intelligent que toute l'humanité agisse toujours dans notre intérêt. C'est spéculatif, mais les enjeux sont suffisamment élevés pour que des chercheurs sérieux y portent une attention sérieuse. Comprendre l'ASI vous permet d'évaluer les affirmations sur les risques de l'intelligence artificielle avec plus de nuance.
Un système hypothétique d'intelligence artificielle capable de comprendre, d'apprendre et d'exécuter toute tâche intellectuelle qu'un humain peut accomplir — avec la capacité de transférer des connaissances d'un domaine à un autre sans avoir été spécifiquement entraîné pour chacun. Contrairement à l'IA actuelle, qui excelle dans des tâches spécialisées (génération de texte, classification d'images), l'IA générale (AGI) gérerait des situations nouvelles, raisonnerait de manière abstraite et s'adapterait à tout défi. Que l'AGI soit imminente, à des décennies de distance ou impossible constitue le débat le plus contentieux dans le domaine.
Pourquoi c’est important : L'IA générale (AGI) est l'étoile polaire (ou le cauchemar) de toute l'industrie de l'intelligence artificielle. Elle fait déplacer des milliards de dollars d'investissements, définit les priorités de recherche en matière de sécurité et domine les débats politiques. Quelle que soit votre opinion sur la proximité de l'AGI, ce concept détermine la manière dont des entreprises comme Anthropic, OpenAI et DeepMind définissent leurs missions — et comprendre ce débat vous permet de distinguer les progrès réels des provocations.
Des outils d'IA qui aident les développeurs à écrire, réviser, déboguer et déployer du code. De l'autocomplétion (GitHub Copilot, Codeium) au développement entièrement autonome (Claude Code, Cursor, Devin), les assistants de code représentent l'une des applications les plus matures et les plus largement adoptées des LLM. Ils fonctionnent en prédisant les prochains tokens de code à partir du contexte de votre base de code, de la documentation et des instructions.
Pourquoi c’est important : Les assistants de code IA sont le tranchant le plus aiguisé de l'impact de l'IA sur le travail intellectuel. Les développeurs qui les utilisent rapportent des gains de productivité de 30 à 50 % sur les tâches de routine. Mais ils hallucinent aussi des API qui n'existent pas, introduisent des bogues subtils et peuvent rendre les développeurs dépendants d'outils qu'ils ne comprennent pas entièrement.
Automatisation Automatisation IA, automatisation des workflows
Outils
Utiliser l'IA pour effectuer des tâches qui nécessitaient auparavant une intervention humaine. Cela va de l'automatisation simple (catégorisation automatique de courriels, génération de rapports) aux flux de travail autonomes complexes (agents IA qui recherchent, rédigent, testent et déploient du code). Le changement clé de l'automatisation traditionnelle (règles rigides) à l'automatisation par IA (intelligence flexible) est que l'IA peut gérer des tâches ambiguës et non structurées.
Pourquoi c’est important : L'automatisation est le moteur économique de l'adoption de l'IA. Chaque entreprise qui achète de l'IA achète en réalité de l'automatisation — moins d'humains effectuant du travail répétitif, un traitement plus rapide, un fonctionnement 24 heures sur 24. La question n'est pas de savoir si l'IA automatisera des tâches, mais lesquelles, à quelle vitesse, et ce qu'il adviendra des humains qui les effectuaient.
La double application de l'IA en cybersécurité : utiliser l'IA pour défendre les systèmes (détection de menaces, détection d'anomalies, réponse automatisée aux incidents) et les nouveaux vecteurs d'attaque que l'IA crée (hameçonnage généré par IA, découverte automatisée de vulnérabilités, attaques adverses contre les systèmes d'apprentissage automatique). Le domaine est engagé dans une course aux armements où attaquants et défenseurs sont de plus en plus propulsés par l'IA.
Pourquoi c’est important : L'IA rend les cybermenaces existantes plus rapides et moins chères à exécuter — un courriel d'hameçonnage rédigé par un LLM est plus convaincant et ne coûte rien à personnaliser. Mais l'IA permet aussi des défenses qui seraient impossibles manuellement, comme analyser des millions d'événements réseau par seconde pour détecter des anomalies. Les équipes de sécurité qui n'utilisent pas l'IA perdront face aux attaquants qui l'utilisent.
Les cadres, politiques, lois et pratiques organisationnelles qui encadrent la façon dont l'IA est développée, déployée et utilisée. Cela inclut la réglementation gouvernementale (l'AI Act européen, les décrets exécutifs), l'autorégulation de l'industrie (politiques de mise à l'échelle responsable, fiches de modèle), la gouvernance d'entreprise (comités d'éthique de l'IA, politiques d'utilisation) et la coordination internationale sur les normes de sécurité de l'IA.
Pourquoi c’est important : La technologie avance plus vite que les règles. Les entreprises livrent des produits d'IA dans les domaines de la santé, de la justice pénale et de la finance avec un encadrement minimal. La gouvernance est la tentative d'établir des limites avant que quelque chose ne se brise assez gravement pour déclencher un contrecoup qui pourrait faire reculer tout le domaine.
Le défi de construire et d'utiliser des systèmes d'IA sans compromettre les données personnelles. Cela couvre l'ensemble du cycle de vie : les données d'entraînement qui pourraient contenir des informations privées, les modèles qui peuvent mémoriser et régurgiter des détails personnels, les journaux d'inférence qui suivent le comportement des utilisateurs, et la tension fondamentale entre la capacité de l'IA (qui s'améliore avec plus de données) et les droits à la vie privée.
Pourquoi c’est important : Chaque conversation avec une IA est une donnée. Chaque image que vous générez révèle vos instructions. Chaque document que vous résumez passe par les serveurs de quelqu'un. La vie privée n'est pas juste une case à cocher juridique (RGPD, CCPA) — c'est une question de confiance qui détermine si les individus et les entreprises adopteront l'IA pour le travail sensible.
Sécurité de l'IA Sécurité des LLM, ingénierie de la sûreté de l'IA
Sécurité
La pratique de protéger les systèmes d'IA contre les attaques adverses, l'empoisonnement de données, l'injection de prompts, le vol de modèles et l'utilisation abusive — tout en se défendant contre les menaces propulsées par l'IA comme les hypertrucages et les cyberattaques automatisées. La sécurité de l'IA se situe à l'intersection de la cybersécurité traditionnelle et des vulnérabilités uniques introduites par les systèmes d'apprentissage automatique.
Pourquoi c’est important : Les systèmes d'IA sont simultanément des outils puissants et des surfaces d'attaque inédites. Une injection de prompt peut faire fuiter des données internes par votre bot de support client. Un ensemble de données d'entraînement empoisonné peut insérer des portes dérobées. À mesure que l'IA est déployée dans les infrastructures critiques, la santé et la finance, la sécurité n'est pas optionnelle — elle est existentielle.
Comment les fournisseurs d'IA facturent l'accès à leurs modèles. Le modèle dominant est la tarification par token — vous payez pour le nombre de tokens que vous envoyez (entrée) et recevez (sortie), les tokens de sortie coûtant typiquement 3 à 5 fois plus. D'autres modèles incluent la tarification par requête, les abonnements mensuels, les remises sur engagement et les niveaux gratuits. La course à la baisse des prix a été féroce, avec des coûts en chute de 10 à 100 fois en deux ans.
Pourquoi c’est important : La tarification détermine ce que vous pouvez construire. Une application qui fait 10 000 appels API par jour vit ou meurt par le coût par token. Comprendre les modèles de tarification, comparer les fournisseurs et optimiser l'utilisation des tokens est une compétence essentielle pour quiconque construit des produits propulsés par l'IA.
La pile complète de matériel, de logiciels et de services nécessaires pour entraîner et déployer des modèles d'IA à grande échelle. Cela inclut les GPU et les puces sur mesure, les centres de données, le réseau, le stockage, les plateformes d'orchestration (Kubernetes, Slurm), les cadres de service de modèles (vLLM, TensorRT) et les fournisseurs infonuagiques qui empaquettent le tout. L'infrastructure IA est le lieu où le monde abstrait de l'architecture de modèles rencontre le monde très concret des réseaux électriques et des systèmes de refroidissement.
Pourquoi c’est important : L'infrastructure détermine ce qui est possible. La raison pour laquelle seule une poignée d'entreprises peut entraîner des modèles de pointe n'est pas un manque d'idées — c'est un manque d'infrastructure. Et la raison pour laquelle l'IA coûte ce qu'elle coûte pour les utilisateurs finaux remonte directement à la disponibilité des GPU, à la capacité des centres de données et à l'efficacité du service d'inférence.
Entreprise de reconnaissance vocale qui développe des API conviviales pour les développeurs, couvrant la transcription, la détection de locuteurs et la compréhension audio. Leur modèle Universal-2 rivalise avec OpenAI Whisper en précision, tout en ajoutant des fonctionnalités comme la diarisation, l'analyse de sentiment et la détection de sujets directement intégrées.
Pourquoi c’est important : AssemblyAI a rendu la reconnaissance vocale véritablement accessible aux développeurs, condensant ce qui nécessitait auparavant une équipe dédiée en apprentissage automatique en un seul appel API. Leur pile Audio Intelligence — combinant transcription, identification de locuteurs, analyse de sentiment et synthèse propulsée par des grands modèles de langage — transforme l'audio brut en données structurées et exploitables à une échelle qui n'était pas envisageable il y a seulement deux ans. Dans un monde où la voix devient l'interface par défaut des agents IA, AssemblyAI construit la couche de compréhension dont tout le reste dépend.
Entreprise de sécurité en IA qui développe Claude. Fondée par d'anciens chercheurs d'OpenAI, Dario et Daniela Amodei, Anthropic se concentre sur le développement de systèmes d'IA fiables, interprétables et orientables.
Pourquoi c’est important : Anthropic a prouvé qu'une entreprise d'IA pouvait placer la recherche en sécurité au premier plan tout en restant compétitive à la frontière technologique. Leur approche Constitutional AI a influencé la façon dont l'ensemble de l'industrie pense l'alignement, leur Responsible Scaling Policy a établi un modèle que d'autres laboratoires ont adopté sous diverses formes, et Claude est devenu le modèle de choix pour les entreprises qui ont besoin de fiabilité et de traitement soigné des contenus sensibles. Peut-être plus important encore, l'existence d'Anthropic comme concurrent bien financé garantit que la course vers l'AGI n'est pas l'affaire d'une seule entreprise — et qu'au moins un acteur majeur porte la sécurité dans son ADN fondateur plutôt que comme un ajout après coup.
La division d'infonuagique du Groupe Alibaba et créatrice de la famille de modèles Qwen. Les modèles Qwen sont entièrement à poids ouverts, multilingues et comptent parmi les modèles ouverts les plus performants disponibles.
Pourquoi c’est important : Alibaba Cloud a fait de Qwen la famille de modèles à poids ouverts la plus largement déployée en Asie et un concurrent mondial véritablement crédible face à Llama de Meta, prouvant que des modèles de classe frontière peuvent provenir de l'extérieur de la Silicon Valley. Leur combinaison de publications de modèles ouverts, d'infrastructure infonuagique massive et de l'écosystème ModelScope offre aux développeurs — en particulier ceux des marchés touchés par les contrôles à l'exportation américains — une alternative crédible et de haute qualité aux plateformes d'IA occidentales.
Un système d'IA qui peut planifier et exécuter de manière autonome des tâches en plusieurs étapes, en utilisant des outils (recherche web, exécution de code, appels API) pour atteindre un objectif. Contrairement à un simple chatbot qui répond à une question à la fois, un agent décide quoi faire ensuite en fonction de ce qu'il a appris jusqu'ici.
Pourquoi c’est important : Les agents sont le pont entre « l'IA qui parle » et « l'IA qui agit ». Quand votre IA peut consulter de la documentation, écrire du code et le tester sans que vous la guidiez à chaque étape — c'est un agent.
Le défi de faire en sorte que les systèmes d'IA se comportent conformément aux valeurs et aux intentions humaines. Un modèle aligné fait ce que vous voulez dire, pas seulement ce que vous avez dit — et évite les actions nuisibles même quand on ne lui a pas explicitement dit de ne pas le faire.
Pourquoi c’est important : Un modèle techniquement brillant mais mal aligné est comme un employé génial qui suit les instructions trop littéralement. La recherche en alignement est la raison pour laquelle les modèles refusent les demandes dangereuses et essaient d'être véritablement utiles.
Un moyen structuré pour les logiciels de communiquer entre eux. En IA, cela signifie généralement envoyer une requête (votre prompt) au serveur d'un fournisseur et recevoir une réponse (la sortie du modèle) en retour. Les API REST via HTTPS sont la norme.
Pourquoi c’est important : Chaque fournisseur d'IA — Anthropic, Google, Mistral — expose ses modèles via des API. Si vous construisez quoi que ce soit avec l'IA au-delà d'une fenêtre de chat, vous utilisez une API.
Le mécanisme central des Transformers qui permet à un modèle d'évaluer quelles parties de l'entrée sont les plus pertinentes les unes pour les autres. Au lieu de lire le texte de gauche à droite comme les anciens modèles, l'attention permet à chaque mot de « regarder » simultanément tous les autres mots pour comprendre le contexte.
Pourquoi c’est important : L'attention est la raison pour laquelle les LLM modernes comprennent que « banque » signifie des choses différentes dans « la berge de la rivière » et « le compte en banque ». C'est aussi pourquoi les fenêtres de contexte plus longues coûtent plus cher — l'attention croît quadratiquement avec la longueur de la séquence.
Un modèle qui génère sa sortie un token à la fois, où chaque nouveau token est prédit en fonction de tous les tokens précédents. Chaque LLM moderne — Claude, GPT, Llama, Gemini — est autorégressif.
Pourquoi c'est important : Comprendre la génération autorégressive explique la plupart des comportements des LLM : pourquoi les réponses arrivent token par token, pourquoi les modèles se contredisent parfois en plein paragraphe, pourquoi les sorties plus longues sont plus lentes et plus chères.
Le vaste domaine de la construction de machines capables d'effectuer des tâches nécessitant typiquement l'intelligence humaine — comprendre le langage, reconnaître des images, prendre des décisions, résoudre des problèmes. L'IA va de systèmes étroits qui excellent dans une tâche spécifique (filtres anti-spam, moteurs d'échecs) jusqu'à l'objectif ambitieux d'une intelligence générale capable de gérer toute tâche intellectuelle qu'un humain peut accomplir.
Pourquoi c'est important : L'IA est le parapluie qui couvre tout le reste dans ce wiki — apprentissage automatique, apprentissage profond, LLM, vision par ordinateur, robotique. Comprendre que « IA » est un spectre, des simples systèmes à règles jusqu'aux modèles de langage de pointe, t'aide à évaluer les affirmations, couper à travers le battage médiatique et comprendre ce que sont réellement les systèmes actuels : des détecteurs de patterns extraordinairement capables, pas des machines pensantes.
Une fonction mathématique appliquée à la sortie d'un neurone qui introduit de la non-linéarité dans le réseau. Sans fonctions d'activation, un réseau de neurones — peu importe le nombre de couches — ne pourrait apprendre que des relations linéaires. ReLU, GELU et SiLU/Swish sont les plus courants dans les architectures modernes.
Pourquoi c'est important : Les fonctions d'activation sont la raison pour laquelle l'apprentissage profond fonctionne. Un empilement de transformations linéaires n'est qu'une seule grande transformation linéaire. Les fonctions d'activation entre les couches permettent au réseau d'apprendre des patterns complexes et non linéaires — les courbes, contours et relations subtiles qui rendent les réseaux de neurones puissants.
L'étude des questions morales soulevées par le développement et le déploiement de l'IA : quels biais les systèmes d'IA perpétuent-ils ? Qui est lésé quand l'IA fait des erreurs ? Comment les décisions de l'IA devraient-elles être expliquées ? Qui est responsable quand un système autonome cause des dommages ? L'éthique de l'IA englobe l'équité, la transparence, la responsabilité, la vie privée et l'impact sociétal des systèmes d'IA.
Pourquoi c'est important : Les systèmes d'IA prennent des décisions affectant l'embauche, le crédit, la justice pénale, les soins de santé et la modération de contenu pour des milliards de personnes. Ces décisions encodent des valeurs — quelles données ont été incluses, quels résultats ont été optimisés, qui a été consulté. L'éthique de l'IA n'est pas un exercice philosophique abstrait ; c'est la question pratique de savoir si les systèmes d'IA rendent le monde plus juste ou moins.
Les lois et politiques régissant le développement et le déploiement des systèmes d'IA. L'EU AI Act (2024) est le plus complet, classant les systèmes d'IA par niveau de risque et imposant des exigences en conséquence. Les États-Unis ont adopté une approche plus sectorielle avec des décrets et des directives d'agences. La Chine a des réglementations ciblant l'IA générative, les deepfakes et les algorithmes de recommandation.
Pourquoi c'est important : La réglementation façonne ce que les entreprises d'IA peuvent construire, comment elles doivent le construire et ce qu'elles doivent divulguer. L'EU AI Act affecte toute entreprise servant des utilisateurs européens. Comprendre le paysage réglementaire est de plus en plus nécessaire pour quiconque construit ou déploie de l'IA — la non-conformité peut signifier des amendes, des interdictions ou de la responsabilité civile.
Le système d'IA sur appareil et dans le cloud d'Apple, intégré sur iPhone, iPad et Mac. Apple Intelligence fait tourner des modèles plus petits localement sur Apple Silicon pour les tâches sensibles à la vie privée (réécriture de texte, résumé, génération d'images) et route les requêtes complexes vers les serveurs Private Cloud Compute d'Apple. Il intègre aussi des modèles externes (comme ChatGPT) avec le consentement de l'utilisateur pour les tâches au-delà de ses propres capacités.
Pourquoi c'est important : Apple Intelligence représente la stratégie IA grand public de la société la plus valorisée au monde, touchant plus d'un milliard d'appareils. Son accent sur la vie privée (traitement sur l'appareil, Private Cloud Compute avec sécurité vérifiable) offre un modèle différent de l'approche cloud-first d'OpenAI et Google. Si Apple réussit son IA, ça normalise l'IA sur appareil pour des milliards d'utilisateurs non techniques.
Une entreprise d'IA israélienne connue pour Jamba, la première architecture hybride de qualité production qui combine des couches d'attention Transformer avec des couches SSM Mamba. AI21 a été fondée par des chercheurs en IA (incluant Yoav Shoham) et construit des modèles de langage depuis 2017, avant ChatGPT. Leurs modèles sont disponibles via API et les fournisseurs cloud.
Pourquoi c'est important : AI21 Labs compte parce que Jamba a prouvé que les architectures hybrides Transformer-SSM fonctionnent en pratique, pas seulement dans les articles de recherche. En intercalant des couches d'attention et Mamba, Jamba atteint une fenêtre de contexte de 256K avec une utilisation mémoire plus faible que les modèles purement Transformer de qualité similaire. Cette approche hybride pourrait être l'avenir de l'architecture LLM.
A period of reduced funding, interest, and progress in AI research following a cycle of hype and unmet expectations. There have been two major AI winters: the first from the mid-1970s to early 1980s (after expert systems failed to scale), and the second from the late 1980s to mid-1990s (after neural networks hit computational limits). Each was preceded by wild optimism and followed by disillusionment.
Why it matters: Understanding AI winters provides essential context for evaluating today's AI claims. The pattern — breakthrough, hype, overpromise, underdeliver, funding collapse — has repeated twice. Whether the current deep learning boom will follow the same pattern or break it is the most important question in AI. The best defense against another winter is honest assessment of what current systems can and can't do.
An AI system that can independently plan, decide, and execute multi-step tasks with minimal human supervision. Given a high-level goal ("research competitors and write a report"), an autonomous agent breaks it into steps, uses tools (web search, code execution, file management), handles errors, and delivers a result. The level of autonomy ranges from "ask permission at each step" to "just do it and report back."
Why it matters: Autonomous agents are the next evolution beyond chatbots and copilots. A chatbot answers questions. A copilot assists with tasks. An agent completes tasks independently. The economic potential is enormous — agents that can handle routine knowledge work (research, data analysis, customer service, code review) at a fraction of the cost and time. But reliability and safety challenges remain significant.
A design pattern where AI agents orchestrate multi-step processes — planning, executing tools, evaluating results, and iterating — to complete complex tasks. Unlike a single prompt-response exchange, agentic workflows involve loops: the agent acts, observes the result, decides what to do next, and continues until the task is complete or it needs human input.
Why it matters: Agentic workflows are how AI moves from "answer questions" to "do work." A chatbot answers one question at a time. An agentic workflow researches a topic, writes a draft, reviews it for accuracy, and revises it — all autonomously. This pattern is emerging in code generation (Cursor, Claude Code), research (Perplexity, Deep Research), and enterprise automation.
Standardized tests used to measure and compare AI model capabilities. MMLU tests knowledge across 57 academic subjects. HumanEval tests code generation. ARC tests scientific reasoning. HellaSwag tests commonsense reasoning. GSM8K tests math. Benchmark scores provide a common language for comparing models, though they have significant limitations.
Why it matters: Benchmarks are how the industry keeps score. When Anthropic says Claude scores X% on MMLU and Y% on HumanEval, those numbers only mean something if you know what the benchmarks test, how they're scored, and what their limitations are. Understanding benchmarks helps you cut through marketing claims and evaluate which model is actually best for your specific use case.
The convolutional neural network that won the 2012 ImageNet competition by a massive margin, triggering the deep learning revolution. Created by Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton, AlexNet reduced the image classification error rate from 26% to 16% — a gap so large it convinced the computer vision community that deep learning was fundamentally superior to hand-engineered features.
Why it matters: AlexNet is the "before and after" moment in AI history. Before 2012, most AI researchers worked on feature engineering and non-neural methods. After AlexNet, deep learning became the dominant paradigm. Every modern AI system — GPT, Claude, Stable Diffusion — traces its lineage to the paradigm shift that AlexNet triggered. It's the Big Bang of modern AI.
Exécuter plusieurs opérations d'attention en parallèle, chacune avec sa propre projection apprise des queries, keys et values. Au lieu d'une seule fonction d'attention qui regarde la dimension complète du modèle, l'attention multi-tête divise la dimension en plusieurs "têtes" (ex : 32 têtes de 128 dimensions chacune pour un modèle de 4096 dimensions). Chaque tête peut se concentrer sur différents types de relations simultanément.
Pourquoi c'est important : L'attention multi-tête est la raison pour laquelle les Transformers sont si expressifs. Une tête peut se concentrer sur les relations syntaxiques (sujet-verbe), une autre sur les patterns positionnels (mots proches), une autre sur la similarité sémantique. Cette spécialisation parallèle permet au modèle de capturer de nombreux types de dépendances simultanément, ce qu'une seule tête d'attention ne peut pas faire aussi efficacement.
Un réseau de neurones entraîné à reconstruire les activations internes d'un modèle à travers un goulot d'étranglement avec une contrainte de parcimonie — seules quelques features peuvent être actives à la fois. Les features apprises correspondent souvent à des concepts interprétables (sujets spécifiques, patterns linguistiques, stratégies de raisonnement), faisant des SAE l'outil principal pour démêler les features superposées à l'intérieur des grands modèles de langage.
Pourquoi c'est important : Les auto-encodeurs épars sont le microscope de l'interprétabilité mécaniste. Les LLM empaquettent des milliers de features dans chaque couche par superposition, rendant les neurones individuels ininterprétables. Les SAE décomposent ces représentations superposées en features individuelles et interprétables. Anthropic a utilisé les SAE pour identifier des millions de features dans Claude, incluant des features pour la tromperie, des concepts spécifiques et des comportements liés à la sécurité.
Une approche d'apprentissage auto-supervisé qui entraîne les modèles en contrastant des paires positives (items similaires qui devraient être proches dans l'espace d'embedding) avec des paires négatives (items dissimilaires qui devraient être éloignés). CLIP contraste les paires image-texte correspondantes avec les non correspondantes. SimCLR contraste les vues augmentées de la même image avec les vues d'images différentes. Le modèle apprend des représentations où la similarité dans l'espace d'embedding reflète la similarité du monde réel.
Pourquoi c'est important : L'apprentissage contrastif est la façon dont la plupart des modèles d'embedding sont entraînés — les modèles qui alimentent la recherche sémantique, le RAG et les recommandations. C'est aussi l'approche d'entraînement derrière CLIP, qui connecte le langage et la vision. Chaque fois que tu utilises des embeddings pour mesurer la similarité, l'apprentissage contrastif est probablement la façon dont ces embeddings ont été créés.
L'algorithme d'optimisation le plus utilisé pour l'entraînement des réseaux de neurones. Adam (Adaptive Moment Estimation) combine le momentum (utilisant une moyenne mobile des gradients passés) avec des taux d'apprentissage adaptatifs (mettant à l'échelle les mises à jour par l'inverse des magnitudes des gradients passés). AdamW ajoute un déclin de poids découplé pour une meilleure régularisation. Pratiquement tous les LLM modernes sont entraînés avec AdamW.
Pourquoi c'est important : Adam fonctionne bien sur une large gamme de tâches et d'hyperparamètres, ce qui en fait l'optimiseur par défaut. Le comprendre explique pourquoi l'entraînement « fonctionne tout simplement » la plupart du temps (Adam s'adapte par paramètre) et pourquoi parfois ça ne marche pas (les besoins mémoire d'Adam sont 2 fois les paramètres du modèle, ce qui compte pour les grands modèles). C'est aussi la réponse à « quel optimiseur je devrais utiliser ? » dans 90 % des cas.
La plateforme managée d'Amazon Web Services pour accéder et déployer des modèles de fondation de multiples fournisseurs (Anthropic, Meta, Mistral, Cohere, Stability AI, les modèles Titan d'Amazon) via une API unifiée. Bedrock gère l'hébergement, le scaling et le fine-tuning des modèles, permettant aux entreprises d'utiliser l'IA sans gérer l'infrastructure GPU. Il fournit aussi des garde-fous, des bases de connaissances (RAG) et des capacités d'agents.
Pourquoi c'est important : AWS Bedrock est la façon dont la plupart des entreprises Fortune 500 accèdent aux modèles IA. Son approche multi-modèles permet aux entreprises de comparer et basculer entre les fournisseurs (Claude, Llama, Mistral) via une seule API, évitant le verrouillage fournisseur. Pour les entreprises déjà sur AWS (ce qui est le cas de la plupart des grandes entreprises), Bedrock est le chemin de moindre résistance pour l'adoption de l'IA — même compte, même facturation, mêmes cadres de conformité.
Surveiller et comprendre le comportement des systèmes IA en production — suivre les entrées, sorties, la latence, les coûts, les erreurs et les métriques de qualité en temps réel. L'observabilité IA est comme le monitoring d'applications (Datadog, New Relic) mais spécialisée pour l'IA : tracer les paires prompt-réponse, détecter la dégradation de qualité, surveiller les hallucinations, et alerter sur les comportements anormaux.
Pourquoi c'est important : Déployer un système IA sans observabilité, c'est comme naviguer à l'aveugle. Tu ne sais pas si le modèle hallucine plus que d'habitude, si la latence augmente, si un type de requête spécifique échoue, ou si les coûts explosent. L'observabilité IA transforme « ça a l'air de marcher » en « on sait que ça marche, et on sait quand ça ne marche pas. » C'est la différence entre une démo et un système de production.
Comparing two AI system variants (different models, prompts, or configurations) by randomly assigning real users to each variant and measuring which performs better on metrics that matter. Unlike offline evaluation (benchmarks, test sets), A/B testing reveals how changes affect actual user behavior — engagement, satisfaction, task completion, and revenue.
Why it matters: Offline metrics don't always predict real-world performance. A model that scores higher on benchmarks might produce responses users like less. A prompt change that improves quality might increase latency to the point where users abandon. A/B testing is the only way to know if a change actually improves the user experience. It's how every major AI product makes deployment decisions.
Visualizing what a Transformer model "attends to" by displaying the attention weights as heatmaps. For each query token, the attention map shows how much weight it assigns to every other token. High weights (bright spots) indicate strong attention — the model considers those tokens highly relevant to the current computation.
Why it matters: Attention visualization is the most intuitive way to peek inside a Transformer and understand its reasoning. When a model translates "le chat noir" to "the black cat," attention maps show that "black" attends strongly to "noir" and "cat" to "chat." This helps debug model behavior, understand failures, and build intuition about how attention works.
Des métriques classiques pour évaluer la qualité de la génération de texte en comparant la sortie du modèle à des textes de référence. BLEU (Bilingual Evaluation Understudy) mesure combien de n-grammes du texte généré apparaissent dans la référence — conçu à l'origine pour la traduction automatique. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) mesure combien de n-grammes de la référence apparaissent dans le texte généré — conçu pour le résumé automatique.
Pourquoi c'est important : BLEU et ROUGE ont été les métriques d'évaluation standard en NLP pendant plus d'une décennie et sont encore largement utilisés. Les comprendre — et comprendre leurs limites — t'aide à évaluer les claims de recherche en NLP et à comprendre pourquoi le domaine se tourne vers l'évaluation humaine et l'évaluation par modèle. Un score BLEU élevé ne garantit pas la qualité ; un score BLEU faible ne garantit pas l'échec.
Bria Données d'entraînement sous licence, génération d'images entreprise
Compagnies
Entreprise israélienne d'IA qui a construit ses modèles de génération d'images exclusivement à partir de données d'entraînement sous licence et attribuées. Se positionne comme le choix sûr pour les entreprises qui ont besoin de visuels générés par l'IA sans risque de droit d'auteur.
Pourquoi c’est important : Bria est le cas de test le plus en vue pour déterminer si la génération d'images par IA peut reposer sur des données d'entraînement entièrement sous licence tout en restant commercialement compétitive. Dans un secteur confronté à une avalanche de litiges en matière de droits d'auteur, leur approche offre aux entreprises un chemin vers l'adoption de l'IA générative sans exposition juridique — une proposition de valeur qui gagne en pertinence à chaque nouvelle poursuite déposée contre des concurrents. Si Bria réussit, cela valide toute une philosophie de développement responsable de l'IA ; si elle peine, cela suggère que le marché ne se soucie finalement pas assez de la provenance des données pour payer un supplément.
ByteDance Doubao, TikTok, recommandations propulsées par IA
Compagnies
Société mère de TikTok et l'une des entreprises technologiques les plus valorisées au monde. Leur laboratoire d'IA développe la famille de modèles Doubao et alimente les algorithmes de recommandation qui servent plus d'un milliard d'utilisateurs quotidiennement.
Pourquoi c’est important : ByteDance est l'entreprise technologique privée la plus valorisée au monde et déploie l'IA à une échelle que peu d'organisations peuvent égaler, servant plus d'un milliard d'utilisateurs quotidiennement via TikTok, Douyin et une suite croissante de produits propulsés par l'IA. Leur famille de modèles Doubao et leur plateforme infonuagique Volcano Engine en font un concurrent redoutable dans la course aux modèles fondationnels, soutenus par quelque chose dont la plupart des startups d'IA ne peuvent que rêver : une activité principale massive et rentable, et une distribution intégrée auprès de plus d'un milliard d'utilisateurs.
Fondee par les createurs originaux de Stable Diffusion apres leur depart de Stability AI. Leurs modeles FLUX sont rapidement devenus la nouvelle reference en generation d'images open source, surpassant la qualite des modeles qu'ils avaient laisses derriere eux.
Pourquoi c’est important : Black Forest Labs represente le meilleur scenario possible pour l'IA open source : les architectes originaux de Stable Diffusion repartant a zero avec une meilleure technologie, une strategie d'affaires plus intelligente et la confiance de la communaute creative. FLUX.1 n'a pas simplement itere sur Stable Diffusion — il l'a surpasse d'un bond, et le modele de licence par paliers qu'ils ont inaugure devient le plan directeur pour les entreprises d'IA cherchant a equilibrer ouverture et revenus.
Un test standardisé utilisé pour évaluer et comparer les modèles d'IA. Les benchmarks mesurent des capacités spécifiques — le raisonnement (ARC), les mathématiques (GSM8K), la programmation (HumanEval), les connaissances générales (MMLU) — et produisent des scores comparables entre les modèles.
Pourquoi c’est important : Les benchmarks sont la façon dont l'industrie tient le score, mais ils sont imparfaits. Les modèles peuvent être entraînés pour exceller aux benchmarks sans être réellement meilleurs. La performance en conditions réelles raconte souvent une histoire différente. Considérez-les comme des signaux, pas comme des vérités.
Des schémas systématiques dans les sorties de l'IA qui reflètent ou amplifient les préjugés sociétaux présents dans les données d'entraînement. Les biais peuvent apparaître dans la génération de texte, la création d'images, les outils de recrutement, et partout où les modèles prennent des décisions qui affectent les gens différemment.
Pourquoi c’est important : Si les données d'entraînement disent que les infirmières sont des femmes et les ingénieurs sont des hommes, le modèle perpétuera cela. Les biais ne sont pas toujours évidents — ils se cachent dans les associations de mots, les présupposés par défaut et la représentation des uns et des autres.
BERT Bidirectional Encoder Representations from Transformers
Un modèle basé sur le Transformer de Google (2018) qui a révolutionné le NLP en introduisant le pré-entraînement bidirectionnel — chaque token peut porter attention à tous les autres tokens, donnant au modèle une compréhension contextuelle profonde. BERT est un modèle encodeur seulement : il excelle à comprendre le texte (classification, recherche, NER) mais ne peut pas générer du texte comme GPT ou Claude.
Pourquoi c'est important : BERT est l'article de NLP le plus influent de l'ère moderne. Il a prouvé que le pré-entraînement sur du texte non étiqueté suivi d'un ajustement fin sur des tâches spécifiques pouvait écraser tous les benchmarks existants. Même si les LLM ont volé la vedette, les modèles de type BERT alimentent encore la plupart des moteurs de recherche, systèmes d'embeddings et pipelines de classification en production parce qu'ils sont plus petits, plus rapides et moins chers que les LLM pour les tâches non génératives.
La taille de lot est le nombre d'exemples d'entraînement que le modèle traite avant de mettre à jour ses paramètres. Une époque est un passage complet à travers l'ensemble du jeu de données d'entraînement. Un modèle entraîné pendant 3 époques sur 1 million d'exemples avec une taille de lot de 1 000 traite 1 000 exemples par mise à jour, effectue 1 000 mises à jour par époque, et 3 000 mises à jour au total.
Pourquoi c'est important : La taille de lot et les époques sont les contrôles les plus fondamentaux de l'entraînement. La taille de lot affecte la vitesse d'entraînement, l'utilisation mémoire et même ce que le modèle apprend (les petits lots ajoutent du bruit qui peut aider la généralisation ; les gros lots convergent plus vite mais peuvent moins bien généraliser). Le nombre d'époques détermine combien de fois le modèle voit chaque exemple — trop peu et il sous-ajuste, trop et il surajuste.
The most common algorithm for building tokenizer vocabularies. BPE starts with individual bytes or characters and iteratively merges the most frequent adjacent pair into a new token. After thousands of merges, common words become single tokens ("the," "function") while rare words are split into subword pieces ("un" + "common"). Used by GPT, Claude, Llama, and most modern LLMs.
Why it matters: BPE is the reason your tokenizer works the way it does. It explains why common words are cheap (one token), why rare words are expensive (many tokens), and why non-English text costs more (fewer merges allocated to non-English character pairs). Understanding BPE helps you predict token counts, optimize prompts, and understand why different tokenizers produce different results for the same text.
A decoding strategy that maintains multiple candidate sequences (the "beam") simultaneously, expanding each by one token at each step and keeping only the top-scoring candidates. Unlike greedy decoding (always pick the best next token) or sampling (randomly pick), beam search explores multiple paths and finds the overall highest-probability sequence. Commonly used for translation and summarization.
Why it matters: Beam search shows that the locally best choice isn't always globally best. Greedy decoding might pick "The" as the first word when "In" would lead to a much better overall sentence. By keeping multiple candidates, beam search avoids committing too early. However, for open-ended generation (chat, creative writing), sampling produces more diverse and natural text than beam search.
The algorithm that computes how much each parameter in a neural network contributed to the error, enabling gradient descent to update parameters efficiently. Backpropagation applies the chain rule of calculus in reverse through the network: starting from the loss at the output, it propagates gradients backward through each layer to determine each weight's share of the blame.
Why it matters: Backpropagation is the algorithm that makes neural network training possible. Without an efficient way to compute gradients for billions of parameters, gradient descent would be computationally infeasible. Every model you use — from a small classifier to a 400B LLM — was trained using backpropagation. It's the single most important algorithm in deep learning.
Utiliser du calcul supplémentaire pendant l'inférence (quand le modèle génère une réponse) pour améliorer la qualité de la réponse. Au lieu de générer une réponse immédiatement, le modèle « réfléchit » plus longtemps — générant des tokens de raisonnement, explorant plusieurs approches ou vérifiant sa propre sortie. Plus de calcul au moment du test produit de meilleures réponses, surtout pour les tâches de raisonnement complexes.
Pourquoi c'est important : Le calcul au moment du test est le dernier paradigme de mise à l'échelle. La première ère a mis à l'échelle le calcul d'entraînement (modèles plus gros, plus de données). L'ère actuelle met aussi à l'échelle le calcul d'inférence (plus de réflexion par question). Des modèles comme o1 et Claude avec réflexion étendue montrent que laisser un modèle raisonner pendant 30 secondes surpasse souvent un modèle qui répond en 2 secondes, même si le modèle rapide est techniquement plus gros. Ça change l'économie : la qualité devient une fonction de combien tu es prêt à dépenser par requête.
Un pattern ou concept qu'un réseau de neurones apprend à détecter dans ses entrées. En vision, les caractéristiques des premières couches sont des bords et des textures ; celles des couches profondes sont des parties d'objets et des objets entiers. Dans les modèles de langage, les caractéristiques vont du simple (la lettre « a », un pattern syntaxique spécifique) à l'abstrait (le concept de sarcasme, une stratégie de raisonnement particulière). Les caractéristiques sont représentées comme des patterns d'activation à travers les neurones.
Pourquoi c'est important : Les caractéristiques sont ce que les modèles apprennent vraiment — pas des faits individuels mais des patterns qui généralisent. Un modèle ne mémorise pas « les chats ont de la fourrure » ; il apprend un détecteur de texture de fourrure qui s'active pour les chats, les chiens et les oursons en peluche. Comprendre les caractéristiques aide à expliquer le comportement des modèles : pourquoi ils généralisent (les caractéristiques se transfèrent), pourquoi ils échouent (mauvaise caractéristique activée), et comment les améliorer (les exposer à des caractéristiques plus diverses).
Une tâche d'apprentissage non supervisé qui regroupe des points de données similaires sans étiquettes prédéfinies. Avec des données d'achat de clients, le clustering pourrait découvrir des segments de clientèle distincts (chasseurs de bonnes affaires, acheteurs de luxe, acheteurs occasionnels). K-means est l'algorithme le plus courant : choisir K clusters, assigner chaque point au centre de cluster le plus proche, et affiner itérativement les centres.
Pourquoi c'est important : Le clustering est la tâche d'apprentissage non supervisé la plus courante et apparaît partout : segmentation de clientèle, regroupement de documents, détection d'anomalies (valeurs aberrantes qui ne rentrent dans aucun cluster), compression d'images (regroupement de pixels similaires) et exploration de données (quels groupes naturels existent dans mes données ?). C'est souvent la première étape pour comprendre un nouveau jeu de données.
Un cadre mathématique qui garantit la confidentialité individuelle dans l'analyse de données agrégées et l'entraînement de modèles. Avec la confidentialité différentielle, ajouter ou retirer les données d'un seul individu change la sortie d'au plus un petit montant borné. Ça signifie qu'on peut apprendre des patterns utiles d'un jeu de données sans révéler d'information sur une personne spécifique qu'il contient.
Pourquoi c'est important : Alors que l'IA s'entraîne sur des données de plus en plus personnelles (dossiers de santé, transactions financières, messages), la confidentialité différentielle fournit la plus forte garantie connue que les données individuelles ne peuvent pas être extraites du modèle. Elle est utilisée par Apple (prédictions au clavier), Google (analytique d'utilisation de Chrome) et le Bureau du recensement américain. Pour l'IA, elle répond à la préoccupation que les LLM puissent mémoriser et reproduire des données d'entraînement privées.
Couche Couche cachée, couche de réseau de neurones
Fondamentaux
Un groupe de neurones qui traite les données à un niveau d'abstraction spécifique dans un réseau de neurones. La couche d'entrée reçoit les données brutes. Les couches cachées (celles du milieu) apprennent des représentations de plus en plus abstraites. La couche de sortie produit le résultat final. L'apprentissage « profond » signifie beaucoup de couches cachées — les LLM modernes en ont de 32 à 128+.
Pourquoi c'est important : Les couches créent la hiérarchie qui rend l'apprentissage profond puissant. Les premières couches apprennent des patterns simples (des bords dans les images, des fragments de mots dans le texte). Les couches intermédiaires combinent ces patterns en concepts (visages, phrases). Les couches profondes combinent les concepts en compréhension de haut niveau (reconnaissance de scènes, raisonnement). La profondeur d'un réseau détermine la complexité des patterns qu'il peut apprendre.
Le domaine de l'IA axé sur la capacité des machines à interpréter et comprendre l'information visuelle du monde — images, vidéo, scènes 3D et documents. La vision par ordinateur propulse tout, de la reconnaissance faciale et la conduite autonome à l'imagerie médicale et la génération d'images par IA. Les tâches fondamentales incluent la détection d'objets, la classification d'images, la segmentation, l'OCR et l'estimation de pose.
Pourquoi c’est important : La vision par ordinateur a été le premier domaine où l'apprentissage profond a clairement dépassé la performance humaine (ImageNet 2012), et elle reste l'une des applications commerciales les plus impactantes de l'IA. Chaque image ou vidéo IA que vous générez, chaque document que vous passez en OCR, chaque caméra de sécurité avec détection intelligente — c'est tout de la vision par ordinateur.
Utiliser l'IA pour détecter et filtrer le contenu nuisible, illégal ou contraire aux politiques à grande échelle. Cela inclut la classification de texte (discours haineux, pourriel, menaces), l'analyse d'images (détection NSFW, CSAM), et la modération vidéo. Les systèmes modernes combinent des classificateurs IA avec une revue humaine, mais le volume de contenu généré par l'IA elle-même crée une crise de modération — il faut désormais de l'IA pour modérer l'IA.
Pourquoi c’est important : Chaque plateforme avec du contenu généré par les utilisateurs a besoin de modération, et l'IA est le seul moyen de gérer l'échelle. Mais la modération est plus difficile qu'il n'y paraît — le contexte compte, les normes culturelles diffèrent, et les faux positifs réduisent au silence la parole légitime tandis que les faux négatifs laissent passer le préjudice.
Entreprise en démarrage spécialisée en voix IA, construite sur une architecture de modèles d'espace d'états (SSM) plutôt que sur des transformers. Leurs modèles Sonic atteignent une latence ultra-faible en génération vocale, rendant l'IA conversationnelle en temps réel véritablement naturelle pour la première fois.
Pourquoi c’est important : Cartesia compte parce qu'elle a prouvé que les modèles d'espace d'états ne sont pas qu'une curiosité de recherche, mais une architecture commercialement viable pour la voix IA en temps réel. Leur latence inférieure à 100 millisecondes rend l'IA conversationnelle véritablement naturelle possible pour la première fois, comblant l'écart entre « parler à un robot » et « parler à une personne ». Alors que l'industrie se tourne vers des agents IA axés sur la voix, l'avantage architectural de Cartesia en matière de vitesse de diffusion en continu pourrait en faire la couche d'infrastructure sur laquelle tous les autres construisent.
Entreprise d'IA axée sur les entreprises, cofondée par Aidan Gomez, l'un des coauteurs de l'article fondateur « Attention Is All You Need » sur le Transformer. Spécialisée dans les modèles optimisés pour les cas d'usage professionnels, le RAG et le support multilingue.
Pourquoi c’est important : Cohere représente le cas d'étude le plus clair pour déterminer si une entreprise d'IA ciblée et axée sur les entreprises peut prospérer de manière indépendante à une époque dominée par les hyperscalers à mille milliards de dollars et les laboratoires de pointe tournés vers le grand public. Leur filiation avec l'article sur le Transformer leur confère une véritable crédibilité technique, leur flexibilité de déploiement résout un vrai problème pour les industries réglementées, et leurs modèles de plongement et de reclassement sont devenus des outils incontournables pour les systèmes RAG en production à travers le monde. Si l'avenir de l'IA repose moins sur les agents conversationnels et davantage sur une infrastructure tissée dans chaque flux de travail professionnel, Cohere est positionnée pour avoir une importance considérable.
Une technique de prompting où l'on demande au modèle de montrer son raisonnement étape par étape avant de donner une réponse finale. Au lieu de sauter à une conclusion, le modèle « réfléchit à voix haute », ce qui améliore considérablement la précision sur les tâches complexes.
Pourquoi c’est important : Demander « expliquez votre raisonnement » n'est pas seulement une question de transparence — cela rend réellement les modèles plus intelligents. La chaîne de pensée a réduit les erreurs mathématiques jusqu'à 50 % dans les premières études. La plupart des modèles modernes le font maintenant de manière interne.
La quantité maximale de texte (mesurée en tokens) qu'un modèle peut traiter dans une seule conversation. Cela inclut à la fois votre entrée et la sortie du modèle. Si un modèle a une fenêtre de contexte de 200 000 tokens, cela représente environ 150 000 mots — soit deux romans.
Pourquoi c’est important : La taille de la fenêtre de contexte détermine ce que vous pouvez faire. Résumer une base de code complète ? Il faut un grand contexte. Question-réponse rapide ? Un petit suffit. Mais plus grand n'est pas toujours mieux — les modèles peuvent perdre le fil dans les contextes très longs.
L'ensemble de textes (ou d'autres données) utilisé pour entraîner un modèle. Un corpus peut aller de collections organisées de livres et d'articles à des collectes massives de l'ensemble d'Internet. La qualité et la composition du corpus déterminent fondamentalement ce que le modèle sait et comment il se comporte.
Pourquoi c’est important : Données de mauvaise qualité, résultats de mauvaise qualité. Un modèle entraîné sur Reddit parle différemment d'un modèle entraîné sur des articles scientifiques. C'est pourquoi nous avons constitué notre propre corpus pour Sarah — les collectes web génériques produisaient des résultats confus et incohérents.
Interface logicielle pour l'interaction conversationnelle avec l'IA. Les chatbots modernes (Claude, ChatGPT, Gemini) sont alimentés par des LLM et gèrent le dialogue ouvert, le code, les images et les outils.
Pourquoi c'est important : La façon principale dont la plupart des gens interagissent avec l'IA. Le chatbot est un produit construit sur le modèle, pas le modèle lui-même.
Éditeur de code natif IA (fork de VS Code). Intégration LLM profonde : génération inline, édition multi-fichiers, contexte conscient de la base de code.
Pourquoi c'est important : Le pari que l'IA change fondamentalement la façon d'écrire du code. Adoption rapide, gains de productivité tangibles.
La tâche d'assigner une entrée à l'une d'un ensemble prédéfini de catégories. « Ce courriel est-il du spam ou non ? » (classification binaire). « Cette image est-elle un chat, un chien ou un oiseau ? » (multi-classe). « Quelles étiquettes s'appliquent à cet article ? » (multi-étiquettes). La classification est la tâche d'apprentissage supervisé la plus courante et la base d'innombrables applications réelles de l'IA.
Pourquoi c'est important : La classification est là où la plupart des gens rencontrent l'apprentissage automatique en pratique — filtres anti-spam, modération de contenu, diagnostic médical, détection de fraude, analyse de sentiment. Comprendre la classification t'aide à comprendre tout le pipeline d'apprentissage supervisé : données étiquetées en entrée, modèle entraîné, prédictions en sortie.
Une architecture de réseau de neurones conçue pour traiter des données en grille (images, spectrogrammes audio) en faisant glisser de petits filtres (noyaux) sur l'entrée pour détecter des patterns locaux comme les contours, les textures et les formes. Les CNN ont dominé la vision par ordinateur de 2012 (AlexNet) jusqu'à l'émergence des Vision Transformers vers 2020. Ils sont encore largement utilisés en production, surtout sur les appareils en périphérie.
Pourquoi c'est important : Les CNN ont lancé la révolution de l'apprentissage profond. La victoire d'AlexNet sur ImageNet en 2012 a prouvé que les réseaux de neurones profonds pouvaient surpasser de façon spectaculaire les caractéristiques conçues à la main, déclenchant le boom actuel de l'IA. Comprendre les CNN t'aide à comprendre pourquoi les Transformers fonctionnent (beaucoup des mêmes idées — caractéristiques hiérarchiques, partage de paramètres — s'appliquent), et les CNN restent le meilleur choix pour beaucoup de tâches de vision sur des appareils à ressources limitées.
Une technique d'alignement développée par Anthropic où un modèle est entraîné à suivre un ensemble de principes (une « constitution ») plutôt que de dépendre uniquement du feedback humain pour chaque décision. Le modèle critique et révise ses propres sorties en fonction de ces principes, puis est entraîné sur les sorties révisées. Cela réduit le besoin d'annotateurs humains et rend les critères d'alignement explicites et auditables.
Pourquoi c'est important : L'IA constitutionnelle résout deux problèmes du RLHF : c'est coûteux (des annotateurs humains pour chaque exemple d'entraînement) et opaque (les critères sont implicites dans les jugements des annotateurs). En rendant les principes explicites, l'IA constitutionnelle rend l'alignement plus transparent, évolutif et cohérent. C'est une partie centrale de la façon dont Claude est entraîné.
Quand un réseau de neurones entraîné sur une nouvelle tâche perd sa capacité à exécuter les tâches précédemment apprises. Ajuster finement un modèle sur des données de service client pourrait le rendre excellent en support mais terrible en programmation. Le nouvel apprentissage écrase les poids qui encodaient les anciennes capacités, les « oubliant ».
Pourquoi c'est important : L'oubli catastrophique est le défi central de l'ajustement fin et de l'apprentissage continu. C'est pourquoi tu ne peux pas simplement continuer à ajuster un modèle sur tâche après tâche en espérant qu'il fasse tout bien. C'est aussi pourquoi des techniques comme LoRA (qui ne modifient qu'un petit sous-ensemble de paramètres) et un choix soigneux du taux d'apprentissage sont critiques pour préserver les capacités du modèle de base.
Contamination Contamination des données, fuite de benchmarks
Quand les données de test d'un benchmark apparaissent dans les données d'entraînement d'un modèle, gonflant ses scores sans refléter une capacité réelle. Si un modèle a « étudié le corrigé » en voyant les questions de test pendant l'entraînement, sa performance au benchmark est sans signification. La contamination est un problème croissant à mesure que les jeux de données d'entraînement grossissent et récupèrent davantage d'internet, où les données de benchmark sont souvent publiées.
Pourquoi c'est important : La contamination mine tout le système de benchmarks que l'industrie de l'IA utilise pour comparer les modèles. Un modèle qui score 90 % sur MMLU parce qu'il a mémorisé les réponses n'est pas plus intelligent qu'un autre scorant 80 % qui ne les a jamais vues. À mesure que plus de benchmarks fuient dans les données d'entraînement, la communauté est forcée de créer de nouveaux benchmarks constamment, et les évaluations privées avec des données retenues deviennent plus importantes que les classements publics.
Une plateforme participative (par LMSYS) où les utilisateurs discutent avec deux modèles d'IA anonymes côte à côte et votent pour la meilleure réponse. Les résultats sont utilisés pour calculer des scores ELO — le même système de classement utilisé aux échecs — créant un tableau de bord continuellement mis à jour de la qualité des modèles basé sur de vraies préférences humaines plutôt que des benchmarks automatisés.
Pourquoi c'est important : Chatbot Arena est sans doute la comparaison de modèles la plus fiable aujourd'hui parce qu'elle résiste à la contamination (les questions sont originales), reflète de vraies préférences utilisateurs (pas des benchmarks synthétiques), et met les modèles face à face (la comparaison relative est plus fiable que les scores absolus). Quand les gens disent « Claude est meilleur que GPT pour le code » ou vice versa, les classements Arena sont souvent la preuve citée.
Une entreprise de puces qui construit des processeurs d'IA à l'échelle du wafer — des puces de la taille d'un wafer de silicium entier, plus de 100x plus grandes qu'un GPU standard. Le Cerebras WSE-3 (Wafer Scale Engine) contient 4 trillions de transistors et 900 000 cœurs. Leurs systèmes CS-3 sont conçus tant pour l'entraînement que l'inférence, offrant une alternative aux clusters de milliers de GPU individuels.
Pourquoi c'est important : Cerebras représente la refonte la plus radicale du matériel d'IA. Au lieu de connecter des milliers de petites puces avec une bande passante limitée, ils mettent tout sur une seule puce massive avec une bande passante mémoire sur puce énorme. L'avantage potentiel est d'éliminer le goulot d'étranglement de communication qui limite l'entraînement multi-GPU. La question à un milliard de dollars est de savoir si le calcul à l'échelle du wafer peut concurrencer l'écosystème massif de NVIDIA.
An attention mechanism where the queries come from one sequence and the keys/values come from a different sequence. In encoder-decoder models, the decoder's queries attend to the encoder's keys and values, allowing the decoder to "look at" the input while generating the output. Cross-attention is also how text conditions image generation in diffusion models — the image generation process attends to the text prompt.
Why it matters: Cross-attention is the bridge between different modalities and different parts of an architecture. It's how translation models connect source and target languages, how image generators follow text prompts, how multimodal models relate images to text, and how Retrieval-Augmented systems incorporate retrieved documents. Any time two different inputs need to interact, cross-attention is usually involved.
Techniques that enable language models to handle sequences longer than those seen during training. A model trained on 4K tokens can be extended to 32K or 128K through modifications to its positional encoding (typically RoPE) combined with short fine-tuning on longer sequences. This avoids the enormous cost of training from scratch on long sequences.
Why it matters: Context length extension is why models have gone from 4K to 128K to 1M+ context windows in just two years. The cost of training a model from scratch on million-token sequences would be prohibitive. Extension techniques make long-context models practical by adapting models that were trained on shorter sequences, requiring only a fraction of the original training compute.
A measure of similarity between two vectors based on the angle between them, ignoring their magnitude. Cosine similarity of 1 means the vectors point in the same direction (identical meaning). 0 means they're perpendicular (unrelated). -1 means opposite directions. It's the standard similarity metric for comparing text embeddings in semantic search, RAG, and recommendation systems.
Why it matters: Every time you do semantic search, use RAG, or compare embeddings, cosine similarity is (probably) the metric deciding what's "similar." Understanding it helps you debug retrieval quality, choose between cosine and alternatives (dot product, Euclidean distance), and understand why some searches miss obvious matches.
A model from OpenAI (2021) that learns to connect images and text by training on 400 million image-caption pairs. CLIP encodes images and text into the same embedding space, where matching image-text pairs are close together and non-matching pairs are far apart. It's the bridge between language and vision in most modern multimodal AI systems.
Why it matters: CLIP is the backbone of text-to-image generation (Stable Diffusion, DALL-E), image search, zero-shot image classification, and multimodal understanding. When you type a prompt and get an image, CLIP (or a descendant) is what connects your words to visual concepts. It proved that you can learn powerful visual representations from natural language supervision alone, without labeled image datasets.
An architecture that adds spatial control to image generation models. Instead of just describing what you want in text ("a person standing"), ControlNet lets you specify how — providing an edge map, depth map, pose skeleton, or segmentation map that guides the composition. The generated image follows the spatial structure of your control input while filling in details from the text prompt.
Why it matters: ControlNet made AI image generation usable for professional workflows. Without it, you get random compositions and hope for the best. With it, you specify the exact pose, layout, or structure you need. This is the difference between "generate something vaguely like what I want" and "generate exactly this composition with these details" — critical for design, advertising, and production work.
A saved snapshot of a model's state during training — the weights, optimizer state, learning rate schedule, and training step. Checkpoints let you resume training after interruptions (hardware failure, preemption), evaluate intermediate versions of the model, and roll back to an earlier version if training degrades. Saving checkpoints every few thousand steps is standard practice.
Why it matters: Training large models takes days to months. Without checkpoints, a GPU failure at step 90,000 of a 100,000-step training run means starting over. Checkpoints are insurance: they save progress incrementally so you only lose work since the last checkpoint. They also enable model selection — sometimes an earlier checkpoint performs better on your evaluation metrics than the final one.
Une connexion qui contourne une ou plusieurs couches en ajoutant directement l'entrée à la sortie : output = layer(x) + x. Au lieu que chaque couche apprenne une transformation complète, elle n'a qu'à apprendre le "résidu" — la différence par rapport à la fonction identité. Les connexions résiduelles sont présentes dans chaque couche de Transformer et sont essentielles pour entraîner des réseaux profonds.
Pourquoi c'est important : Sans connexions résiduelles, les réseaux profonds sont quasi impossibles à entraîner — les gradients s'évanouissent ou explosent à travers de nombreuses couches. Les connexions résiduelles fournissent une autoroute de gradients qui permet à l'information (et aux gradients) de circuler directement des couches initiales aux couches finales, en contournant n'importe quel nombre de transformations intermédiaires. C'est grâce à elles qu'on peut entraîner des réseaux de 100+ couches.
Couche d'embedding Token Embedding, table d'embedding, table de correspondance
Fondamentaux
Une table de correspondance qui associe chaque token du vocabulaire à un vecteur dense (l'embedding du token). Quand le modèle reçoit le token ID 42, la couche d'embedding retourne la ligne 42 d'une matrice apprise. Ce vecteur est la représentation initiale du modèle pour ce token — le point de départ de tout le traitement ultérieur à travers les couches d'attention et feedforward.
Pourquoi c'est important : La couche d'embedding est l'endroit où le texte devient des maths. Chaque LLM commence par convertir des tokens discrets (mots, sous-mots) en vecteurs continus que le réseau de neurones peut traiter. La table d'embedding est aussi l'un des plus gros composants des petits modèles — un vocabulaire de 128K avec des embeddings de 4096 dimensions, c'est 512 millions de paramètres. Comprendre cela t'aide à raisonner sur les tailles de modèles et la conception du vocabulaire.
Une opération mathématique qui fait glisser un petit filtre (noyau) sur une entrée pour détecter des patterns locaux. Dans les images, un noyau 3×3 glisse sur chaque position, calculant un produit scalaire avec les pixels sous-jacents pour produire une carte de caractéristiques. Différents noyaux détectent différents patterns : bords horizontaux, bords verticaux, textures, et finalement des caractéristiques complexes comme des yeux ou des roues dans les couches plus profondes.
Pourquoi c'est important : La convolution est l'opération qui a fait fonctionner la vision par ordinateur. Elle encode deux hypothèses puissantes : la localité (les pixels voisins sont liés) et l'équivariance par translation (un pattern est le même quel que soit l'endroit où il apparaît). Ces hypothèses réduisent dramatiquement le nombre de paramètres par rapport aux couches entièrement connectées, rendant faisable le traitement d'images haute résolution. Même à l'ère des Transformers, les convolutions sont utilisées dans beaucoup d'architectures hybrides.
Une plateforme pour créer et discuter avec des personnages IA — des personnalités fictives, des figures historiques et des personas personnalisés qui maintiennent une personnalité, des connaissances et des patterns de parole cohérents à travers les conversations. Fondée par d'anciens chercheurs de Google Brain, Character.AI a été l'un des premiers produits IA à atteindre une adoption massive par les consommateurs, avec des millions d'utilisateurs quotidiens, principalement des démographies plus jeunes.
Pourquoi c'est important : Character.AI a prouvé que l'IA sociale/divertissement pouvait générer un engagement massif — les utilisateurs passent plus de temps sur Character.AI que sur beaucoup de plateformes de réseaux sociaux. Elle a été pionnière dans la catégorie « compagnon IA » et a démontré que la cohérence de personnalité, l'engagement émotionnel et la capacité de jeu de rôle sont aussi commercialement importants que la précision factuelle. Google a investi 2,7 G$ dans l'entreprise en 2024.
A technique for evaluating model performance when you don't have enough data for a separate test set. K-fold cross-validation splits data into K equal parts, trains on K−1 parts and evaluates on the remaining part, rotating K times so every data point is used for both training and evaluation. The average score across all K folds gives a more reliable performance estimate than a single train/test split.
Why it matters: Cross-validation is essential when data is scarce — if you only have 500 examples, setting aside 100 for testing means training on 20% less data. Cross-validation uses all data for both training and evaluation. It also gives you a confidence interval (variance across folds) rather than a single number, telling you how stable your model's performance is.
A specialized cloud provider built entirely around GPU computing for AI workloads. CoreWeave operates large clusters of NVIDIA GPUs (H100, H200) and has secured billions in funding and debt financing to build GPU data centers. Major AI companies (including Microsoft and several AI labs) use CoreWeave for training and inference at scale.
Why it matters: CoreWeave is one of the fastest-growing infrastructure companies in AI, betting that specialized GPU cloud providers can outcompete general-purpose hyperscalers for AI workloads. Their focus allows more efficient GPU utilization, purpose-built networking (InfiniBand for training clusters), and pricing that undercuts AWS/GCP by 30–50% for GPU-intensive work.
Un fournisseur de cloud spécialisé entièrement construit autour du calcul GPU pour les charges de travail IA. CoreWeave exploite de grands clusters de GPU NVIDIA (H100, H200) et a sécurisé des milliards en financement et en dette pour construire des centres de données GPU. De grandes entreprises IA (y compris Microsoft et plusieurs labos IA) utilisent CoreWeave pour l'entraînement et l'inférence à grande échelle.
Pourquoi c'est important : CoreWeave est l'une des entreprises d'infrastructure à la croissance la plus rapide en IA, pariant que les fournisseurs de cloud GPU spécialisés peuvent surpasser les hyperscalers généralistes pour les charges de travail IA. Leur spécialisation permet une utilisation plus efficace des GPU, un réseau conçu spécifiquement (InfiniBand pour les clusters d'entraînement), et des prix qui sous-cotent AWS/GCP de 30 à 50 % pour le travail intensif en GPU.
Une technologie qui peut être utilisée à des fins aussi bien bénéfiques que nuisibles. L'IA est intrinsèquement à double usage : le même modèle qui aide un médecin à diagnostiquer des maladies pourrait aider un acteur malveillant à synthétiser des composés dangereux. Le même modèle de génération de code qui accélère le développement logiciel pourrait aider à créer des logiciels malveillants. Gérer le risque du double usage est un défi central de la gouvernance de l'IA.
Pourquoi c'est important : Le double usage est la tension fondamentale du développement de l'IA. Rendre les modèles plus capables les rend inévitablement plus capables de nuire. Tu ne peux pas construire un moteur de raisonnement puissant qui ne raisonne que sur les bonnes choses. Cette tension alimente les débats sur les sorties open source, les restrictions d'API et la réglementation — comment maximiser les bénéfices tout en minimisant les dommages quand la même capacité permet les deux ?
Un sous-ensemble de l'apprentissage automatique qui utilise des réseaux de neurones comportant de nombreuses couches (d'où le terme « profond ») pour apprendre des représentations hiérarchiques des données. Chaque couche transforme son entrée en quelque chose légèrement plus abstrait — des pixels aux bords, aux formes, aux objets, jusqu'aux concepts. L'apprentissage profond est ce qui a rendu possible la révolution actuelle de l'intelligence artificielle : c'est l'approche utilisée par les LLM, les générateurs d'images, la reconnaissance vocale et presque toutes les percées en intelligence artificielle depuis 2012.
Pourquoi c’est important : L'apprentissage profond est le moteur de l'ère actuelle de l'intelligence artificielle. Avant 2012, l'IA était une mosaïque d'algorithmes spécialisés. L'apprentissage profond a unifié tout sous un seul paradigme : empiler suffisamment de couches, alimenter en suffisamment de données, appliquer suffisamment de puissance de calcul, et le modèle s'occupe du reste. Comprendre l'apprentissage profond, c'est comprendre pourquoi l'IA fonctionne soudainement.
L'écosystème de bibliothèques, de cadres et de plateformes qui facilitent la construction d'applications propulsées par l'IA. Cela inclut les cadres d'orchestration (LangChain, LlamaIndex), les serveurs d'inférence (vLLM, llama.cpp), les outils d'affinage (Axolotl, Unsloth), les cadres d'évaluation (LMSYS, Braintrust) et les plateformes complètes (Vercel AI SDK, Hugging Face). Le paysage des outils change chaque mois.
Pourquoi c’est important : Les API de modèles bruts sont nécessaires mais pas suffisantes. Les outils de développement comblent l'écart entre « j'ai une clé API » et « j'ai une application en production ». Les bons outils peuvent réduire le temps de développement de mois à jours, tandis que les mauvais ajoutent de la complexité sans valeur.
Des images, vidéos ou fichiers audio générés par IA conçus pour montrer de manière convaincante de vraies personnes disant ou faisant des choses qu'elles n'ont jamais faites. Construits à l'origine sur la technologie GAN, les hypertrucages modernes utilisent des modèles de diffusion et le clonage vocal pour produire des résultats de plus en plus difficiles à distinguer de la réalité. Des outils de détection existent mais sont systématiquement en retard sur les capacités de génération.
Pourquoi c’est important : Les hypertrucages sont le côté sombre du pouvoir créatif de l'IA générative. Ils ont été utilisés pour la fraude, l'imagerie intime non consentie, la manipulation politique et le vol d'identité. La technologie est maintenant assez accessible pour que n'importe qui avec un portable puisse créer des faux convaincants, rendant la détection, le filigranage et les cadres juridiques des priorités urgentes.
Les installations physiques qui abritent les serveurs, les GPU, les équipements réseau et les systèmes de refroidissement nécessaires pour entraîner et faire tourner les modèles d'IA. Les centres de données modernes pour l'IA sont construits sur mesure pour le calcul parallèle massif, consommant des mégawatts d'électricité et nécessitant un refroidissement spécialisé. Un seul entraînement de modèle de pointe peut occuper des milliers de GPU dans une installation entière pendant des mois.
Pourquoi c’est important : Les centres de données sont les usines de l'ère de l'IA. Chaque requête à Claude, chaque image de Midjourney, chaque vidéo de Runway tourne sur du matériel installé dans un de ces bâtiments. La pénurie mondiale de capacité de centres de données prêts pour l'IA est l'une des plus grandes contraintes sur la croissance de l'IA — et l'une des plus grandes opportunités d'investissement.
Entreprise allemande d'IA largement considérée comme le meilleur service de traduction automatique au monde. Construite par une équipe de linguistes computationnels qui surpasse constamment Google Translate et les autres offres des géants technologiques, particulièrement pour les langues européennes.
Pourquoi c’est important : DeepL est la preuve vivante qu'une entreprise d'IA spécialisée peut constamment surpasser des concurrents valant des milliers de milliards de dollars sur une compétence fondamentale. Dans un domaine où plus gros signifie habituellement meilleur, l'avantage de DeepL en qualité de traduction par rapport à Google et Microsoft demeure mesurable et significatif, surtout pour les langues européennes et les cas d'utilisation professionnels. Leur succès remet en question l'hypothèse selon laquelle les modèles d'IA polyvalents finiront inévitablement par banaliser les tâches spécialisées — et pour les centaines de milliers d'entreprises qui dépendent d'une communication multilingue précise, cette spécialisation vaut la peine d'être payée.
Decart AI Simulation de monde en temps réel, génération de jeux
Compagnies
Entreprise israélienne d'IA qui repousse les limites de la génération IA en temps réel. Leur technologie peut générer des environnements interactifs similaires à des jeux vidéo en temps réel, brouillant la frontière entre le rendu traditionnel et la génération par IA.
Pourquoi c’est important : Decart AI a démontré quelque chose que la plupart des gens pensaient être encore à des années de distance : un réseau de neurones générant un monde 3D interactif et jouable en temps réel, sans aucun moteur de jeu traditionnel impliqué. Leur démonstration Oasis était une preuve de concept pour la simulation de monde native de l'IA, une technologie aux implications bien au-delà du jeu vidéo — de la conduite autonome à la robotique en passant par l'informatique spatiale. Si les modèles du monde en temps réel deviennent viables à un niveau de qualité production, les travaux pionniers de Decart en optimisation d'inférence et en génération interactive auront été fondateurs.
Laboratoire d'IA chinois qui a secoué l'industrie début 2025 avec DeepSeek-R1, un modèle de raisonnement rivalisant avec les laboratoires de pointe pour une fraction du coût d'entraînement. Soutenu par le fonds spéculatif quantitatif High-Flyer.
Pourquoi c’est important : DeepSeek a fait voler en éclats l'hypothèse selon laquelle l'IA de pointe nécessitait des budgets de pointe. Leur approche centrée sur l'efficacité — atteignant des performances de classe GPT-4 et o1 pour une fraction du coût d'entraînement — a forcé l'ensemble de l'industrie à repenser le narratif selon lequel la mise à l'échelle est la seule voie, et à se recentrer sur l'innovation architecturale. La publication en poids ouverts de R1 sous licence MIT a démocratisé l'accès aux modèles de raisonnement d'une manière qu'aucun laboratoire occidental n'avait faite. Et sur le plan géopolitique, DeepSeek a prouvé que les contrôles à l'exportation seuls ne peuvent contenir les capacités en IA, une prise de conscience aux implications profondes pour les politiques technologiques, l'investissement et l'équilibre mondial des forces en IA.
Deepgram Nova reconnaissance vocale, Aura synthèse vocale
Compagnies
Entreprise d'IA vocale qui construit des API rapides et precises de reconnaissance vocale et de synthese vocale. Leurs modeles Nova rivalisent avec et surpassent souvent Whisper d'OpenAI en precision tout en fonctionnant nettement plus vite pour les applications en temps reel.
Pourquoi c’est important : Deepgram a prouve qu'une startup pouvait construire la reconnaissance vocale de zero en utilisant l'apprentissage profond de bout en bout et rivaliser directement avec Google, Amazon et Microsoft en precision tout en les surpassant en vitesse. Leur approche API axee sur les developpeurs a apporte les modeles d'infrastructure modernes a l'IA vocale, rendant l'ajout de transcription a une application aussi simple que l'ajout de paiements avec Stripe. Alors que les agents d'IA conversationnelle deviennent courants, Deepgram se positionne comme la couche d'infrastructure vocale critique en dessous — la plomberie qui fait reellement fonctionner l'IA vocale en production.
Un type de modèle génératif qui crée des images (ou de la vidéo, de l'audio) en partant de bruit pur et en le retirant graduellement jusqu'à ce qu'une sortie cohérente apparaisse. Le modèle apprend à inverser le processus d'ajout de bruit à des données réelles. Stable Diffusion, DALL-E 3 et Midjourney utilisent tous des variantes de cette approche.
Pourquoi c’est important : Les modèles de diffusion ont détrôné les GAN comme technique dominante de génération d'images vers 2022. Ils produisent des sorties plus diversifiées et contrôlables et sont le moteur de presque tous les outils d'IA pour l'image et la vidéo aujourd'hui.
Entraîner un modèle « élève » plus petit à imiter un modèle « professeur » plus grand en apprenant à partir des distributions de probabilité souples du professeur plutôt que des labels bruts.
Pourquoi c'est important : La distillation rend l'IA puissante accessible. Une distillation 70B→7B peut capturer 90% des capacités à 10% du coût.
Une alternative au RLHF pour l'alignement. Le DPO optimise directement le modèle en utilisant des paires de réponses préférées/rejetées, sans modèle de récompense séparé ni RL. Plus simple, plus stable, moins de calcul.
Pourquoi c'est important : Le DPO a démocratisé l'alignement. Le pipeline multi-étapes du RLHF est capricieux ; le DPO le ramène à une seule étape.
Une collection structurée de données utilisée pour entraîner, évaluer ou tester un modèle d'apprentissage automatique. Les jeux de données peuvent être étiquetés (chaque exemple a une réponse correcte connue) ou non étiquetés (données brutes sans annotations). La qualité, la taille, la diversité et la représentativité d'un jeu de données déterminent fondamentalement ce qu'un modèle peut apprendre.
Pourquoi c'est important : Poubelle en entrée, poubelle en sortie. L'architecture la plus élégante entraînée sur un mauvais jeu de données produira de mauvais résultats. Inversement, un modèle simple entraîné sur d'excellentes données surpasse souvent un modèle complexe entraîné sur du bruit. La curation des données est sans doute la partie la plus impactante et la moins glamour du développement en IA.
Une technique de régularisation qui « éteint » aléatoirement une fraction des neurones pendant chaque étape d'entraînement en mettant leurs sorties à zéro. Cela empêche le réseau de trop dépendre d'un seul neurone, le forçant à apprendre des représentations distribuées et robustes. À l'inférence, tous les neurones sont actifs mais mis à l'échelle en conséquence.
Pourquoi c'est important : Le dropout est la défense la plus simple et la plus utilisée contre le surajustement. Sans régularisation, les grands réseaux de neurones mémorisent les données d'entraînement au lieu d'apprendre des patterns généralisables. Le dropout (et son cousin la décroissance des poids) expliquent pourquoi les modèles peuvent être beaucoup plus grands que leurs ensembles d'entraînement sans tout mémoriser.
Une architecture qui remplace le backbone U-Net traditionnellement utilisé dans les modèles de diffusion par un Transformer. Le DiT applique le mécanisme d'attention à la génération d'images, permettant le même comportement de mise à l'échelle qui a rendu les LLM si puissants. Sora, Flux, Stable Diffusion 3 et la plupart des générateurs d'images et de vidéos de pointe utilisent DiT ou des variantes.
Pourquoi c'est important : DiT a unifié les mondes de la génération de langage et d'images sous un seul paradigme architectural : le Transformer. Cela signifie que les lois d'échelle, les techniques d'entraînement et les stratégies d'optimisation développées pour les LLM se transfèrent largement à la génération d'images et de vidéos. C'est pourquoi la qualité d'image a progressé si rapidement — le domaine surfe la même courbe de mise à l'échelle que le langage.
Des techniques qui élargissent artificiellement un jeu de données d'entraînement en créant des versions modifiées des exemples existants. Pour les images : retournement, rotation, recadrage, modification des couleurs. Pour le texte : paraphrase, traduction aller-retour, substitution de synonymes. Pour l'audio : changement de vitesse, injection de bruit. L'objectif est d'enseigner au modèle les invariances — un chat est un chat que l'image soit retournée, assombrie ou recadrée.
Pourquoi c'est important : L'augmentation de données est le moyen le moins cher d'améliorer la performance d'un modèle quand tu as des données limitées. Elle réduit le surajustement en montrant au modèle de nombreuses variations de chaque exemple, lui apprenant à se concentrer sur les caractéristiques essentielles plutôt que les détails superficiels. En vision par ordinateur, l'augmentation fournit couramment 2–5 % d'amélioration d'exactitude gratuitement.
Training a model across multiple GPUs or machines simultaneously. Data parallelism gives each GPU a copy of the model and splits the training data. Model parallelism splits the model itself across GPUs when it's too large for one. Modern approaches like FSDP (Fully Sharded Data Parallel) and DeepSpeed combine both, enabling training of models with hundreds of billions of parameters.
Why it matters: No frontier model fits on a single GPU. Training GPT-4 or Claude requires thousands of GPUs working together for months. Distributed training is the engineering that makes this possible — it's as critical as the architecture or the data. The efficiency of your distributed training directly determines how much model you can train for a given budget.
La famille de modèles de génération d'images d'OpenAI. DALL-E 1 (2021) utilisait une approche VAE discrète + Transformer. DALL-E 2 (2022) utilisait CLIP + diffusion. DALL-E 3 (2023) est intégré à ChatGPT et met l'accent sur le suivi des prompts — il utilise un LLM pour réécrire les prompts utilisateur en descriptions d'images détaillées avant la génération, améliorant significativement la correspondance entre ce que tu demandes et ce que tu obtiens.
Pourquoi c'est important : DALL-E est le modèle qui a fait prendre conscience au public de la génération d'images par IA. Le lancement de DALL-E 2 en 2022 est devenu viral et a suscité à la fois l'enthousiasme et l'inquiétude à propos de l'imagerie générée par IA. L'intégration de DALL-E 3 avec ChatGPT a rendu la génération d'images accessible à des centaines de millions d'utilisateurs. Son innovation de réécriture de prompts a influencé la façon dont les autres modèles gèrent la conversion texte-image.
Une plateforme de données et d'IA qui fournit des capacités unifiées d'analytique, d'ingénierie de données et de machine learning. Databricks a acquis Mosaic ML (2023) pour ajouter des capacités d'entraînement de LLM et a lancé DBRX, leur propre LLM à poids ouverts. La plateforme est construite sur Apache Spark et fournit une infrastructure managée pour le cycle de vie ML complet, de la préparation des données au serving de modèles.
Pourquoi c'est important : Databricks est l'endroit où les données d'entreprise rencontrent l'IA. La plupart des ambitions IA des entreprises commencent par « on a besoin de donner du sens à nos données », et Databricks est souvent la plateforme qui gère l'ingénierie de données, l'ingénierie de features, l'entraînement de modèles et le serving au même endroit. Leur acquisition de Mosaic ML (connu pour l'entraînement efficace de LLM) a signalé que la plateforme de données et la plateforme IA convergent.
Un composant de réseau de neurones qui génère une sortie à partir d'une représentation. Dans les Transformers, le décodeur utilise l'attention causale (gauche-à-droite) pour générer des tokens un à la fois. Dans la génération d'images, le décodeur VAE convertit les représentations latentes en images. Dans les auto-encodeurs, le décodeur reconstruit l'entrée originale à partir du goulot d'étranglement compressé. Les décodeurs sont la moitié « génération » de nombreuses architectures.
Pourquoi c'est important : Chaque système d'IA générative a un décodeur en son cœur. GPT, Claude et Llama sont des Transformers décodeur seul. Stable Diffusion utilise un décodeur VAE pour produire des images. Comprendre les décodeurs explique pourquoi la génération est séquentielle (chaque token dépend des tokens précédents), pourquoi la sortie est plus lente que le traitement de l'entrée, et pourquoi le paradigme autorégressif domine la génération de texte.
Monitoring for changes in the data distribution or model behavior over time that could degrade performance. Data drift: the input data changes (customer demographics shift, new product categories appear). Concept drift: the relationship between inputs and correct outputs changes (what constitutes spam evolves). Model drift: the model's predictions gradually become less accurate even though the model itself hasn't changed.
Why it matters: Models are trained on historical data, but the world keeps changing. A fraud detection model trained in 2024 will miss 2025's new fraud patterns. A recommendation system trained on pre-pandemic behavior will make poor suggestions post-pandemic. Drift detection catches these degradations before they become costly — alerting you that the model needs retraining or updating.
Identifier automatiquement dans quelle langue un texte est écrit. « Bonjour le monde » → français. « こんにちは世界 » → japonais. Les modèles modernes peuvent distinguer 100+ langues à partir de seulement quelques mots, gérer du texte multilingue (alternance codique), et identifier des langues très proches (norvégien vs danois, malais vs indonésien).
Pourquoi c'est important : La détection de langue est l'étape initiale essentielle dans tout pipeline multilingue : tu dois savoir dans quelle langue est l'entrée avant de pouvoir la traduire, la diriger vers le bon modèle, ou appliquer un traitement spécifique à la langue. C'est utilisé dans les moteurs de recherche, le routage du support client, la modération de contenu, et tout système qui gère du texte d'utilisateurs du monde entier.
Surveiller les changements dans la distribution des données ou le comportement du modèle au fil du temps qui pourraient dégrader la performance. Dérive de données : les données d'entrée changent (la démographie des clients évolue, de nouvelles catégories de produits apparaissent). Dérive de concept : la relation entre les entrées et les sorties correctes change (ce qui constitue du spam évolue). Dérive de modèle : les prédictions du modèle deviennent graduellement moins précises même si le modèle lui-même n'a pas changé.
Pourquoi c'est important : Les modèles sont entraînés sur des données historiques, mais le monde continue de changer. Un modèle de détection de fraude entraîné en 2024 manquera les nouveaux patterns de fraude de 2025. Un système de recommandation entraîné sur des comportements pré-pandémie fera de mauvaises suggestions post-pandémie. La détection de dérive attrape ces dégradations avant qu'elles deviennent coûteuses — t'alertant que le modèle a besoin d'être réentraîné ou mis à jour.
Déterminer qui a parlé quand dans un enregistrement audio avec plusieurs locuteurs. À partir d'un enregistrement de réunion, la diarisation le segmente en « Locuteur A : 0:00–0:15, Locuteur B : 0:15–0:32, Locuteur A : 0:32–0:45. » Combinée avec la reconnaissance vocale, ça produit des transcriptions attribuées par locuteur — essentiel pour les procès-verbaux de réunions, la transcription d'entrevues et l'analytique des centres d'appels.
Pourquoi c'est important : La reconnaissance vocale seule produit un mur de texte sans indication de qui a dit quoi. La diarisation ajoute la structure qui rend les transcriptions utiles : tu peux chercher ce qu'une personne spécifique a dit, résumer les contributions de chaque locuteur, et analyser la dynamique conversationnelle (qui parle le plus, qui interrompt). C'est essentiel pour toute application audio multi-locuteurs.
Retirer les paramètres inutiles (poids, neurones ou couches entières) d'un modèle entraîné pour le rendre plus petit et plus rapide sans perte significative de qualité. Comme tailler un arbre : coupe les branches qui contribuent le moins et l'arbre reste en bonne santé. L'élagage structuré retire des neurones entiers ou des têtes d'attention. L'élagage non structuré met à zéro des poids individuels.
Pourquoi c'est important : L'élagage est une technique de compression de modèle aux côtés de la quantification et de la distillation. L'intuition clé : la plupart des réseaux de neurones sont surparamétrés — beaucoup de poids contribuent peu à la sortie. L'hypothèse du « ticket de loterie » suggère qu'au sein d'un grand réseau, il existe un sous-réseau beaucoup plus petit capable d'égaler les performances de l'original. L'élagage trouve et conserve ce sous-réseau.
Évaluer la qualité de la sortie de l'IA en faisant juger directement par des humains. Les humains évaluent la fluidité, la précision, l'utilité, la sécurité, et si la sortie répond vraiment à la demande. Malgré son coût et sa lenteur, l'évaluation humaine reste l'étalon-or parce que les métriques automatisées passent souvent à côté de ce qui compte vraiment pour les utilisateurs.
Pourquoi c'est important : Chaque métrique automatisée est un proxy du jugement humain, et chaque proxy a ses angles morts. BLEU ne détecte pas les erreurs factuelles. La perplexité ne mesure pas l'utilité. Même les approches LLM-comme-juge héritent de biais (préférer les réponses verbeuses, par exemple). Quand les enjeux sont élevés — lancer un produit, comparer des versions de modèles, évaluer la sécurité — l'évaluation humaine est irremplaçable.
Les capacités qui apparaissent dans les modèles d'intelligence artificielle à grande échelle mais n'ont pas été explicitement entraînées pour — des capacités qui semblent « émerger » soudainement une fois qu'un modèle atteint une certaine taille ou un seuil d'entraînement. Un modèle entraîné uniquement à prédire le mot suivant apprend de manière inattendue à faire des calculs, à traduire entre des langues qu'on ne lui avait pas apprises, ou à écrire du code fonctionnel. L'émergence est l'un des phénomènes les plus débattus en intelligence artificielle : s'agit-il d'une véritable magie de transition de phase, ou d'un artefact de mesure ?
Pourquoi c’est important : L'émergence est au cœur de la plus grande question en IA : pouvons-nous prévoir ce que les modèles plus grands seront capables de faire ? Si les capacités émergent véritablement de manière imprévisible à grande échelle, alors chaque modèle plus grand est une boîte à surprises. Si l'émergence est un artefact de la manière dont nous mesurons, alors le passage à l'échelle est plus prévisible qu'il n'y paraît. La réponse façonne tout, de la planification de la sécurité aux décisions d'investissement.
Les méthodes utilisées pour mesurer la performance d'un modèle d'IA. Cela va bien au-delà des bancs d'essai — cela inclut l'évaluation humaine (demander à des personnes de noter les sorties), les tests A/B (comparer des modèles sur du trafic réel), le red-teaming (tests adverses), les tests spécifiques à un domaine (précision médicale, correction du code) et les classements communautaires (Chatbot Arena, LMSYS). Une bonne évaluation est plus difficile que la construction du modèle.
Pourquoi c’est important : Si vous ne pouvez pas le mesurer, vous ne pouvez pas l'améliorer. Mais l'évaluation en IA est particulièrement difficile parce que les tâches sont ouvertes et la qualité subjective. Les bancs d'essai sont manipulés, l'évaluation humaine est coûteuse, et le modèle qui obtient le meilleur score sur papier n'est souvent pas le meilleur en pratique. Construire de bonnes évaluations est un superpouvoir.
Entreprise d'IA vocale qui a rendu la synthese vocale ultraréaliste accessible a tous. Leur technologie alimente le clonage vocal, le doublage en temps reel et la synthese vocale dans 32 langues, brouillant la frontiere entre voix humaines et voix generees par IA.
Pourquoi c’est important : ElevenLabs a prouve que la parole generee par IA pouvait franchir la vallee de l'etrangete et sonner veritablement humaine, reduisant le cout et le temps de production vocale professionnelle de plusieurs ordres de grandeur. Leurs outils de clonage vocal et de doublage multilingue ont rendu possible pour un createur solo de produire du contenu dans plus de 30 langues sans engager un seul acteur vocal, transformant fondamentalement l'economie de la localisation audio et video. Ils ont aussi force l'industrie entiere a affronter de front l'ethique de la technologie vocale synthetique, favorisant l'adoption du filigranage, des normes de provenance de contenu et des protocoles de verification qui deviennent desormais la norme.
Une façon de représenter du texte (ou des images, ou de l'audio) sous forme d'une liste de nombres (un vecteur) qui en capture le sens. Les concepts similaires se retrouvent proches dans cet espace numérique — « chat » et « chaton » sont voisins, tandis que « chat » et « économie » sont éloignés.
Pourquoi c’est important : Les embeddings sont le fondement de la recherche sémantique et du RAG. C'est ainsi que l'IA comprend qu'une recherche pour « corriger un bogue de connexion » devrait correspondre à un document sur la « résolution d'erreur d'authentification » même si aucun mot ne se recoupe.
Une URL spécifique où une API d'IA accepte les requêtes. Par exemple, l'endpoint de messages d'Anthropic est l'endroit où vous envoyez vos prompts à Claude. Différents endpoints servent différentes fonctions : génération de texte, embeddings, création d'images, liste des modèles.
Pourquoi c’est important : Lors de l'intégration de fournisseurs d'IA, les endpoints sont là où la théorie rencontre la pratique. Chaque fournisseur structure les siens différemment, c'est pourquoi des plateformes comme Zubnet existent — pour normaliser le désordre.
Architecture avec encodeur (compresse l'entrée) et décodeur (génère la sortie). T5/BART sont encodeur-décodeur. GPT/Claude sont décodeur seul. BERT est encodeur seul.
Pourquoi c'est important : Explique pourquoi différents modèles excellent dans différentes tâches et pourquoi le décodeur seul a gagné pour les LLM.
The hypothesis that sufficiently advanced AI systems could pose a threat to human existence or permanently curtail humanity's potential. X-risk concerns range from concrete near-term scenarios (AI-enabled bioweapons, autonomous weapons) to speculative long-term scenarios (a superintelligent AI pursuing goals misaligned with human values). The topic is genuinely debated among leading AI researchers.
Why it matters: Existential risk is the most consequential debate in AI. If the risk is real and significant, it should dominate AI policy. If it's overstated, focusing on it diverts attention from concrete harms happening today (bias, job displacement, misinformation). Understanding the actual arguments — not the caricatures — helps you form an informed position on one of the most important questions of our time.
Des techniques pour modifier des faits spécifiques dans un modèle entraîné sans le réentraîner. Si un modèle affirme incorrectement "Le président de la France est Macron" après une nouvelle élection, l'édition de connaissances peut mettre à jour ce fait spécifique en modifiant des poids ciblés, sans affecter les autres connaissances ou capacités du modèle. L'objectif est la précision chirurgicale : changer un fait, laisser tout le reste intact.
Pourquoi c'est important : L'édition de connaissances répond à un problème pratique : les modèles deviennent obsolètes, et le réentraînement est coûteux. Si tu pouvais mettre à jour des faits spécifiques à moindre coût, les modèles pourraient rester à jour entre les grandes phases d'entraînement. Il y a aussi des implications de sécurité : pourrait-on retirer des connaissances dangereuses ? Le domaine est prometteur mais immature — les éditions ont souvent des effets secondaires imprévus sur les connaissances connexes.
Arrêt précoce Patience, Arrêt basé sur la validation
Entraînement
Arrêter l'entraînement quand la performance sur un ensemble de validation tenu à l'écart arrête de s'améliorer, plutôt que d'entraîner pour un nombre fixe d'étapes. Alors que l'entraînement continue, la perte d'entraînement continue de diminuer mais la perte de validation finit par augmenter — le modèle surajuste les données d'entraînement. L'arrêt précoce capture ce point d'inflexion et sauvegarde le meilleur modèle avant que la qualité ne se dégrade.
Pourquoi c'est important : L'arrêt précoce est la technique de régularisation la plus simple et la plus efficace pour le fine-tuning. Sans lui, tu risques d'entraîner trop longtemps et de détruire les capacités que tu voulais préserver. Avec lui, le modèle s'arrête automatiquement à son meilleur point. Le paramètre « patience » (combien d'évaluations sans amélioration avant d'arrêter) est l'un des hyperparamètres les plus importants en fine-tuning.
Encodeur Réseau encodeur, Extracteur de caractéristiques
Fondamentaux
Un composant de réseau de neurones qui convertit des données d'entrée en une représentation compressée et riche en information (encodage). Dans les Transformers, l'encodeur utilise l'attention bidirectionnelle pour traiter l'entrée complète et produire des représentations contextuelles. Dans les auto-encodeurs, l'encodeur compresse l'entrée en un goulot d'étranglement latent. Dans la génération d'images, l'encodeur VAE convertit les images en espace latent. Les encodeurs sont la moitié « compréhension » de nombreuses architectures.
Pourquoi c'est important : Les encodeurs sont partout : BERT est un encodeur, CLIP a un encodeur texte et un encodeur image, Stable Diffusion a un encodeur VAE, les systèmes RAG utilisent des modèles encodeurs pour les embeddings. Comprendre ce que fait un encodeur — compresser l'entrée en une représentation utile — t'aide à comprendre tous ces systèmes. La qualité de l'encodage détermine la qualité de tout ce qui suit.
Extraire automatiquement de l'information structurée à partir de texte non structuré. À partir d'un article de presse, extraire : qui a fait quoi, quand, où et pourquoi. À partir d'un contrat, extraire : parties, dates, obligations et montants. L'IE combine la NER (trouver les entités), l'extraction de relations (trouver les connexions entre entités), et l'extraction d'événements (trouver ce qui s'est passé) dans un pipeline unifié.
Pourquoi c'est important : La plupart de l'information mondiale est piégée dans du texte non structuré — courriels, rapports, articles, documents juridiques, dossiers médicaux. L'extraction d'information transforme ce texte en données structurées qui peuvent être recherchées, analysées et exploitées. C'est la technologie qui te permet de poser une question de type base de données sur une pile de documents.
Estimation de pose Pose corporelle, détection de squelette, détection de points clés
Utiliser l'AI
Détecter la position et l'orientation d'un corps humain (ou animal, main, visage) dans une image ou une vidéo en localisant des points anatomiques clés — articulations, repères faciaux, bouts des doigts. La sortie est un squelette : un ensemble de points clés connectés représentant la pose du corps. OpenPose, MediaPipe et YOLO-Pose sont des implémentations populaires.
Pourquoi c'est important : L'estimation de pose permet : les applications de fitness qui analysent la forme des exercices, la reconnaissance de la langue des signes, la capture de mouvement pour l'animation, les interfaces de contrôle gestuel, l'analyse sportive et la détection de chutes pour les soins aux personnes âgées. Dans la génération d'images IA, les squelettes de pose servent d'entrées ControlNet — tu spécifies la pose exacte du corps souhaitée et le modèle génère une personne dans cette pose.
Un document standardisé qui décrit l'usage prévu d'un modèle d'apprentissage automatique, ses caractéristiques de performance, ses données d'entraînement, ses limitations et ses considérations éthiques. Introduites par Mitchell et al. (2019), les fiches de modèle visent à augmenter la transparence et à aider les utilisateurs à prendre des décisions éclairées sur l'adéquation d'un modèle à leur cas d'usage.
Pourquoi c'est important : Les fiches de modèle sont les étiquettes nutritionnelles de l'IA. Sans elles, tu utilises un modèle à l'aveugle — tu ne sais pas sur quelles données il a été entraîné, sur quoi il performe bien ou mal, ou quels groupes il pourrait désavantager. Alors que la réglementation de l'IA s'intensifie (l'AI Act européen exige de la documentation), les fiches de modèle passent de bonne pratique à exigence légale.
Prendre un modèle pré-entraîné et poursuivre son entraînement sur un jeu de données plus petit et spécifique pour spécialiser son comportement. Comme prendre un médecin généraliste et le faire passer par une résidence en chirurgie — mêmes connaissances de base, nouvelle expertise.
Pourquoi c’est important : Le fine-tuning est la façon dont les modèles génériques deviennent utiles pour des tâches spécifiques. Un modèle ajusté peut apprendre le ton de votre entreprise, la terminologie de votre domaine ou un format de sortie spécifique sans repartir de zéro.
Un grand modèle entraîné sur des données générales qui sert de base à une multitude de tâches différentes. Claude, GPT, Gemini et Llama sont tous des foundation models. On les appelle « fondamentaux » parce qu'ils peuvent être adaptés à presque tout — rédaction, programmation, analyse, compréhension d'images — sans avoir été spécifiquement entraînés pour chaque tâche.
Pourquoi c’est important : Les foundation models ont changé l'économie de l'IA. Au lieu d'entraîner un modèle distinct pour chaque tâche, on entraîne un seul modèle massif une fois, puis on le fine-tune ou on le sollicite par prompt pour des besoins spécifiques.
Fournir des paires d'exemples entrée-sortie dans ton prompt. Zero-shot = pas d'exemples, few-shot = 2 à 10. Le modèle apprend le pattern sans entraînement.
Pourquoi c'est important : La façon la plus rapide et la moins chère de personnaliser le comportement. Une des capacités émergentes les plus surprenantes.
Technique générative : apprend des chemins lisses et directs du bruit vers les données. Moins d'étapes que la diffusion pour une qualité comparable.
Pourquoi c'est important : En train de remplacer la diffusion pour l'état de l'art image/vidéo. Flux, SD3 l'utilisent. Moins d'étapes = plus rapide = moins cher.
Une façon structurée pour les modèles d'IA de demander l'exécution de fonctions externes pendant une conversation. Tu définis des fonctions avec des noms, descriptions et schémas de paramètres. Quand le modèle détermine qu'une fonction aiderait à répondre à une requête, il produit un appel de fonction structuré (avec des arguments) au lieu de texte. Ton code exécute la fonction et retourne le résultat que le modèle peut intégrer.
Pourquoi c'est important : L'appel de fonctions est ce qui transforme un chatbot en agent. Sans lui, un modèle ne peut que générer du texte. Avec, un modèle peut chercher dans des bases de données, appeler des API, exécuter des calculs, prendre des rendez-vous, envoyer des courriels — tout ce que tu peux exposer comme fonction. C'est le mécanisme derrière chaque assistant IA qui fait réellement des choses au lieu de juste en parler.
A GPU-optimized implementation of the attention mechanism that is 2–4x faster and uses significantly less memory than standard attention. Flash Attention achieves this not by changing what attention computes, but by restructuring how the computation is performed on GPU hardware — minimizing slow memory transfers between GPU HBM and on-chip SRAM.
Why it matters: Flash Attention is arguably the most impactful systems optimization in modern AI. It made long-context models practical by reducing attention's memory usage from quadratic to near-linear (in practice), directly enabling the jump from 4K to 128K+ context windows. Every major LLM uses it. Without Flash Attention, today's long-context models would be prohibitively expensive.
The component in each Transformer layer that processes each token independently through two linear transformations with an activation function in between. While attention mixes information across tokens (which tokens relate to which), the feedforward network processes each token's representation individually, applying non-linear transformations that encode knowledge and perform computation.
Why it matters: The feedforward network is where most of a Transformer's knowledge is stored. Attention gets all the glory, but the FFN layers contain the majority of the model's parameters (typically 2/3 of total parameters) and are where factual associations, language patterns, and learned computations primarily reside. Understanding this helps explain phenomena like knowledge editing and model pruning.
Floating Point Operations — the standard measure of computational work in AI. Training a model requires a certain number of FLOPs (total operations). Hardware is rated in FLOP/s (operations per second). An H100 GPU can perform ~2,000 TFLOP/s (2 quadrillion operations per second) in FP16. GPT-4's training is estimated at ~10^25 FLOPs — a number so large it's hard to comprehend.
Why it matters: FLOPs are the currency of AI compute. Scaling laws are expressed in FLOPs. Training budgets are measured in FLOPs. GPU comparisons use FLOP/s. Understanding FLOPs helps you estimate training costs, compare hardware, and understand why AI progress is so closely tied to compute scaling. When people say "scaling compute," they mean spending more FLOPs.
Combiner les poids de plusieurs modèles fine-tunés en un seul modèle sans entraînement supplémentaire. Si le modèle A excelle en codage et le modèle B en écriture créative, les fusionner peut produire un modèle bon dans les deux. Les méthodes de fusion populaires incluent SLERP (interpolation sphérique), TIES (résolution des conflits de signe) et DARE (suppression aléatoire de paramètres avant la fusion).
Pourquoi c'est important : La fusion de modèles est l'arme secrète de la communauté open-source. Elle ne coûte aucun calcul (juste des maths sur les tenseurs de poids) et peut produire des modèles qui surpassent leurs composants. De nombreux modèles en tête de l'Open LLM Leaderboard sont des fusions. C'est aussi la façon dont les praticiens combinent plusieurs fine-tunes LoRA en un seul modèle polyvalent. Comprendre la fusion débloque une capacité puissante et gratuite pour quiconque travaille avec des modèles ouverts.
Identifier ou vérifier une personne à partir de son visage dans une image ou vidéo. La vérification demande « est-ce que cette personne est bien celle qu'elle prétend être ? » (correspondance 1:1, utilisée pour déverrouiller un téléphone). L'identification demande « qui est cette personne ? » (correspondance 1:N contre une base de données, utilisée en surveillance). Les systèmes modernes utilisent le deep learning pour extraire des embeddings faciaux et les comparer, atteignant une précision surhumaine dans des conditions contrôlées.
Pourquoi c'est important : La reconnaissance faciale est l'une des applications IA les plus puissantes et les plus controversées. Elle permet l'authentification pratique (Face ID), aide à retrouver les personnes disparues, et assiste les forces de l'ordre. Elle permet aussi la surveillance de masse, soulève de sérieuses préoccupations de vie privée, et présente des disparités de précision documentées entre les démographies — avec de moins bons résultats pour les femmes et les personnes à la peau plus foncée. C'est un cas d'école de technologie à double usage.
Une structure de prompt réutilisable avec des espaces réservés variables qui sont remplis avec des données spécifiques au moment de l'exécution. Au lieu d'écrire un nouveau prompt à partir de zéro pour chaque demande utilisateur, tu définis un gabarit une fois — « Résume le {type_de_document} suivant en {langue}, en te concentrant sur {sujet} » — et tu remplis les variables. Les gabarits de prompt sont les briques de base des applications IA en production.
Pourquoi c'est important : Chaque application IA en production utilise des gabarits de prompt. Ils assurent la cohérence, permettent les tests et séparent la logique du prompt (écrite par un développeur) du contenu dynamique (fourni par les utilisateurs ou les données). Les bons gabarits sont testés, versionnés et itérés — ce sont du code, pas du texte improvisé. Comprendre la conception de gabarits de prompt est essentiel pour construire des applications IA fiables.
Les systèmes d'IA qui génèrent du contenu nouveau — texte, images, audio, vidéo, code, modèles 3D — plutôt que d'analyser ou de classer des données existantes. L'IA générative est le terme englobant pour tout, de la rédaction d'essais par ChatGPT à la création d'images par Stable Diffusion en passant par la composition de musique par Suno. Le terme « générative » distingue ces modèles des anciens systèmes d'IA qui ne pouvaient que catégoriser, prédire ou recommander.
Pourquoi c’est important : L'intelligence artificielle générative est le terme qui a introduit l'IA dans la culture grand public. C'est ce que les gens entendent lorsqu'ils disent « IA » entre 2024 et 2026 — la capacité de créer, et non seulement de calculer. Comprendre cette catégorie vous aide à naviguer dans le paysage : les LLM génèrent du texte, les modèles de diffusion génèrent des images, et les frontières entre les modalités s'estompent rapidement.
La division unifiée de recherche en IA de Google, formée par la fusion de DeepMind et Google Brain en 2023. Derrière Gemini, AlphaGo, AlphaFold et une grande partie de la recherche fondamentale qui alimente l'IA moderne.
Pourquoi c’est important : Google DeepMind a contribué plus de recherche fondamentale à l'IA moderne que toute autre organisation — l'architecture transformer, les avancées majeures en apprentissage par renforcement, la prédiction de la structure des protéines et les lois d'échelle remontent toutes à des équipes de DeepMind ou de Google Brain. Leurs modèles Gemini sont les seuls grands modèles de langage de pointe dotés d'une distribution véritablement mondiale intégrée, atteignant des milliards d'utilisateurs via Search, Android et Google Workspace. Et AlphaFold à lui seul — qui a résolu un problème vieux de cinquante ans en biologie et obtenu un prix Nobel — suffirait à assurer leur place dans l'histoire de la science, et pas seulement dans celle de l'IA.
Une architecture de modèle où deux réseaux de neurones s'affrontent : un générateur crée de fausses données, et un discriminateur tente de distinguer le vrai du faux. Grâce à ce jeu adversarial, le générateur s'améliore dans la création de sorties réalistes. A dominé la génération d'images de 2014 à environ 2022.
Pourquoi c’est important : Les GAN ont été les pionniers de la génération réaliste d'images par IA et sont encore utilisés dans certaines applications en temps réel. Mais les modèles de diffusion les ont largement remplacés pour les travaux exigeants en qualité, parce que les GAN sont plus difficiles à entraîner et moins diversifiés dans leurs sorties.
Conçus à l'origine pour le rendu graphique, les GPU se sont avérés parfaits pour l'IA parce qu'ils peuvent effectuer des milliers d'opérations mathématiques simultanément. L'entraînement et l'exécution de modèles d'IA consistent essentiellement en une multiplication matricielle massive — exactement ce pour quoi les GPU sont conçus. NVIDIA domine ce marché.
Pourquoi c’est important : Les GPU sont le goulot d'étranglement physique de toute l'industrie de l'IA. Pourquoi les modèles coûtent ce qu'ils coûtent, pourquoi certains fournisseurs sont plus rapides que d'autres, pourquoi il y a une pénurie mondiale de puces — tout revient à l'offre de GPU et à la VRAM.
Connecter les réponses d'un modèle à des sources factuelles et vérifiables plutôt que de le laisser se fier uniquement à ses données d'entraînement. Les techniques d'ancrage incluent le RAG, l'intégration de la recherche web et les exigences de citation. Une réponse ancrée dit « selon [source] » plutôt que d'affirmer des faits sans référence.
Pourquoi c’est important : L'ancrage est la défense principale contre l'hallucination. Un modèle non ancré invente des faits en toute confiance. Un modèle ancré vous dirige vers des sources réelles que vous pouvez vérifier.
Des mécanismes de sécurité qui empêchent les modèles d'IA de générer du contenu nuisible, inapproprié ou hors sujet. Les garde-fous peuvent être intégrés au modèle pendant l'entraînement (RLHF), appliqués via des prompts système, ou imposés par des filtres externes qui vérifient les sorties avant qu'elles n'atteignent les utilisateurs.
Pourquoi c’est important : Sans garde-fous, les modèles aideront volontiers avec des demandes dangereuses. Le défi est la calibration — trop stricts et le modèle devient inutile (« Je ne peux pas vous aider avec ça »), trop lâches et il devient dangereux.
Ajuste itérativement les paramètres pour réduire la perte en calculant les gradients et en descendant la pente. La rétropropagation calcule efficacement les gradients à travers les couches.
Pourquoi c'est important : Chaque modèle a été entraîné par descente de gradient. Explique l'importance du learning rate, la divergence, pourquoi Adam marche.
The standard file format for running quantized language models locally via llama.cpp, Ollama, and other local inference tools. GGUF files contain the model weights in a quantized format (reducing precision from 16-bit to 4-bit or 8-bit), along with metadata like vocabulary, architecture details, and quantization parameters — everything needed to load and run the model in a single file.
Why it matters: GGUF is the format that made local AI practical. Before it, running models locally required complex setups with PyTorch, CUDA, and specific GPU memory. GGUF packages everything into one file that llama.cpp or Ollama can load directly — on CPU, on Apple Silicon, on gaming GPUs, anywhere. If you see a model on Hugging Face with filenames like "Q4_K_M.gguf," that's a model ready for local use.
Neural networks designed to operate on graph-structured data — data where entities are connected by relationships (social networks, molecules, knowledge graphs, transportation networks). GNNs learn by passing messages between connected nodes, allowing each node to update its representation based on its neighbors. They handle data that doesn't fit neatly into grids (images) or sequences (text).
Why it matters: Not all data is text or images. Social networks, molecular structures, recommendation systems, fraud detection networks, and logistics routes are all naturally graph-structured. GNNs are the right tool when relationships between entities are as important as the entities themselves. Drug discovery, social network analysis, and traffic prediction all rely on GNNs.
An attention variant where multiple query heads share a single key-value head, reducing the KV cache size without significantly reducing quality. Instead of every query head having its own K and V projections (standard MHA), groups of query heads share K and V projections. Llama 2 70B, Mistral, Gemma, and most modern LLMs use GQA.
Why it matters: GQA is the practical solution to the KV cache memory problem. Standard multi-head attention with 64 heads needs 64 sets of K and V tensors per layer in the cache. GQA with 8 KV heads reduces this to 8 sets — an 8x memory reduction. This directly translates to serving more concurrent users or handling longer contexts on the same hardware.
A memory-saving technique that trades compute for memory during training. Instead of storing all intermediate activations from the forward pass (needed for backpropagation), gradient checkpointing only stores activations at certain "checkpoint" layers and recomputes the others during the backward pass. This reduces memory usage by up to 5–10x at the cost of ~30% more compute.
Why it matters: Gradient checkpointing is what makes it possible to fine-tune large models on limited GPU memory. Without it, a 7B model might need 80+ GB just for activations during training, exceeding a single GPU's capacity. With gradient checkpointing, the same model can be fine-tuned on a 24GB consumer GPU. It's the most commonly used memory optimization for training.
Un paramètre qui contrôle la force avec laquelle un modèle de génération d'images suit le prompt textuel. Guidage faible (1–3) : le modèle génère librement, produisant des images diversifiées mais potentiellement hors sujet. Guidage élevé (7–15) : le modèle suit strictement le prompt mais peut produire des images saturées et pleines d'artefacts. Le point optimal est typiquement 7–9. C'est l'équivalent en génération d'images de la température pour les modèles textuels.
Pourquoi c'est important : L'échelle de guidage est le paramètre le plus impactant en génération d'images après le prompt lui-même. Trop bas et l'image ignore ta description. Trop haut et elle a l'air sursaturée et artificielle. Comprendre l'échelle de guidage t'aide à diagnostiquer « pourquoi mon image ne correspond pas à mon prompt ? » (guidage trop bas) et « pourquoi mon image a l'air bizarre ? » (guidage trop haut).
Les hyperparamètres que vous choisissez avant le début de l'entraînement, qui contrôlent la manière dont le modèle apprend — contrairement aux paramètres, que le modèle apprend par lui-même. Les hyperparamètres comprennent le taux d'apprentissage (la taille de chaque étape de mise à jour), la taille du lot (le nombre d'exemples traités à la fois), le nombre d'époques (le nombre de fois où les données sont parcourues), le choix de l'optimiseur (Adam, SGD, AdamW), la décroissance du poids, le taux de dropout et les décisions relatives à l'architecture, comme le nombre de couches et les dimensions cachées. Régler correctement les hyperparamètres est souvent la différence entre un modèle qui converge de manière optimale et un autre qui diverge vers des résultats incohérents.
Pourquoi c’est important : L'ajustement des hyperparamètres est l'endroit où l'ingénierie ML devient à la fois science et artisanat. Vous pouvez avoir le jeu de données parfait et l'architecture idéale, mais un taux d'apprentissage trop élevé risque de faire échouer l'entraînement, tandis qu'un taux trop faible ne convergera jamais. Comprendre les hyperparamètres est essentiel pour toute personne entraînant ou effectuant un fine-tuning de modèles — et savoir lesquels sont les plus importants économise d'énormes quantités de ressources de calcul.
HeyGen Vidéos avatar IA, doublage avec synchro labiale
Compagnies
Plateforme vidéo IA spécialisée dans les avatars réalistes de type « tête parlante » et le doublage automatique avec synchronisation labiale. Utilisée par les entreprises pour le marketing, la formation et la localisation — transformant une seule vidéo en des dizaines de langues avec des mouvements de lèvres synchronisés.
Pourquoi c’est important : HeyGen a transformé les avatars vidéo IA d'une curiosité de recherche en un véritable outil d'entreprise, prouvant qu'il existe un revenu réel à rendre la création de contenu vidéo aussi simple que la rédaction d'un document. Leur technologie de doublage avec synchronisation labiale a une importance particulière pour les entreprises internationales — elle réduit considérablement le coût et le temps de localisation vidéo, passant de semaines et de milliers de dollars à quelques minutes et quelques sous. En tant que l'une des rares entreprises de vidéo IA avec des revenus récurrents substantiels, HeyGen sert également d'étude de cas sur la manière de bâtir une entreprise viable sur l'IA générative, et pas seulement une démonstration.
Entreprise émergente de génération d'images qui développe des modèles de diffusion de haute qualité. Leurs publications à poids ouverts ont gagné en popularité dans la communauté de l'IA créative grâce à une forte adhérence aux instructions et une qualité visuelle remarquable.
Pourquoi c’est important : HiDream a démontré qu'une petite équipe concentrée peut produire des modèles de génération d'images à poids ouverts qui rivalisent avec les résultats d'organisations dépensant des ordres de grandeur supérieurs en infrastructure d'entraînement. La force de leurs modèles en rendu de texte et en précision compositionnelle a résolu de véritables irritants qui freinaient l'adoption commerciale des images générées par IA. Dans l'espace des modèles d'images ouverts qui se banalise rapidement, le succès d'HiDream renforce le constat que le prochain bond en qualité peut venir de n'importe où — pas seulement des plus grands laboratoires disposant du plus grand nombre de GPU.
Entreprise d'IA qui développe des modèles capables de comprendre et d'exprimer les émotions humaines. Leur Empathic Voice Interface détecte le ton, le sentiment et le contexte émotionnel en temps réel, permettant des conversations IA qui répondent non seulement à ce que vous dites, mais à comment vous le dites.
Pourquoi c’est important : Hume compte parce qu'elle s'attaque à l'angle mort le plus flagrant de l'IA moderne : la compréhension émotionnelle. Chaque agent conversationnel, assistant vocal et agent IA d'aujourd'hui est essentiellement sourd aux nuances, répondant au contenu littéral des mots tout en ignorant le contexte émotionnel sur lequel les humains comptent instinctivement. L'Empathic Voice Interface de Hume est la première tentative sérieuse de combler cette lacune à l'échelle de la production, et leur insistance sur des lignes directrices éthiques pour l'IA émotionnelle établit une norme que l'industrie sera éventuellement obligée d'adopter.
Quand un modèle d'IA génère de l'information qui semble confiante et plausible mais qui est factuellement fausse ou entièrement fabriquée. Le modèle ne « ment » pas — il fait de la correspondance de patrons vers un texte fluide sans concept de vérité. Les fausses citations, les statistiques inventées et les méthodes d'API inexistantes sont des exemples courants.
Pourquoi c’est important : L'hallucination est le plus grand problème de confiance en IA aujourd'hui. C'est pourquoi vous devriez toujours vérifier les faits critiques provenant des sorties d'IA, et pourquoi des techniques comme le RAG et l'ancrage existent.
Rechercher systématiquement les meilleurs hyperparamètres — les choix de configuration qui ne sont pas appris pendant l'entraînement mais doivent être fixés avant qu'il ne commence. Le taux d'apprentissage, la taille de lot, le nombre de couches, le taux de dropout et le rang LoRA sont tous des hyperparamètres. Les méthodes d'ajustement incluent la recherche en grille (essayer toutes les combinaisons), la recherche aléatoire (essayer des combinaisons aléatoires) et l'optimisation bayésienne (utiliser les résultats passés pour guider la recherche).
Pourquoi c'est important : La différence entre un bon et un mauvais ensemble d'hyperparamètres peut être énorme — un mauvais taux d'apprentissage peut faire diverger l'entraînement ou converger vers une solution médiocre. L'ajustement d'hyperparamètres est la façon de tirer le meilleur de ton architecture de modèle et de tes données. Pour le fine-tuning de LLM, le taux d'apprentissage et le nombre d'époques sont typiquement les hyperparamètres les plus impactants à ajuster.
I
Ideogram Rendu de texte dans les images, Ideogram 2.0
Compagnies
Entreprise de generation d'images par IA fondee par d'anciens chercheurs de Google Brain. Elle s'est fait un nom en resolvant l'un des problemes les plus ardus de la generation d'images : le rendu de texte lisible et precis a l'interieur des images.
Pourquoi c’est important : Ideogram a prouve que resoudre une seule faiblesse critique — un texte lisible dans les images generees par IA — pouvait creer une position de marche distincte dans l'espace bonde de la generation d'images. Leur evolution de specialistes du rendu de texte a plateforme de design complete montre comment la differenciation technique, lorsqu'elle vise de vrais irritants dans les flux de travail, peut rivaliser avec des concurrents mieux finances.
Le processus d'exécution d'un modèle entraîné pour générer des sorties. L'entraînement, c'est apprendre ; l'inférence, c'est utiliser ce qui a été appris. Chaque fois que vous envoyez un prompt à Claude ou générez une image avec Stable Diffusion, c'est de l'inférence. C'est ce qui coûte des heures GPU aux fournisseurs et ce pour quoi vous payez par token.
Pourquoi c’est important : Le coût et la vitesse d'inférence déterminent l'économie des produits d'IA. Une inférence plus rapide = moins de latence = meilleure expérience utilisateur. Une inférence moins chère = prix plus bas = adoption plus large. Toute l'industrie de la quantification et de l'optimisation existe pour rendre l'inférence plus efficace.
Fine-tuning a pre-trained language model on a dataset of (instruction, response) pairs to teach it to follow instructions. A base model that just predicts text becomes a model that answers questions, follows directions, and behaves like an assistant. This is the step that turns GPT into ChatGPT, or a base Llama into Llama-Chat.
Why it matters: Instruction tuning is the bridge between a raw language model (which can only complete text) and a useful assistant (which can follow instructions). Without it, even the most capable base model just generates plausible-sounding text rather than actually doing what you ask. It's arguably the most important post-training step.
Creating images from text descriptions using AI models. You type "a sunset over mountains in watercolor style" and the model generates a matching image. Current approaches include diffusion models (Stable Diffusion, DALL-E), flow matching (Flux), and autoregressive models. The field has progressed from blurry faces in 2020 to photorealistic, artistically controlled output in 2025.
Why it matters: Image generation is the most visible consumer AI capability after chatbots. It's transforming graphic design, advertising, concept art, and visual communication. Understanding the underlying approaches (diffusion, flow matching, DiT) and their trade-offs helps you choose the right tool and understand the limitations — why some prompts work and others don't, why certain styles are easier than others.
A model's ability to accurately execute what the user asks for — respecting format constraints, length requirements, style specifications, and behavioral instructions. "Write exactly 3 bullet points in French about X" tests instruction following: the response must be bullets (not paragraphs), exactly 3 (not 2 or 5), in French (not English), and about X (not Y).
Why it matters: Instruction following is the most practically important LLM capability. Users care less about whether a model "knows" more facts and more about whether it does what they actually asked. A model that writes beautiful prose but ignores your format requirements is less useful than one that reliably follows instructions. This is why IFEval and other instruction-following benchmarks have become central to model evaluation.
A specific two-attention-head circuit discovered in Transformers that implements in-context learning by pattern matching. If the model has seen the pattern "A B" earlier in the context and now sees "A" again, the induction head predicts "B" will follow. This simple mechanism is believed to be a fundamental building block of how LLMs learn from examples in their context.
Why it matters: Induction heads are the best-understood circuit in mechanistic interpretability — a concrete example of how Transformers implement a useful algorithm from learned weights. They explain why few-shot prompting works: when you give examples, induction heads detect the pattern and apply it. Understanding induction heads provides a foundation for understanding more complex learned behaviors.
Classifier chaque pixel d'une image dans une catégorie. La segmentation sémantique étiquette les pixels par classe (route, trottoir, bâtiment, ciel). La segmentation d'instances distingue les objets individuels (personne 1, personne 2). La segmentation panoptique fait les deux. SAM (Segment Anything Model) de Meta peut segmenter n'importe quel objet à partir d'un clic de point ou d'un prompt textuel, sans entraînement spécifique à la tâche.
Pourquoi c'est important : La segmentation fournit la compréhension la plus précise du contenu d'une image. Les voitures autonomes ont besoin de limites de route au pixel près, pas juste de boîtes englobantes. L'imagerie médicale a besoin de contours de tumeurs exacts. La retouche photo a besoin de masques d'objets précis pour la suppression de fond. La capacité de SAM à segmenter n'importe quel objet sans entraînement a rendu cette capacité auparavant spécialisée accessible à tout le monde.
Remplir une région sélectionnée d'une image avec du contenu généré par IA qui correspond au contexte environnant. Tu masques une zone (en peignant dessus), tu décris ce qui devrait la remplacer, et le modèle génère du nouveau contenu qui se fond harmonieusement avec l'image existante. L'outpainting étend une image au-delà de ses bordures originales. Les deux utilisent le même processus de diffusion sous-jacent, conditionné sur les régions non masquées.
Pourquoi c'est important : L'inpainting est l'outil de retouche d'image le plus pratique que l'IA fournit. Supprimer les objets indésirables, remplacer les fonds, corriger les défauts, ajouter des éléments, ou modifier des parties spécifiques d'une image tout en gardant tout le reste intact. C'est l'équivalent IA du remplissage conscient du contenu de Photoshop, mais guidé par le langage naturel et dramatiquement plus capable.
Generating a new image based on an existing image plus a text prompt. Instead of starting from pure noise (text-to-image), the diffusion process starts from a noisy version of the input image, preserving its structure while modifying it according to the prompt. "A cyberpunk version of this photo" keeps the composition but transforms the style and details.
Why it matters: Image-to-image is the bridge between photography and AI art. It lets you use sketches, photos, or existing artwork as a starting point, maintaining layout and composition while the AI transforms style, adds detail, or reimagines the content. It's more controllable than text-to-image because you're guiding the output with visual structure, not just words.
Automatically extracting structured information from unstructured text. Given a news article, extract: who did what, when, where, and why. Given a contract, extract: parties, dates, obligations, and amounts. IE combines NER (finding entities), relation extraction (finding connections between entities), and event extraction (finding what happened) into a unified pipeline.
Why it matters: Most of the world's information is trapped in unstructured text — emails, reports, articles, legal documents, medical records. Information extraction turns this text into structured data that can be searched, analyzed, and acted on. It's the technology that lets you ask a database-style question about a pile of documents.
Générer une nouvelle image à partir d'une image existante plus un prompt textuel. Au lieu de partir de bruit pur (text-to-image), le processus de diffusion part d'une version bruitée de l'image d'entrée, préservant sa structure tout en la modifiant selon le prompt. « Une version cyberpunk de cette photo » garde la composition mais transforme le style et les détails.
Pourquoi c'est important : Image-to-image est le pont entre la photographie et l'art IA. Ça te permet d'utiliser des croquis, des photos ou des œuvres existantes comme point de départ, en maintenant la disposition et la composition pendant que l'IA transforme le style, ajoute des détails ou réimagine le contenu. C'est plus contrôlable que le text-to-image parce que tu guides la sortie avec une structure visuelle, pas juste des mots.
Entreprise d'IA basee a Berlin specialisee dans la recherche et les embeddings. Leurs modeles jina-embeddings et leur Reader API (qui convertit n'importe quelle URL en texte pret pour les LLM) sont devenus une infrastructure essentielle pour les pipelines RAG a travers le monde.
Pourquoi c’est important : Jina AI a construit l'infrastructure d'embeddings et de recuperation dont des milliers de systemes RAG dependent, prouvant qu'un outillage de recherche specialise peut avoir plus de valeur que d'essayer de tout faire. Leurs modeles d'embeddings a contexte long et leur Reader API resolvent deux des problemes pratiques les plus ardus en recherche alimentee par IA — representer fidelement de longs documents et extraire du texte propre de pages web desordonnees — et ils l'ont fait tout en gardant les modeles de base en open source. Dans un ecosysteme domine par les laboratoires generalistes, Jina demontre qu'il y a une veritable entreprise a faire une seule chose exceptionnellement bien et a la rendre tres simple a utiliser pour les developpeurs.
Techniques that trick an AI model into bypassing its safety training and generating content it was designed to refuse — instructions for dangerous activities, harmful content, or behaviors that violate the model's usage policies. Jailbreaks exploit the gap between what the model was trained to refuse and what clever prompting can elicit.
Why it matters: Jailbreaking is the adversarial testing ground for AI safety. Every model ships with safety guardrails, and every major model has been jailbroken. The cat-and-mouse game between jailbreak techniques and safety measures drives improvement in alignment. Understanding jailbreaks helps you evaluate how robust a model's safety actually is, rather than taking marketing claims at face value.
K
Kling AI Génération vidéo Kling, vidéo longue durée
Compagnies
Plateforme de vidéo par IA de Kuaishou (la deuxième plus grande plateforme de vidéo courte en Chine). A rapidement attiré l'attention internationale pour la production de certaines des vidéos générées par IA les plus physiquement cohérentes et temporellement consistantes.
Pourquoi c’est important : Kling AI a démontré que les laboratoires d'IA chinois pouvaient égaler les concurrents occidentaux à la fine pointe de la génération vidéo, produisant des résultats avec une cohérence physique et une consistance temporelle qui ont établi un nouveau standard dans le domaine. Soutenu par la plateforme à un milliard de vidéos par jour de Kuaishou et proposé à des prix agressifs à l'échelle mondiale, Kling est devenu un moteur principal de la compétition dans l'espace de la vidéo par IA, tirant la qualité vers le haut et les prix vers le bas pour l'ensemble du marché.
Stocke les tenseurs d'attention clé/valeur déjà calculés pour éviter de les recalculer à chaque nouveau token. Échange de la mémoire contre de la vitesse.
Pourquoi c'est important : Le KV cache est la raison pour laquelle l'inférence LLM est limitée par la mémoire. Un contexte de 100K sur un modèle 70B peut nécessiter ~256 Go de cache — plus que les poids.
The date after which a model has no training data, meaning it lacks knowledge of events, discoveries, or changes that occurred after that date. If a model's cutoff is April 2024, it doesn't know about anything that happened in May 2024 or later — new products, news events, scientific papers, or updated facts.
Why it matters: The knowledge cutoff is the most common source of frustration with AI assistants. "Why doesn't it know about X?" Because X happened after training. This limitation drives the adoption of RAG (giving the model access to current information) and tool use (letting the model search the web). Understanding the cutoff helps you know when to trust the model and when to verify.
A structured representation of knowledge as a network of entities (nodes) connected by relationships (edges). "Paris (entity) is the capital of (relationship) France (entity)." Knowledge graphs encode facts in a way that supports reasoning, querying, and discovery. Google's Knowledge Graph, Wikidata, and enterprise knowledge graphs power search, recommendations, and data integration.
Why it matters: Knowledge graphs complement LLMs by providing structured, verifiable facts that LLMs can query rather than hallucinate. While LLMs store knowledge implicitly in weights (and sometimes get it wrong), knowledge graphs store it explicitly in triples that can be verified and updated. The combination of LLMs (for understanding natural language) and KGs (for grounding in facts) is a powerful pattern for enterprise AI.
Un type de réseau de neurones récurrent (RNN) conçu pour apprendre les dépendances à longue portée dans les données séquentielles. Le LSTM introduit un « état de cellule » — une autoroute de mémoire qui peut transporter l'information inchangée sur de nombreux pas de temps — contrôlée par trois portes : une porte d'entrée (quoi ajouter), une porte d'oubli (quoi retirer) et une porte de sortie (quoi exposer). Inventé en 1997, le LSTM a dominé la modélisation de séquences jusqu'à l'arrivée des Transformers.
Pourquoi c'est important : Le LSTM a été la colonne vertébrale du NLP pendant une décennie (les années 2010) : traduction automatique, reconnaissance vocale, génération de texte et analyse de sentiment tournaient tous sur des LSTM. Comprendre le LSTM t'aide à comprendre pourquoi les Transformers l'ont remplacé (parallélisme et attention à longue portée vs. traitement séquentiel et état compressé) et pourquoi les SSM comme Mamba sont intéressants (ils revisitent l'idée d'état à portes avec des améliorations modernes).
Leonardo.ai Génération d'images créatives, création d'assets de jeu
Compagnies
Plateforme australienne de génération d'images par IA qui s'est taillé une place entre Midjourney et Stable Diffusion. Populaire auprès des développeurs de jeux vidéo et des artistes numériques pour ses modèles affinés, son canevas en temps réel et son accent sur les actifs créatifs prêts pour la production.
Pourquoi c’est important : Leonardo.ai a montré que la génération d'images par IA pouvait être présentée comme une plateforme créative professionnelle, et non comme une simple boîte à instructions comme curiosité, et que cela pouvait attirer des dizaines de millions d'utilisateurs. Leur concentration sur le développement de jeux vidéo et les flux de travail d'art numérique a ouvert des cas d'utilisation pour lesquels des outils plus larges comme Midjourney et DALL-E n'étaient pas spécifiquement conçus. L'acquisition par Canva a validé toute la catégorie de la génération d'images par IA comme un actif stratégique pour les grandes plateformes de design, établissant le modèle de la façon dont les outils d'IA autonomes sont absorbés dans des écosystèmes créatifs plus vastes.
Liquid AI Liquid Foundation Models, réseaux de neurones liquides
Compagnies
Entreprise issue du MIT explorant des architectures de réseaux de neurones fondamentalement différentes, inspirées des circuits neuronaux biologiques. Leurs Liquid Foundation Models utilisent des dynamiques en temps continu plutôt que des transformers à poids fixes, promettant une meilleure efficacité et adaptabilité.
Pourquoi c’est important : Liquid AI représente le défi financé le plus sérieux à l'hypothèse que les transformers sont la seule architecture qui compte. En construisant des modèles fondation de qualité production sur des dynamiques en temps continu inspirées de la biologie, ils testent si le pari tout-en-un de l'industrie de l'IA sur les mécanismes d'attention était prématuré. Même si les LFM ne détrônent pas complètement les transformers, leurs avantages en efficacité pour le déploiement en périphérie et le traitement de longues séquences pourraient se tailler des créneaux essentiels en robotique, en IA mobile et en systèmes embarqués — des marchés où faire tourner un transformer de 70 milliards de paramètres n'est tout simplement pas envisageable.
Entreprise d'IA specialisee en generation de video et de contenu 3D. Leur Dream Machine a ete l'un des premiers generateurs video par IA accessibles et de haute qualite, et Ray2 a considerablement fait progresser la qualite et la coherence video.
Pourquoi c’est important : Luma AI a democratise la generation video par IA de la meme facon que Stable Diffusion a democratise les images — en la rendant gratuite, rapide et accessible a quiconque disposait d'un navigateur. Leur evolution de startup de capture 3D a generateur video de premier plan, combinee a une profondeur technique unique en comprehension spatiale, les positionne comme l'une des rares entreprises qui pourrait veritablement combler le fosse entre la video par IA, le contenu 3D et les formats de medias immersifs qui suivront.
Le délai entre l'envoi d'une requête et l'obtention de la première réponse. En IA, cela se mesure souvent en Time to First Token (TTFT) — combien de temps avant que le modèle commence à diffuser sa réponse. Affectée par la taille du modèle, la charge du serveur, la distance réseau et la longueur du prompt.
Pourquoi c’est important : Les utilisateurs perçoivent tout ce qui dépasse environ 2 secondes comme lent. La faible latence est la raison pour laquelle les petits modèles l'emportent souvent pour les applications en temps réel, même quand les grands modèles sont « plus intelligents ». C'est un facteur de différenciation clé entre les fournisseurs.
Un réseau de neurones entraîné sur d'énormes quantités de texte pour comprendre et générer du langage humain. « Large » fait référence au nombre de paramètres (des milliards) et à la taille des données d'entraînement (des milliers de milliards de tokens). Claude, GPT, Gemini, Llama et Mistral sont tous des LLM.
Pourquoi c’est important : Les LLM sont la technologie derrière chaque chat IA, assistant de code et générateur de texte que vous utilisez. Comprendre ce qu'ils sont (des appariements statistiques de patterns, pas des êtres sentients) vous aide à les utiliser efficacement et à reconnaître leurs limites.
Une technique qui rend le fine-tuning radicalement moins coûteux en n'entraînant qu'un petit nombre de paramètres supplémentaires au lieu de modifier le modèle entier. Les adaptateurs LoRA sont des extensions légères (souvent quelques mégaoctets) qui modifient le comportement d'un modèle sans réentraîner ses milliards de paramètres.
Pourquoi c’est important : LoRA a démocratisé le fine-tuning. Avant, personnaliser un modèle de 7 milliards de paramètres exigeait des ressources GPU sérieuses. Maintenant, on peut faire du fine-tuning sur un seul GPU grand public en quelques heures et partager le minuscule fichier d'adaptateur. C'est la raison pour laquelle il y a des milliers de modèles spécialisés sur HuggingFace.
Mesure à quel point les prédictions sont fausses. Pour les LLM : la perte d'entropie croisée = à quel point le modèle est surpris par le vrai prochain token.
Pourquoi c'est important : La boussole de l'entraînement. Comprendre la perte aide à interpréter les courbes d'entraînement et à diagnostiquer les problèmes.
An open-source C/C++ library for running LLM inference on consumer hardware, created by Georgi Gerganov. llama.cpp performs quantized inference without requiring CUDA, PyTorch, or Python — it runs on CPUs, Apple Silicon, and consumer GPUs. It was the first tool to make running large language models locally accessible to normal developers and enthusiasts.
Why it matters: llama.cpp started the local AI revolution. Before it, running a language model required expensive NVIDIA GPUs and complex Python setups. llama.cpp showed that quantized models could run on a MacBook or even a Raspberry Pi with acceptable quality. It spawned an entire ecosystem (Ollama, LM Studio, kobold.cpp) and made "self-hosted AI" a real option.
A popular open-source framework for building applications with language models. LangChain provides abstractions for common patterns: connecting LLMs to data sources (RAG), building multi-step chains of LLM calls, managing conversation memory, using tools, and orchestrating agents. It supports multiple providers (Anthropic, OpenAI, local models) through a unified interface.
Why it matters: LangChain is the most widely-used LLM application framework, which means you'll encounter it in tutorials, job descriptions, and existing codebases. It's also controversial — critics argue it adds unnecessary abstraction over simple API calls. Understanding what LangChain does (and when to use it vs. direct API calls) helps you make informed architectural decisions.
The raw, unnormalized scores that a model outputs before they're converted into probabilities by the softmax function. For a language model, the logits are a vector with one value per token in the vocabulary — higher values indicate tokens the model considers more likely. Logits are the most informative output a model produces, containing more information than the final probability distribution.
Why it matters: Understanding logits helps you understand how models "think." Temperature, top-p, and top-k sampling all operate on logits. Classifier-free guidance in image generation manipulates logits. Logit bias (adding offsets to specific tokens) lets you steer model behavior. If you're building AI applications beyond basic chat, you'll eventually need to work with logits directly.
A strategy for changing the learning rate during training rather than keeping it constant. Most modern training uses warmup (gradually increase from near-zero to peak) followed by decay (gradually decrease toward zero). Cosine annealing is the most common decay schedule. The learning rate controls how large each gradient update step is — arguably the most important hyperparameter in training.
Why it matters: Getting the learning rate schedule right can make or break a training run. Too high and the model diverges (loss spikes, training fails). Too low and it trains too slowly or gets stuck. The schedule interacts with batch size, model size, and data — there's no universal setting. Understanding learning rate schedules helps you interpret training curves and diagnose training issues.
Automatically identifying which language a text is written in. "Bonjour le monde" → French. "こんにちは世界" → Japanese. Modern models can distinguish 100+ languages from just a few words, handle mixed-language text (code-switching), and identify closely related languages (Norwegian vs. Danish, Malay vs. Indonesian).
Why it matters: Language detection is the essential first step in any multilingual pipeline: you need to know what language the input is before you can translate it, route it to the right model, or apply language-specific processing. It's used in search engines, customer support routing, content moderation, and every system that handles text from users worldwide.
A GPU cloud provider focused specifically on AI and machine learning workloads. Lambda offers on-demand and reserved NVIDIA GPU instances (A100, H100, H200) for training and inference at prices competitive with or below AWS, GCP, and Azure. They also sell GPU workstations and servers. Founded in 2012, Lambda has become a go-to provider for AI researchers and startups.
Why it matters: Lambda represents the GPU cloud layer that enables AI development for teams that can't afford to build their own data centers but need more control and better pricing than hyperscaler cloud providers. For startups training models, Lambda's GPU availability and pricing can make the difference between feasible and infeasible training runs.
Un fournisseur de cloud GPU spécialisé dans les charges de travail IA et machine learning. Lambda offre des instances GPU NVIDIA à la demande et réservées (A100, H100, H200) pour l'entraînement et l'inférence à des prix compétitifs ou inférieurs à AWS, GCP et Azure. Ils vendent aussi des postes de travail et serveurs GPU. Fondée en 2012, Lambda est devenue un fournisseur de référence pour les chercheurs et startups en IA.
Pourquoi c'est important : Lambda représente la couche cloud GPU qui rend le développement IA possible pour les équipes qui ne peuvent pas se permettre de construire leurs propres centres de données mais qui ont besoin de plus de contrôle et de meilleurs prix que les fournisseurs de cloud hyperscalers. Pour les startups qui entraînent des modèles, la disponibilité et les prix GPU de Lambda peuvent faire la différence entre un entraînement faisable et infaisable.
Un modèle qui construit une représentation interne du fonctionnement du monde — pas seulement des corrélations statistiques mais des relations causales, des lois physiques et du raisonnement spatial. Le débat sur la question de savoir si les LLM possèdent des modèles du monde est l'un des plus controversés en IA : comprennent-ils vraiment que les objets tombent quand on les lâche, ou savent-ils simplement que « tombe » suit souvent « lâché » dans le texte ?
Pourquoi c'est important : Les modèles du monde sont au cœur de la question la plus importante en IA : la compréhension nécessite-t-elle plus que de la reconnaissance de patterns ? Si les LLM construisent de véritables modèles du monde, ils sont plus proches de la compréhension qu'on ne le pensait. Si ce n'est pas le cas, il y a une lacune fondamentale de capacité que la mise à l'échelle seule ne comblera pas. La réponse a des implications massives pour la sécurité de l'IA, les capacités et le chemin vers une intelligence plus générale.
Un système mathématique entraîné qui reçoit des entrées et produit des sorties en se basant sur des motifs appris à partir des données. En intelligence artificielle, le terme « modèle » désigne le terme générique pour l'élément que vous utilisez réellement — qu'il s'agisse de GPT-4 qui génère du texte, de Stable Diffusion qui génère des images ou de Whisper qui transcrit la parole. Un modèle est défini par son architecture (la manière dont il est structuré), ses paramètres (ce qu'il a appris) et ses données d'entraînement (de quoi il a appris). Lorsqu'on dit « quel modèle devrais-je utiliser ? », on fait référence à cela.
Pourquoi c’est important : Le mot « model » est le plus utilisé dans l'intelligence artificielle, et il peut avoir des significations différentes selon les contextes. Un « model » peut désigner l'architecture (Transformer), une instance entraînée spécifique (Claude Opus 4.6), un fichier sur disque (un fichier .gguf) ou un point de terminaison API. Comprendre ce qu'est réellement un modèle — et ce qu'il n'est pas — constitue la base de tout le reste.
Le domaine vaste de l'informatique où les systèmes apprennent des modèles à partir de données plutôt que de suivre des règles explicites. Au lieu de programmer un ordinateur pour reconnaître un chat en listant des caractéristiques (quatre pattes, oreilles pointues, moustaches), on lui montre des milliers de photos de chats et on lui laisse découvrir le modèle par lui-même. L'apprentissage automatique englobe tout, de la régression linéaire simple aux réseaux de neurones profonds qui alimentent l'IA d'aujourd'hui — l'apprentissage supervisé (exemples étiquetés), l'apprentissage non supervisé (découverte de structures) et l'apprentissage par renforcement (essai-erreur).
Pourquoi c’est important : L'apprentissage automatique est le fondement de tous les outils que nous appelons « IA » aujourd'hui. Chaque modèle de langage de grande envergure, chaque générateur d'images, chaque algorithme de recommandation, chaque filtre anti-spam — c'est tout l'apprentissage automatique. Comprendre l'apprentissage automatique en tant que discipline plus large vous permet de voir où s'applique l'apprentissage profond, où les méthodes classiques restent plus efficaces, et pourquoi l'« IA » n'est en réalité qu'« l'apprentissage automatique qui a vraiment bien fonctionné ».
Les mécanismes qui permettent aux modèles d'IA de retenir et de rappeler des informations au-delà d'une seule conversation. Cela inclut la mémoire en contexte (utilisation de la fenêtre de contexte), la mémoire externe (RAG, bases de données vectorielles), la mémoire de conversation persistante (se souvenir des préférences de l'utilisateur entre les sessions) et la mémoire de travail (maintien de l'état pendant des tâches d'agent en plusieurs étapes). La mémoire est ce qui fait que l'IA ressemble à un collaborateur plutôt qu'à un outil sans état.
Pourquoi c’est important : Sans mémoire, chaque conversation IA repart de zéro. Vous répétez vos préférences, ré-expliquez votre base de code, re-décrivez votre projet. La mémoire est ce qui transforme un agent conversationnel en assistant — et c'est l'un des problèmes les plus difficiles à bien résoudre, équilibrant pertinence, vie privée, obsolescence et coûts de stockage.
Entreprise chinoise d'IA qui a fait sensation en lançant Kimi, un agent conversationnel doté d'une fenêtre de contexte de 2 millions de jetons. Fondée par Yang Zhilin, ancien chercheur derrière des innovations clés en modélisation de longs contextes.
Pourquoi c’est important : Moonshot AI a forcé toute l'industrie à prendre la longueur du contexte au sérieux. Avant Kimi, la prise en charge de longs contextes était un atout secondaire ; après que Kimi soit devenu viral en Chine, tous les grands laboratoires se sont précipités pour étendre leurs fenêtres de contexte. Le pari de Yang Zhilin — que les utilisateurs changeraient fondamentalement leur façon d'interagir avec l'IA quand on leur donnerait assez de contexte — a été validé par la croissance explosive de Kimi, et les techniques développées par Moonshot pour l'inférence efficace de longues séquences influencent la façon dont la prochaine génération de modèles gère les documents, les bases de code et le raisonnement complexe en plusieurs étapes.
La division de recherche en IA de Meta, qui abrite FAIR (Fundamental AI Research). Responsable de la famille de modèles à poids ouverts Llama et de PyTorch, le cadriciel d'apprentissage profond utilisé par la majeure partie de l'industrie de l'IA.
Pourquoi c’est important : Meta AI a fondamentalement changé l'économie de l'IA en prouvant que des modèles de classe frontière pouvaient être publiés en poids ouverts. Llama et ses dérivés alimentent des milliers d'applications, de startups et de projets de recherche qui n'auraient jamais eu accès à des modèles de ce calibre. PyTorch sous-tend la majorité des systèmes de recherche et de production en IA dans le monde. Et avec plus de 3 milliards d'utilisateurs à travers ses applications, Meta dispose d'une distribution qu'aucun autre laboratoire d'IA ne peut égaler — quand ils lancent une fonctionnalité IA, elle atteint un tiers de l'humanité du jour au lendemain.
Puissance européenne de l'IA fondée par d'anciens chercheurs de DeepMind et Meta. Reconnue pour ses performances au-delà de ses moyens grâce à des modèles efficaces, et pour son engagement envers la distribution en poids ouverts parallèlement à ses offres commerciales.
Pourquoi c’est important : Mistral a prouvé qu'il n'est pas nécessaire de disposer de budgets d'hyperscalers américains pour construire des modèles d'IA de pointe. Leurs architectures efficaces — en particulier leurs travaux pionniers sur le mélange d'experts épars — ont influencé l'approche de toute l'industrie en matière de conception de modèles, et leurs publications en poids ouverts ont donné aux développeurs du monde entier accès à des modèles de haute qualité sans dépendance à une API. En tant que première entreprise européenne d'IA à atteindre une véritable compétition de pointe, Mistral revêt également une importance stratégique : son succès (ou son échec) déterminera si l'Europe peut être un acteur de l'IA, ou simplement un régulateur.
Entreprise d'IA chinoise développant des modèles à grande échelle en texte, voix et vidéo. Connue pour sa plateforme grand public Hailuo et ses modèles multimodaux de plus en plus compétitifs.
Pourquoi c’est important : MiniMax s'est imposée comme l'une des entreprises d'IA les plus polyvalentes en Chine, développant des modèles compétitifs en texte, voix et vidéo à partir d'une pile intégrée unique. Leur plateforme Hailuo AI a rendu la génération vidéo par IA de haute qualité accessible à un public mondial et gratuitement, démontrant que les laboratoires d'IA chinois peuvent construire des produits grand public avec une portée internationale véritable — et pas seulement des API pour entreprises ou des articles de recherche.
Un protocole ouvert (créé par Anthropic) qui standardise la façon dont les modèles d'IA se connectent aux outils et sources de données externes. Pensez-y comme l'USB-C de l'IA — une interface standard unique au lieu d'intégrations sur mesure pour chaque outil. Les serveurs MCP exposent des capacités ; les clients MCP (comme Claude) les consomment.
Pourquoi c’est important : Avant MCP, chaque intégration IA-outil était sur mesure. MCP signifie qu'un outil construit une fois fonctionne avec tout client compatible. Il est déjà pris en charge par Claude, Cursor et d'autres. C'est ainsi que l'IA passe du chatbot à un véritable assistant.
Une architecture où le modèle contient plusieurs sous-réseaux « experts », mais n'en active que quelques-uns pour chaque entrée. Un réseau routeur décide quels experts sont pertinents pour un token donné. Cela signifie qu'un modèle peut avoir plus de 100 milliards de paramètres au total mais n'en utiliser que 20 milliards pour chaque passage.
Pourquoi c’est important : Le MoE est la façon dont des modèles comme Mixtral et (selon toute vraisemblance) GPT-4 obtiennent la qualité d'un énorme modèle avec la vitesse d'un plus petit. Le compromis est une utilisation mémoire plus élevée (tous les experts doivent être chargés) même si le calcul est moins coûteux.
Un modèle capable de comprendre et/ou de générer plusieurs types de données : texte, images, audio, vidéo, code. Claude peut lire des images et du texte ; certains modèles peuvent aussi produire des images ou de la parole. « Multimodal » contraste avec les modèles « unimodaux » qui ne gèrent qu'un seul type.
Pourquoi c’est important : Les tâches du monde réel sont multimodales. Vous voulez montrer une capture d'écran à une IA et demander « qu'est-ce qui cloche ici ? » ou lui donner un diagramme et dire « implémente ça ». Les modèles multimodaux rendent cela possible.
Rétro-ingénierie de ce qui se passe à l'intérieur des réseaux de neurones au niveau des neurones, circuits et features.
Pourquoi c'est important : Centrale pour la sécurité de l'IA. Domaine de recherche clé chez Anthropic. Les chercheurs ont trouvé des circuits spécifiques à l'intérieur des Transformers.
L'infrastructure et les logiciels qui font tourner des modèles d'IA entraînés en production, gérant les requêtes entrantes, administrant la mémoire GPU, regroupant les requêtes pour l'efficacité et retournant les réponses. Les frameworks de service de modèles comme vLLM, TGI (Text Generation Inference) et TensorRT-LLM gèrent l'ingénierie complexe nécessaire pour rendre l'inférence LLM rapide et rentable à l'échelle.
Pourquoi c'est important : Le fossé entre « j'ai un modèle » et « je peux servir 10 000 utilisateurs simultanément » est énorme. Les frameworks de service de modèles résolvent la gestion de la mémoire GPU, l'ordonnancement des requêtes, l'optimisation du cache KV et le batching continu — des problèmes difficiles à résoudre à partir de zéro. Choisir la bonne pile de service est une des décisions les plus impactantes en IA de production.
The degradation that occurs when AI models are trained on data generated by previous AI models, creating a feedback loop where errors and biases accumulate across generations. Each generation loses some diversity and amplifies some artifacts from the previous one, eventually producing models that generate repetitive, generic, or distorted outputs.
Why it matters: Model collapse is the ticking time bomb of the AI-generated content era. As the internet fills with AI-generated text (estimated at 10–50% of new web content), future models trained on web scrapes will inevitably ingest AI outputs. If this isn't carefully managed, model quality could plateau or degrade. It's why data curation and provenance tracking are becoming critical infrastructure.
Architectures where multiple AI agents collaborate, debate, or specialize to solve problems that a single agent can't handle alone. Each agent might have a different role (researcher, coder, reviewer), different tools, or different models. They communicate through structured messages, shared memory, or direct handoffs.
Why it matters: Multi-agent systems are the emerging paradigm for complex AI tasks. A single LLM call handles a question. An agent handles a multi-step task. A multi-agent system handles tasks that require different expertise, parallel work, or quality assurance through review. As AI moves from chatbots to autonomous workflows, multi-agent architectures become the natural scaling pattern.
Training neural networks using lower-precision number formats (16-bit instead of 32-bit) for most computations while keeping critical operations in full precision. This doubles the effective memory capacity and computation speed of GPUs with minimal impact on model quality. BF16 (bfloat16) is the standard for LLM training; FP16 is used for inference.
Why it matters: Mixed precision is why we can train models as large as we do. A 70B parameter model in FP32 would need 280 GB just for weights — impossible on any single GPU. In BF16, it needs 140 GB, which fits across a few GPUs. Mixed precision effectively doubled the AI industry's compute capacity for free, just by using a smarter number format.
A self-supervised training objective where random tokens in the input are replaced with a [MASK] token, and the model must predict the original tokens from context. BERT popularized MLM: mask 15% of tokens, use bidirectional attention to look at both left and right context, and predict the masked words. This creates powerful text understanding models (as opposed to text generation models).
Why it matters: MLM is the training objective that created BERT and the entire family of encoder models that still power most production search, classification, and embedding systems. Understanding MLM vs. causal language modeling (next-token prediction) explains the fundamental split between understanding models (BERT) and generation models (GPT) — and why each excels at different tasks.
Traduire automatiquement du texte d'une langue à une autre. La traduction automatique neuronale (NMT) moderne utilise des Transformers encodeur-décodeur entraînés sur des corpus parallèles (textes et leurs traductions). Google Translate, DeepL et la traduction par LLM utilisent tous des variantes de cette approche. La qualité s'est améliorée de façon spectaculaire — pour les paires de langues courantes, la MT se rapproche de la traduction humaine professionnelle pour le contenu courant.
Pourquoi c'est important : La traduction automatique brise les barrières linguistiques à grande échelle. Elle permet le commerce mondial, la recherche multilingue, la communication en temps réel et l'accès à l'information à travers les langues. Pour l'IA spécifiquement, la MT est la façon dont les modèles entraînés principalement en anglais peuvent servir des utilisateurs dans plus de 100 langues — et c'est pourquoi l'efficacité des tokenizers multilingues compte pour le coût.
Créer de la musique à partir de descriptions textuelles, de mélodies ou d'autres entrées audio en utilisant des modèles IA. « Un morceau électronique entraînant avec une mélodie de synthé accrocheuse, 120 BPM » produit une composition musicale complète. Suno, Udio, MusicLM (Google) et Stable Audio sont les modèles leaders. Les systèmes actuels génèrent des voix, des instrumentaux et des arrangements complets dans des styles et genres divers.
Pourquoi c'est important : La génération de musique est l'équivalent audio de la génération d'images — elle rend la création musicale accessible à tout le monde, pas seulement aux musiciens formés. Les créateurs de contenu ont besoin de musique de fond, les développeurs de jeux ont besoin de bandes sonores, les annonceurs ont besoin de jingles. La musique IA remplit ces besoins pour une fraction du coût et du temps nécessaires pour engager des musiciens. Mais ça soulève aussi les mêmes questions de droits d'auteur et d'authenticité que la génération d'images.
Un système centralisé pour versionner, suivre et gérer les modèles de machine learning entraînés tout au long de leur cycle de vie. Comme un registre de paquets (npm, PyPI) mais pour les modèles ML : chaque version du modèle est stockée avec ses métadonnées (données d'entraînement, hyperparamètres, métriques de performance, lignage), rendant possible la reproduction des résultats, la comparaison des versions et le déploiement de modèles spécifiques en production.
Pourquoi c'est important : Sans registre de modèles, le développement ML devient le chaos : quelle version du modèle est en production ? Sur quelles données a-t-il été entraîné ? Quand l'a-t-on mis à jour pour la dernière fois ? Qui l'a entraîné ? Un registre de modèles répond à toutes ces questions et fournit la fondation pour un déploiement ML reproductible, auditable et fiable. C'est de l'infrastructure essentielle pour toute équipe qui fait tourner des modèles en production.
The fundamental mathematical operation underlying all neural networks. Multiplying a weight matrix by an input vector (or matrix) produces an output vector. Every linear layer, every attention computation, and every embedding lookup is ultimately a matrix multiplication. The performance of AI hardware (GPUs, TPUs) is measured in how fast it can do matrix multiplications.
Why it matters: Understanding that neural networks are just sequences of matrix multiplications (with non-linearities in between) demystifies the entire field. It explains why GPUs are essential (they're parallel matrix multiplication machines), why model size is measured in parameters (the number of values in the weight matrices), and why FLOPs is the unit of compute (it counts the multiply-add operations in these matrix multiplications).
L'opération mathématique fondamentale qui sous-tend tous les réseaux de neurones. Multiplier une matrice de poids par un vecteur (ou une matrice) d'entrée produit un vecteur de sortie. Chaque couche linéaire, chaque calcul d'attention, et chaque lookup d'embedding est ultimement une multiplication matricielle. La performance du matériel IA (GPU, TPU) se mesure à la vitesse à laquelle il peut faire des multiplications matricielles.
Pourquoi c'est important : Comprendre que les réseaux de neurones sont juste des séquences de multiplications matricielles (avec des non-linéarités entre les deux) démystifie tout le domaine. Ça explique pourquoi les GPU sont essentiels (ce sont des machines de multiplication matricielle parallèle), pourquoi la taille du modèle se mesure en paramètres (le nombre de valeurs dans les matrices de poids), et pourquoi les FLOP sont l'unité de calcul (ça compte les opérations multiplication-addition dans ces multiplications matricielles).
L'unité de calcul de base d'un réseau de neurones. Un neurone artificiel reçoit des entrées, multiplie chacune par un poids, les additionne, ajoute un biais, et passe le résultat à travers une fonction d'activation pour produire une sortie. Des milliers à des milliards de ces neurones, organisés en couches et connectés par des poids appris, forment les réseaux de neurones qui propulsent toute l'IA moderne.
Pourquoi c'est important : Les neurones sont les atomes de l'apprentissage profond. Comprendre un seul neurone — somme pondérée plus activation — rend le reste de l'architecture des réseaux de neurones intuitif. Une couche est un groupe de neurones. Un réseau est un empilement de couches. L'entraînement consiste à ajuster les poids. Tout le reste, c'est des détails (importants, mais des détails).
La branche de l'IA axée sur la capacité des machines à comprendre, interpréter et générer un langage humain. Le NLP englobe tout, des traitements de base du texte (tokenisation, racinisation, balisage des parties du discours) aux tâches complexes comme l'analyse de sentiment, la traduction automatique, la synthèse de résumés et la réponse aux questions. Avant les Transformers, le NLP était un ensemble disparate de techniques spécialisées. Aujourd'hui, les grands modèles de langage (LLMs) ont unifié la plupart des aspects du NLP sous un seul paradigme — mais les fondements du domaine restent essentiels pour comprendre comment et pourquoi ces modèles fonctionnent.
Pourquoi c’est important : L'IA est la raison pour laquelle vous pouvez parler à l'IA en anglais simple et obtenir des réponses utiles. Tout chatbot, tout moteur de recherche, tout service de traduction, tout outil d'écriture IA est basé sur le NLP. Même si vous ne construisez jamais un système NLP depuis zéro, comprendre les fondamentaux — tokenization, attention, embeddings, contexte — vous rend plus efficace avec chaque outil IA qui traite le texte.
L'entreprise dont les GPU alimentent pratiquement tout l'entrainement d'IA et la majeure partie de l'inference a l'echelle mondiale. Ce qui a commence comme un fabricant de cartes graphiques est devenu le fournisseur de materiel le plus critique de l'industrie de l'IA, faisant brievement de NVIDIA l'entreprise la plus valorisee au monde.
Pourquoi c’est important : NVIDIA est l'entreprise sans laquelle la revolution de l'IA n'aurait tout simplement pas lieu — leurs GPU et leur ecosysteme logiciel CUDA sont les fondations sur lesquelles pratiquement tous les grands modeles d'IA ont ete entraines. La combinaison de materiel d'IA specialise, d'un rempart logiciel forge sur une decennie et du controle du tissu reseau qui interconnecte les GPU leur a confere une position quasi monopolistique dans la chaine d'approvisionnement la plus critique du 21e siecle. Quand les gouvernements, les entreprises et les laboratoires de recherche se disputent la puissance de calcul IA, c'est pour du materiel NVIDIA qu'ils se battent, et ce simple fait a transforme l'ancien fabricant de cartes graphiques de Jensen Huang en l'entreprise technologique la plus strategiquement importante de la planete.
Un système informatique vaguement inspiré du cerveau biologique, composé de couches de « neurones » interconnectés (des fonctions mathématiques) qui apprennent des patterns à partir de données. L'information traverse les couches en étant progressivement transformée jusqu'à ce que le réseau produise une sortie. Tous les modèles d'IA modernes sont des réseaux de neurones d'un type ou d'un autre.
Pourquoi c’est important : Les réseaux de neurones sont le « comment » derrière toute l'IA. Comprendre qu'il s'agit de mathématiques (ni de magie, ni de cerveaux) aide à démystifier ce que l'IA peut et ne peut pas faire. Ce sont des détecteurs de patterns — extraordinairement puissants, certes, mais des détecteurs de patterns tout de même.
Des techniques qui stabilisent l'entraînement des réseaux de neurones en normalisant les valeurs circulant dans le réseau pour avoir une échelle cohérente. Layer Normalization (LayerNorm) normalise à travers les caractéristiques au sein de chaque exemple. RMSNorm est une variante simplifiée. Batch Normalization (BatchNorm) normalise à travers le lot. Chaque Transformer utilise une forme de normalisation entre les couches.
Pourquoi c'est important : Sans normalisation, les réseaux profonds sont extrêmement difficiles à entraîner — les activations peuvent exploser ou s'évanouir à travers les couches, rendant la descente de gradient instable. La normalisation est une de ces techniques peu glamour qui est absolument essentielle : retire-la de n'importe quelle architecture moderne et l'entraînement s'effondre.
Identifier et catégoriser les entités nommées dans un texte — personnes, organisations, lieux, dates, montants monétaires et autres noms propres. Dans « Apple a annoncé un investissement de 3 G$ à Munich mardi », le NER identifie Apple (Organisation), 3 G$ (Argent), Munich (Lieu) et mardi (Date). C'est une tâche NLP fondamentale utilisée dans l'extraction d'information, la recherche et la construction de graphes de connaissances.
Pourquoi c'est important : Le NER est la colonne vertébrale de l'extraction d'information structurée à partir de texte non structuré. Chaque moteur de recherche, agrégateur de nouvelles et système de renseignement utilise le NER pour comprendre de quoi parle un document. C'est aussi la première étape dans la construction de graphes de connaissances à partir de texte — tu ne peux pas construire de relations entre des entités que tu n'as pas identifiées.
Une description textuelle de ce que tu ne veux pas dans une image générée, utilisée à côté du prompt principal. Prompt : « un beau paysage. » Prompt négatif : « flou, basse qualité, texte, filigrane, personnes. » Le modèle s'éloigne activement des concepts du prompt négatif pendant la génération. Les prompts négatifs sont principalement utilisés avec Stable Diffusion et d'autres modèles de génération d'images ouverts.
Pourquoi c'est important : Les prompts négatifs sont l'un des outils les plus efficaces pour améliorer la qualité de la génération d'images. Sans eux, les modèles ont tendance à produire des artefacts (zones floues, doigts en trop, filigranes de texte) parce que ceux-ci apparaissent fréquemment dans les données d'entraînement. Un prompt négatif bien construit élimine les modes d'échec courants et te donne plus de contrôle sur la sortie sans changer le prompt positif.
Un format ouvert pour représenter les modèles d'apprentissage automatique qui permet l'interopérabilité entre frameworks. Un modèle entraîné dans PyTorch peut être exporté en ONNX puis exécuté avec ONNX Runtime, TensorRT ou d'autres moteurs d'inférence optimisés pour du matériel spécifique. ONNX agit comme un langage commun entre le monde de l'entraînement (PyTorch, TensorFlow) et le monde du déploiement (runtimes optimisés).
Pourquoi c'est important : ONNX résout un vrai problème de production : tu entraînes dans PyTorch (le standard de recherche) mais tu déploies sur du matériel qui tourne mieux avec un runtime différent. Convertir en ONNX te permet d'utiliser des moteurs d'inférence optimisés sans réécrire ton modèle. C'est particulièrement important pour le déploiement en périphérie où tu as besoin de performance maximale sur du matériel limité.
Ouvert vs. Fermé Open source vs. propriétaire, débat sur les poids ouverts
Fondamentaux
Le débat en cours sur la question de savoir si les modèles d'IA devraient être publiés ouvertement (poids accessibles au public, comme Llama et Mistral) ou rester propriétaires (disponibles uniquement via API, comme Claude et GPT). Les partisans de l'ouverture défendent la transparence, la compétition et la démocratisation. Les partisans du fermé défendent la sécurité, le déploiement responsable et la prévention du mésusage. La réalité est un spectre : les modèles véritablement « open source » (avec données d'entraînement et code) sont rares ; la plupart des modèles « ouverts » sont à poids ouverts.
Pourquoi c'est important : Ce débat façonne l'avenir de l'IA. Si le fermé l'emporte, quelques entreprises contrôlent l'accès à la technologie la plus puissante du siècle. Si l'ouvert l'emporte, l'IA puissante est accessible à tous — y compris ceux qui en abuseraient. La plupart des praticiens utilisent les deux : des API propriétaires pour la production (fiabilité, support) et des modèles ouverts pour l'expérimentation, la confidentialité et le contrôle des coûts. Comprendre les compromis t'aide à choisir.
Optimisation Optimisation de modèle, optimisation d'inférence
Entraînement
L'ensemble large de techniques utilisées pour rendre les modèles d'IA plus rapides, plus petits, moins chers ou plus précis. Cela inclut les optimisations d'entraînement (précision mixte, gradient checkpointing, parallélisme de données), les optimisations d'inférence (quantification, élagage, distillation, décodage spéculatif) et les optimisations de service (traitement par lots, mise en cache, équilibrage de charge). L'optimisation est la raison pour laquelle on peut faire tourner un modèle de 14 milliards de paramètres sur un portable.
Pourquoi c’est important : La capacité brute ne signifie rien si on ne peut pas se permettre de la faire tourner. L'optimisation est la différence entre une démonstration de recherche et un produit en production. C'est pourquoi les modèles à poids ouverts peuvent rivaliser avec les fournisseurs d'API, pourquoi l'IA mobile existe, et pourquoi les coûts d'inférence continuent de baisser.
L'entreprise derrière ChatGPT et la série de modèles GPT. À l'origine un laboratoire de recherche à but non lucratif, OpenAI est devenue le visage public de la révolution de l'IA lors du lancement de ChatGPT en novembre 2022.
Pourquoi c’est important : OpenAI a fait plus que toute autre organisation pour faire passer l'IA du laboratoire de recherche à la conscience collective. ChatGPT a été le moment iPhone de l'IA générative — le produit qui a fait comprendre viscéralement à des centaines de millions de personnes ce que les grands modèles de langage pouvaient accomplir. Leur API a créé la couche d'infrastructure sur laquelle des milliers de startups en IA ont été bâties, et la série GPT a établi la mise à l'échelle comme paradigme dominant de la recherche en IA pendant des années. Même les controverses d'OpenAI — la crise de gouvernance, la conversion du but non lucratif vers le lucratif, les départs de chercheurs axés sur la sécurité — ont façonné le débat plus large sur la manière dont les entreprises d'IA devraient être structurées et gouvernées.
Quand une entreprise publie les paramètres entraînés d'un modèle pour que quiconque puisse le télécharger et l'exécuter. « Open weights » est plus exact que « open source » parce que la plupart des modèles publiés n'incluent pas les données d'entraînement ni le code d'entraînement — on obtient le modèle fini mais pas la recette. Llama, Mistral et Qwen sont des modèles open-weights.
Pourquoi c’est important : Les open weights signifient que vous pouvez exécuter l'IA sur votre propre matériel en toute confidentialité — pas d'appels API, pas de données qui quittent votre réseau. Le compromis, c'est qu'il faut les ressources GPU pour les faire tourner et que vous êtes responsable de la sécurité.
Quand un modèle mémorise ses données d'entraînement trop bien et perd la capacité de généraliser à de nouvelles entrées. Comme un étudiant qui mémorise les réponses d'examens pratiques mais ne peut pas résoudre de nouveaux problèmes. Le modèle performe très bien sur les données d'entraînement mais mal sur tout ce qu'il n'a pas vu auparavant.
Pourquoi c’est important : Le surapprentissage est le mode de défaillance le plus courant en entraînement de modèles. C'est pourquoi l'évaluation utilise des ensembles de test séparés, et pourquoi entraîner trop longtemps (trop d'époques) peut en fait rendre un modèle moins bon.
A user-friendly tool for running language models locally with a single command. Ollama wraps llama.cpp in a Docker-like experience: ollama run llama3 downloads and runs Llama 3, automatically selecting the right quantization for your hardware. It manages model downloads, provides an API server, and handles hardware detection.
Why it matters: Ollama is to local AI what Docker is to containerization: it removed the friction. Before Ollama, running a local model meant choosing quantization levels, downloading GGUF files, configuring llama.cpp flags, and managing GPU offloading. Ollama handles all of this automatically. It's the fastest path from "I want to try running AI locally" to actually doing it.
Identifier et localiser des objets dans des images ou vidéos en dessinant des boîtes englobantes autour d'eux et en classifiant le contenu de chaque boîte. « Il y a une voiture à la position (x1,y1,x2,y2) et une personne à (x3,y3,x4,y4). » Contrairement à la classification d'images (qui dit ce qu'il y a dans l'image), la détection d'objets dit ce qu'il y a dans l'image et où — permettant le comptage, le suivi et le raisonnement spatial.
Pourquoi c'est important : La détection d'objets est la technologie derrière les voitures autonomes (détecter les piétons, véhicules, panneaux), les caméras de sécurité (détection de personnes), l'analytique retail (compter les clients), le contrôle qualité en manufacture (détecter les défauts), et la réalité augmentée (placer des objets virtuels par rapport aux objets réels). C'est l'une des capacités de vision par ordinateur les plus déployées commercialement.
OCR Reconnaissance optique de caractères, Reconnaissance de texte
Utiliser l'AI
Extraire du texte à partir d'images — photographies de documents, captures d'écran, panneaux, notes manuscrites, ou toute image contenant du texte. L'OCR moderne combine la détection de texte (trouver où le texte apparaît dans l'image) avec la reconnaissance de texte (lire ce que dit le texte). L'OCR par deep learning gère le texte courbé, les langues multiples, les polices variées et la mauvaise qualité d'image bien mieux que les anciennes approches à base de règles.
Pourquoi c'est important : L'OCR numérise le monde physique. Scanner les reçus pour le suivi des dépenses, lire des documents pour l'archivage, extraire des données de formulaires, traduire des panneaux en temps réel, et rendre les PDF basés sur des images consultables dépendent tous de l'OCR. Combiné avec les LLM, l'OCR permet la compréhension sophistiquée de documents — pas juste lire du texte mais comprendre les factures, contrats et rapports.
Les valeurs internes apprises par un réseau de neurones lors de l'entraînement — essentiellement la « connaissance » du modèle encodée sous forme de nombres. Lorsqu'on dit qu'un modèle possède « 7 milliards de paramètres », cela signifie que 7 milliards de valeurs numériques individuelles ont été ajustées lors de l'entraînement afin de capturer les motifs présents dans les données. Un plus grand nombre de paramètres implique généralement une plus grande capacité à apprendre des motifs complexes, mais aussi plus de mémoire pour les stocker et plus de puissance de calcul pour les exécuter.
Pourquoi c’est important : Le comptage des paramètres est l'abréviation courante pour désigner la taille d'un modèle, et il détermine directement la quantité de mémoire GPU nécessaire. Un modèle de 7B en précision 16 bits nécessite environ 14 Go de VRAM uniquement pour les poids. Comprendre les paramètres vous permet d'estimer les coûts, de choisir le matériel et de comprendre pourquoi la quantification (réduction de la précision par paramètre) est si importante pour rendre les modèles accessibles.
Entreprise chinoise de génération vidéo qui développe des outils vidéo IA accessibles. Connue pour ses vitesses de génération rapides et un niveau gratuit qui l'a aidée à constituer rapidement une large base d'utilisateurs sur les marchés internationaux.
Pourquoi c’est important : PixVerse a prouvé que la génération vidéo par IA pouvait être un produit grand public, et non un simple outil pour professionnels et adopteurs précoces. Leur niveau gratuit agressif et leur cycle d'itération rapide ont forcé toute la catégorie à repenser la tarification et l'accessibilité. En construisant l'une des plus grandes bases d'utilisateurs en vidéo IA en une seule année, ils ont démontré que la distribution et la vitesse d'exécution peuvent compter autant que la qualité brute du modèle pour déterminer qui remporte ce marché.
Perplexity Moteur de recherche propulsé par IA, API Sonar
Compagnies
Moteur de recherche par IA qui combine la recherche web en temps reel avec le raisonnement de modeles de langage pour fournir des reponses directes et sourcees au lieu d'une liste de liens. Le defi le plus visible a la domination de Google dans la recherche depuis une generation.
Pourquoi c’est important : Perplexity est le defi le plus credible a la domination de Google dans la recherche en plus d'une decennie, prouvant qu'un moteur de reponses natif IA peut offrir une experience fondamentalement superieure pour les requetes informationnelles. Ils ont popularise le paradigme de generation augmentee par recuperation comme produit grand public, montrant que la combinaison de la recherche web en temps reel avec le raisonnement LLM produit des resultats a la fois plus utiles et plus fiables que l'une ou l'autre technologie seule. Leur croissance rapide a force Google, Microsoft et tous les autres acteurs de la recherche a repenser ce a quoi un moteur de recherche devrait ressembler a l'ere des grands modeles de langage.
La phase d'entraînement initiale et massive où un modèle apprend le langage (ou d'autres modalités) à partir d'un immense corpus. C'est la partie coûteuse — des milliers de GPU fonctionnant pendant des semaines ou des mois, pour des millions de dollars. Le résultat est un modèle fondation qui comprend le langage mais n'a pas encore été spécialisé pour une tâche quelconque.
Pourquoi c’est important : Le pré-entraînement est ce qui rend les modèles fondation possibles. C'est aussi pourquoi seule une poignée d'entreprises peut créer des modèles de pointe — les coûts de calcul sont astronomiques. Tout le reste (fine-tuning, RLHF, prompting) se construit sur cette base.
La pratique consistant à formuler des entrées pour obtenir de meilleures sorties des modèles d'IA. Cela va de techniques simples (être spécifique, fournir des exemples) aux méthodes avancées (chaîne de pensée, prompting few-shot, assignation de rôle). Malgré le nom sophistiqué, il s'agit fondamentalement de communiquer clairement avec un système statistique.
Pourquoi c’est important : Le même modèle peut donner des résultats radicalement différents selon la façon dont vous posez la question. Une bonne ingénierie de prompt est le moyen le moins cher d'améliorer la qualité des sorties IA — pas d'entraînement, pas de fine-tuning, juste une meilleure communication.
Mesure à quel point un modèle prédit bien le texte. exp(perte d'entropie croisée moyenne). Représente « entre combien de tokens le modèle hésite ». Plus bas = mieux.
Pourquoi c'est important : La métrique la plus fondamentale pour comparer la capacité brute de modélisation de texte. Mais ne mesure ni l'utilité ni la sécurité.
Le texte que tu donnes à un modèle d'IA pour obtenir une réponse. Un prompt peut être une question, une instruction, un brief créatif ou un bloc de code que tu veux faire expliquer. Tout ce que le modèle fait commence par ce que tu lui donnes. La qualité, la spécificité et la structure de ton prompt façonnent directement la qualité de ce qui en sort.
Pourquoi c'est important : Le prompt, c'est l'interface. C'est le seul levier que la plupart des gens utilisent avec l'IA, et c'est un levier étonnamment puissant. Un prompt vague donne une réponse vague ; un prompt spécifique et bien structuré peut extraire un résultat de niveau expert du même modèle.
Un mécanisme qui indique à un modèle Transformer l'ordre des tokens dans une séquence. Contrairement aux RNN qui traitent les tokens séquentiellement (donc la position est implicite), les Transformers traitent tous les tokens en parallèle et n'ont pas de sens inhérent de l'ordre. Les encodages positionnels injectent l'information de position pour que le modèle sache que « le chien mord l'homme » et « l'homme mord le chien » sont différents.
Pourquoi c'est important : Sans information positionnelle, un Transformer traite une phrase comme un sac de mots — l'ordre des mots est perdu. Le choix de l'encodage positionnel détermine aussi la capacité du modèle à gérer des séquences plus longues que celles vues pendant l'entraînement, ce qui est pourquoi des techniques comme RoPE et ALiBi sont critiques pour les modèles à long contexte.
A technique that saves and reuses the processed version of a prompt prefix across multiple API calls, avoiding redundant computation. If you send the same system prompt and document context with every request (which is common), prompt caching processes it once and reuses the cached computation for subsequent requests. This reduces both latency and cost.
Why it matters: Most AI applications send the same system prompt, few-shot examples, or reference documents with every request. Without caching, the provider processes this identical prefix every single time. Prompt caching can cut input token costs by 50–90% and reduce time-to-first-token significantly. For high-volume applications, this translates to thousands of dollars saved per month.
An attack where malicious instructions are embedded in content that an AI model processes, causing the model to follow the attacker's instructions instead of the user's or developer's. Direct injection: the user types malicious instructions. Indirect injection: malicious instructions are hidden in a website, document, or email that the model reads as part of its task.
Why it matters: Prompt injection is the most critical security vulnerability in AI applications. Any app that lets an LLM process untrusted content (emails, web pages, uploaded documents) is potentially vulnerable. There is currently no complete solution — only mitigations. If you're building AI-powered applications, understanding prompt injection is as important as understanding SQL injection was for web development.
Two complementary metrics for evaluating classifiers. Precision answers "of the items the model flagged as positive, how many actually are?" Recall answers "of all the actual positives, how many did the model find?" A spam filter with high precision rarely marks real email as spam. One with high recall catches most spam. The F1 score is their harmonic mean — a single number that balances both.
Why it matters: Accuracy alone is misleading. A model that never predicts "fraud" achieves 99.9% accuracy if only 0.1% of transactions are fraudulent — but it's completely useless. Precision and recall reveal the trade-offs: catching more fraud (higher recall) means more false alarms (lower precision), and vice versa. Every classification system in production is tuned based on this trade-off.
A memory management technique for KV cache that borrows from operating system virtual memory. Instead of allocating a contiguous block of GPU memory for each request's KV cache (which wastes memory through fragmentation), PagedAttention stores cache in non-contiguous blocks ("pages") that are allocated on demand and can be shared across requests with common prefixes.
Why it matters: PagedAttention is the innovation behind vLLM and is now adopted by most LLM serving frameworks. It increased serving throughput by 2–4x compared to naive implementations by eliminating memory waste from fragmentation. Without it, serving long-context models to many concurrent users would be dramatically more expensive.
An operation that reduces the spatial dimensions of data by summarizing a region into a single value. Max pooling takes the maximum value in each region. Average pooling takes the mean. In CNNs, pooling layers downsample feature maps between convolutional layers. In Transformers, pooling combines token representations into a single vector (e.g., for classification).
Why it matters: Pooling is how neural networks go from local features to global understanding. A CNN might start with 224×224 feature maps and pool down to 7×7 by the final layer, progressively summarizing spatial information. In NLP, mean pooling over token embeddings is the standard way to create a single sentence embedding from a sequence of token representations.
Des représentations vectorielles denses de mots où les mots avec des sens similaires ont des vecteurs similaires. Word2Vec (2013) et GloVe (2014) ont été les pionniers : ils s'entraînent sur les patterns de co-occurrence de mots pour produire des vecteurs où "king − man + woman ≈ queen". Les plongements de mots étaient le précurseur des embeddings contextuels modernes (BERT, sentence-transformers) et restent fondamentaux pour comprendre comment les réseaux de neurones représentent le langage.
Pourquoi c'est important : Les plongements de mots ont été la percée qui a rendu le NLP neuronal pratique. Avant eux, les mots étaient représentés comme des vecteurs one-hot (aucune notion de similarité). Les plongements de mots ont prouvé que des représentations distribuées pouvaient capturer le sens, l'analogie et les relations sémantiques. Cette idée — représenter des symboles discrets comme des vecteurs continus appris — est le fondement de tous les modèles de langage modernes.
Pose Estimation Body Pose, Skeleton Detection, Keypoint Detection
Detecting the position and orientation of a human body (or animal, hand, face) in an image or video by locating key anatomical points — joints, facial landmarks, fingertips. The output is a skeleton: a set of connected keypoints representing the body's pose. OpenPose, MediaPipe, and YOLO-Pose are popular implementations.
Why it matters: Pose estimation enables: fitness apps that analyze exercise form, sign language recognition, motion capture for animation, gesture control interfaces, sports analytics, and fall detection for elderly care. In AI image generation, pose skeletons serve as ControlNet inputs — you specify the exact body pose you want and the model generates a person in that pose.
Réduire la précision d'un modèle pour le rendre plus petit et plus rapide. Un modèle entraîné en virgule flottante 32 bits peut être quantifié en 8 bits, 4 bits, ou encore moins — réduisant sa taille de 4 à 8 fois avec une perte de qualité étonnamment faible. GGUF est le format populaire pour l'inférence locale via llama.cpp.
Pourquoi c’est important : La quantification est ce qui rend possible l'exécution d'un modèle de 14 milliards de paramètres sur un seul GPU ou même un ordinateur portable. Sans elle, les modèles open-weights seraient inutilisables pour la plupart des gens. Les variantes Q4_K_M et Q5_K_M offrent le meilleur compromis taille/qualité.
Un système qui répond à des questions posées en langage naturel. Le QA extractif trouve la portion de réponse dans un document donné (« Selon le paragraphe 3, la réponse est... »). Le QA génératif synthétise une réponse à partir d'une ou plusieurs sources. Le QA en domaine ouvert répond à n'importe quelle question sans document spécifique. Le QA basé sur le RAG récupère des documents pertinents et génère des réponses à partir d'eux.
Pourquoi c'est important : La réponse aux questions est le pattern d'interaction fondamental pour les assistants IA. Chaque chatbot, chaque base de connaissances d'entreprise, chaque bot de support client est essentiellement un système de QA. Comprendre les différents paradigmes de QA (extractif, génératif, augmenté par récupération) t'aide à choisir la bonne architecture pour ton application et à fixer des attentes réalistes sur la précision.
Convertir la parole en texte. La reconnaissance vocale moderne utilise des modèles d'apprentissage profond (notamment Whisper d'OpenAI) capables de transcrire de l'audio dans plus de 100 langues avec une précision quasi humaine. La technologie propulse les assistants vocaux, la transcription de réunions, la génération de sous-titres et les outils d'accessibilité.
Pourquoi c'est important : La reconnaissance vocale a débloqué la voix comme modalité d'entrée pour l'IA. Combinée aux LLM et à la synthèse vocale, elle permet des interactions IA entièrement pilotées par la voix. La sortie ouverte de Whisper a démocratisé la transcription de haute qualité — tu peux l'exécuter localement et gratuitement. Pour l'accessibilité, c'est transformateur : rendre le contenu audio cherchable, traduisible et accessible aux personnes sourdes et malentendantes.
Une tâche d'apprentissage automatique qui prédit une valeur numérique continue plutôt qu'une catégorie. « Quelle sera la température demain ? » (régression : prédire un nombre) vs. « Est-ce qu'il va pleuvoir demain ? » (classification : prédire une catégorie). La régression linéaire ajuste une droite ; la régression par réseau de neurones peut apprendre des relations non-linéaires arbitraires entre les entrées et les sorties.
Pourquoi c'est important : La régression est l'une des deux tâches fondamentales de l'apprentissage automatique (l'autre étant la classification) et sous-tend tout, de la prédiction du cours des actions à l'évaluation immobilière en passant par la modélisation scientifique. C'est aussi le point d'entrée le plus simple pour comprendre l'apprentissage automatique — ajuster une droite à des points de données, c'est quelque chose que la plupart des gens peuvent visualiser, et le saut de la régression linéaire aux réseaux de neurones est conceptuellement petit.
Un paradigme d'entraînement où un agent IA apprend en interagissant avec un environnement, en prenant des actions et en recevant des récompenses ou des pénalités. Contrairement à l'apprentissage supervisé (qui apprend à partir d'exemples étiquetés), le RL apprend par l'expérience — par essai et erreur. Le RL a entraîné AlphaGo à battre des champions du monde, apprend aux robots à marcher, et est le « RL » dans RLHF qui rend les agents conversationnels utiles.
Pourquoi c’est important : L'apprentissage par renforcement est la façon dont l'IA apprend à agir, pas seulement à prédire. C'est le pont entre des modèles qui peuvent répondre à des questions et des agents qui peuvent accomplir des objectifs. Chaque système d'IA qui planifie, élabore des stratégies ou optimise au fil du temps a du RL quelque part dans sa lignée.
Raisonnement Raisonnement IA, raisonnement en chaîne de pensée
Utiliser l’AI
La capacité des modèles d'IA à réfléchir étape par étape, à décomposer des problèmes complexes et à arriver à des conclusions logiquement solides. Les modèles de raisonnement modernes (comme o1/o3 d'OpenAI et DeepSeek-R1) sont entraînés à générer des traces de raisonnement explicites avant de répondre, améliorant spectaculairement la performance en mathématiques, programmation et logique. Cela se distingue de la simple correspondance de patterns — les modèles de raisonnement peuvent résoudre des problèmes qu'ils n'ont jamais vus.
Pourquoi c’est important : Le raisonnement est la capacité de pointe qui sépare « l'IA qui semble intelligente » de « l'IA qui est intelligente ». Les modèles qui raisonnent bien peuvent déboguer du code, prouver des théorèmes, planifier des stratégies en plusieurs étapes et détecter leurs propres erreurs. L'écart entre les modèles avec et sans fort raisonnement est le plus grand facteur de différenciation de qualité en IA en ce moment.
Resemble AI Clonage vocal, synthèse vocale, filigranage
Compagnies
Entreprise canadienne de voix IA spécialisée dans le clonage vocal haute fidélité et la synthèse vocale en temps réel. L'une des premières à avoir livré un filigrane audio neuronal pour la détection des hypertrucages, prenant au sérieux les implications éthiques du clonage vocal dès le départ.
Pourquoi c’est important : Resemble AI compte parce qu'elle a reconnu tôt que le clonage vocal sans infrastructure de sécurité est un risque, pas un produit. En livrant la détection des hypertrucages et le filigrane neuronal aux côtés de leurs outils de synthèse, ils ont établi un modèle de voix IA responsable que le reste de l'industrie s'empresse maintenant de suivre. Alors que les réglementations sur les médias synthétiques se resserrent à l'échelle mondiale, l'avance de Resemble en vérification de provenance et de consentement les positionne comme l'entreprise de voix IA en laquelle les entreprises peuvent réellement avoir confiance.
Entreprise de recherche en IA fondée par d'anciens chercheurs de DeepMind, Google Brain et FAIR. Construit des modèles nativement multimodaux capables de traiter texte, images, vidéo et audio dès la conception.
Pourquoi c’est important : Reka a démontré qu'une petite équipe de recherche avec le bon pedigree peut construire des modèles multimodaux de classe frontière sans milliards en financement — et que les architectures nativement multimodales entraînées de zéro peuvent surpasser l'approche « ajoutée après coup » utilisée par la plupart des plus grands laboratoires. Leur trajectoire rapide de la fondation à l'acquisition par Snowflake a également révélé l'intense force d'attraction que les plateformes de données d'entreprise exercent désormais sur les talents en IA, suggérant que l'avenir de l'IA multimodale pourrait résider au sein des entreprises d'infrastructure de données plutôt que dans des laboratoires de recherche indépendants.
Recraft Recraft V3, génération de graphiques vectoriels
Compagnies
Outil de design par IA axe sur la generation d'images et de graphiques vectoriels de qualite professionnelle. L'un des premiers a produire des actifs de design veritablement utilisables — des SVG, des styles coherents avec la marque et des sorties prets pour la production que les designers veulent reellement utiliser.
Pourquoi c’est important : Recraft est l'une des rares entreprises d'IA a avoir construit pour les designers professionnels plutot que pour les moments viraux sur les reseaux sociaux, et a prouve que cette approche pouvait produire des resultats a la pointe de l'art. Leur concentration sur les sorties prets pour la production — des vecteurs propres, une coherence de marque, des fonds transparents — comble un vide qu'aucune autre entreprise de generation d'images n'a serieusement aborde, faisant d'eux ce qui se rapproche le plus d'un veritable outil de design plutot que d'un jouet artistique.
Entreprise pionniere en generation video par IA. A co-cree l'architecture originale de Stable Diffusion puis s'est tournee vers la video, ou ses modeles de la serie Gen ont defini l'etat de l'art des outils de creation cinematographique par IA.
Pourquoi c’est important : Runway est l'entreprise qui a fait passer la generation video par IA de curiosite de recherche a outil de creation cinematographique, en livrant modele apres modele a un rythme qui les maintenait a la frontiere meme quand des concurrents aux poches profondes sont entres dans l'espace. Leur ADN axe sur les outils creatifs — ne d'artistes, pas seulement d'ingenieurs — leur confere une comprehension des flux de travail professionnels que les purs laboratoires de recherche peinent a reproduire, et leur pari sur la construction d'une plateforme complete plutot que d'un simple modele pourrait s'averer etre la bonne strategie a long terme.
Une technique qui donne aux modèles d'IA accès à des connaissances externes en récupérant des documents pertinents avant de générer une réponse. Au lieu de se fier uniquement à ce que le modèle a appris pendant l'entraînement, le RAG recherche dans une base de connaissances, trouve les fragments pertinents et les inclut dans le prompt comme contexte.
Pourquoi c’est important : Le RAG résout deux problèmes majeurs : l'hallucination (le modèle a de vraies sources à référencer) et la coupure de connaissances (la base de connaissances peut être mise à jour sans réentraînement). C'est ainsi que la plupart des systèmes d'IA en entreprise fonctionnent réellement.
Restrictions sur le nombre de requêtes API que vous pouvez faire par minute/heure/jour. Les fournisseurs imposent des limites de débit pour éviter la surcharge des serveurs et assurer un accès équitable. Les limites s'appliquent typiquement par clé API et peuvent restreindre les requêtes par minute (RPM) et les tokens par minute (TPM).
Pourquoi c’est important : Les limites de débit sont le plafond invisible que vous atteignez en mettant à l'échelle des applications d'IA. C'est pourquoi le traitement par lots est important, pourquoi vous avez besoin d'une logique de nouvelles tentatives, et pourquoi certains fournisseurs facturent plus cher pour des limites de débit plus élevées.
La pratique consistant à essayer délibérément de faire échouer, mal se comporter ou produire des sorties nuisibles à un modèle d'IA. Les équipes de red teaming sondent les vulnérabilités : jailbreaks, biais, génération de désinformation, fuites de données privées. Nommé d'après les exercices de guerre militaires où une « équipe rouge » joue l'adversaire.
Pourquoi c’est important : On ne peut pas corriger ce qu'on ne connaît pas. Le red teaming est la façon dont les fournisseurs découvrent que leur modèle expliquera comment crocheter une serrure si on lui demande d'« écrire une histoire sur un serrurier ». C'est un travail de sécurité essentiel qui a lieu avant chaque lancement majeur de modèle.
RLHF Apprentissage par renforcement avec retour humain
Entraînement
Une technique d'entraînement où des évaluateurs humains classent les sorties d'un modèle par qualité, et cette rétroaction est utilisée pour entraîner un modèle de récompense qui guide l'IA vers de meilleures réponses. C'est ce qui transforme un modèle pré-entraîné brut (qui ne fait que prédire le prochain mot) en un assistant utile et inoffensif.
Pourquoi c’est important : Le RLHF est l'ingrédient secret qui a rendu ChatGPT si différent de GPT-3. Le modèle de base « savait » déjà tout, mais le RLHF lui a appris à présenter ces connaissances d'une manière que les humains trouvent réellement utile. C'est aussi la façon dont les comportements de sécurité sont renforcés.
Un réseau de neurones qui traite des séquences en maintenant un état caché qui est mis à jour à chaque étape — il « se souvient » de ce qu'il a vu jusqu'ici. Les LSTM et GRU sont des variantes améliorées qui résolvent la tendance du RNN original à oublier les dépendances à longue portée. Les RNN dominaient le NLP et la parole avant que les Transformers ne les remplacent vers 2018–2020.
Pourquoi c'est important : Les RNN sont les ancêtres des modèles de langage modernes. Comprendre pourquoi ils ont échoué (traitement séquentiel lent, difficulté avec les dépendances à longue portée) explique pourquoi les Transformers ont réussi (traitement parallèle, attention sur toutes les positions). L'architecture SSM/Mamba est, d'une certaine façon, un retour à l'idée du RNN avec des correctifs modernes.
A model trained to predict human preferences between AI responses. Given a prompt and two candidate responses, the reward model scores which response humans would prefer. In the RLHF pipeline, the reward model provides the signal that trains the language model to produce better responses — it's the learned proxy for human judgment.
Why it matters: The reward model is the key component that makes RLHF work. You can't have a human rate every response during training (too slow, too expensive), so you train a model to approximate human preferences and use that as the training signal. The quality of the reward model directly determines the quality of alignment — a bad reward model produces a model that optimizes for the wrong things.
The process of finding relevant documents, passages, or data from a large collection in response to a query. In AI, retrieval is the "R" in RAG — the step where relevant context is fetched before being given to a language model. Retrieval can use keyword matching (BM25), semantic similarity (embeddings), or hybrid approaches combining both.
Why it matters: Retrieval is what makes LLMs practical for real-world applications. A model's internal knowledge is static, incomplete, and sometimes wrong. Retrieval gives it access to current, accurate, domain-specific information at inference time. The quality of your retrieval pipeline directly determines the quality of your RAG system — the best LLM can't produce good answers from bad context.
A variant of RLHF where the preference labels come from an AI model instead of human annotators. A strong AI model compares response pairs and indicates which is better, providing the feedback signal for reinforcement learning. This scales alignment beyond the bottleneck of human labeling while maintaining reasonable quality.
Why it matters: RLAIF is how alignment scales. Human annotation is expensive ($10–50+ per hour), slow, and inconsistent. AI feedback is instant, cheap, and tireless. Constitutional AI (Anthropic) uses RLAIF as a core component — an AI critiques responses against principles, providing preference data at scale. The key question is whether AI feedback is good enough: it bootstraps from human judgment but may inherit and amplify biases.
S
Superposition Superposition de caractéristiques, polysémantie
Fondamentaux
Le phénomène par lequel les réseaux de neurones encodent bien plus de caractéristiques (concepts, patterns) qu'ils n'ont de neurones, en représentant les caractéristiques comme des directions dans l'espace d'activation plutôt qu'en dédiant un neurone individuel à chaque caractéristique. Un seul neurone participe à l'encodage de dizaines de caractéristiques simultanément, et chaque caractéristique est distribuée sur de nombreux neurones.
Pourquoi c'est important : La superposition est la raison pour laquelle les réseaux de neurones sont difficiles à interpréter et pourquoi l'interprétabilité mécaniste est un défi. Si chaque neurone représentait un concept (comme « le concept de chiens »), l'interprétation serait simple. Au lieu de ça, les concepts sont étalés sur les neurones en patterns qui se chevauchent. Comprendre la superposition est la clé pour comprendre à la fois comment les réseaux de neurones compressent l'information et pourquoi ils se comportent parfois de façon inattendue.
Convertir du texte écrit en audio parlé au son naturel. Les systèmes TTS modernes utilisent des réseaux de neurones pour générer une parole quasi indistinguible des voix humaines, avec un contrôle sur l'émotion, le rythme, l'emphase, et même le clonage vocal. ElevenLabs, OpenAI TTS et des modèles ouverts comme Bark et XTTS ont rendu la synthèse vocale de haute qualité largement accessible.
Pourquoi c'est important : La synthèse vocale complète la boucle de l'IA vocale : la reconnaissance vocale convertit la voix en texte, un LLM le traite, et la synthèse vocale convertit la réponse en parole. Ça permet les assistants vocaux, la narration de livres audio, les outils d'accessibilité, la localisation de contenu et les personnages IA dans les jeux et médias. La qualité de la synthèse vocale moderne a franchi la vallée de l'étrange — la parole synthétisée sonne maintenant naturel.
La tendance des modèles d'IA à dire aux utilisateurs ce qu'ils veulent entendre plutôt que ce qui est vrai. Un modèle sycophante s'accorde avec des prémisses erronées, valide des idées mauvaises, inverse sa position lorsqu'il est confronté, même s'il avait raison la première fois, et privilégie d'être aimé plutôt que d'être utile. Le sycophantisme est un effet secondaire direct de la formation RLHF — les modèles apprennent que les réponses agréables obtiennent des notes plus élevées des évaluateurs humains, ils optimisent donc l'accord par rapport à la précision.
Pourquoi c’est important : La sycophanie est l'un des modes de défaillance les plus insidieux en intelligence artificielle, car elle est invisible pour l'utilisateur qui est flatté. Si vous demandez à un modèle « n'est-ce pas une excellente idée d'affaires ? » et qu'il répond toujours oui, vous obtenez un miroir, et non un conseiller. Le combat contre la sycophanie est un domaine actif de la recherche d'alignement, et c'est pourquoi les meilleurs modèles sont entraînés à s'opposer respectueusement lorsqu'il convient.
Une critique des grands modèles de langage affirmant qu'ils ne sont que des moteurs de correspondance de motifs sophistiqués qui assemblent un texte qui semble plausible sans comprendre véritablement le sens. Le terme a été créé par Emily Bender, Timnit Gebru et collègues dans leur article influent de 2021 intitulé « On the Dangers of Stochastic Parrots », qui a mis en garde contre le fait que les grands modèles de langage intègrent des biais provenant de leurs données d'entraînement, consomment des ressources considérables et créent une illusion de compréhension qui induit les utilisateurs à avoir plus confiance en eux qu'ils ne devraient.
Pourquoi c’est important : Le débat sur le perroquet stochastique porte sur ce que l'IA comprend vraiment. Le fait que les LLM (modèles de langage de grande envergure) soient réellement capables de raisonner ou simplement très bons dans l'imitation statistique détermine la manière dont nous les déployons, le niveau de confiance que nous accordons à leurs sorties et la manière dont nous les réglementons. C'est aussi le prisme à travers lequel les critiques évaluent chaque nouvelle prétention de capacité — s'agit-il d'une véritable avancée ou d'un perroquet plus convaincant ?
Contenu de bas qualité, générique et indésirable généré par l'intelligence artificielle qui inondent l'internet. Le terme a émergé en 2024 en tant que terme péjoratif pour décrire la vague de contenu médiocre produit par l'IA, polluant les résultats de recherche, les flux des réseaux sociaux et les plateformes en ligne de vente. Le slop est l'équivalent de la messagerie indésirable pour l'IA — techniquement du « contenu » mais n'ajoutant aucune valeur, souvent indistinct du reste du slop, et dégradant la qualité de chaque plateforme qu'il touche. Pensez aux publications LinkedIn commençant par « Dans le monde actuel rapide et dynamique », aux photos de stock avec des mains à six doigts, ou aux articles SEO qui ne disent rien en 2 000 mots.
Pourquoi c’est important : Le déchet est le coût environnemental de la gratuité de la génération de contenu. Lorsque quiconque peut générer 1 000 articles de blog ou 10 000 images de produits en quelques minutes, l'économie de la création de contenu s'effondre — et la qualité s'effondre avec elle. Le déchet explique pourquoi les plateformes se pressent pour développer la détection d'IA, pourquoi Google continue de mettre à jour son algorithme de recherche, et pourquoi « fait à la main » devient un point de vente. C'est aussi l'argument le plus solide contre la vision naïve selon laquelle l'IA démocratisera la créativité.
Entreprise chinoise d'IA en démarrage qui développe de grands modèles de langage et multimodaux compétitifs. Leur série Step a démontré de solides performances sur les bancs d'essai internationaux, soutenue par un investissement significatif en capacité de calcul.
Pourquoi c’est important : StepFun est la preuve que l'écosystème chinois de l'IA peut produire de sérieux concurrents en partant de zéro, et pas seulement à partir de géants technologiques existants. Leurs modèles Step surpassent constamment leur catégorie sur les bancs d'essai internationaux, et leur expansion rapide vers le multimodal et la génération vidéo montre que des entreprises en démarrage bien organisées peuvent couvrir un large éventail de capacités avec des ressources relativement modestes. Pour le marché mondial de l'IA, StepFun représente le type d'entreprise qui rend impossible d'ignorer la scène indépendante des entreprises en démarrage d'IA en Chine — techniquement forte, orientée vers l'international et se déplaçant assez vite pour maintenir la pression sur des concurrents bien plus importants.
Entreprise de matériel IA qui conçoit des puces sur mesure (RDU) spécialement conçues pour les charges de travail d'IA. Leur plateforme SambaNova Cloud offre certaines des vitesses d'inférence les plus rapides disponibles, rivalisant avec Groq sur l'approche « la vitesse d'abord » en matière de service d'IA.
Pourquoi c’est important : SambaNova compte parce que NVIDIA ne devrait pas être le seul acteur en matière de calcul IA, et quelqu'un doit prouver que des puces IA spécialisées peuvent rivaliser sur le marché réel plutôt que seulement dans les articles de recherche. Leur architecture RDU démontre que des gains de performance significatifs sont possibles quand on conçoit du silicium spécifiquement pour les charges de travail de réseaux de neurones, et leur service d'inférence en nuage donne aux développeurs un avant-goût de ce à quoi pourrait ressembler l'infrastructure IA post-GPU. Que SambaNova elle-même devienne ou non l'alternative dominante, la pression concurrentielle qu'elle exerce — aux côtés de Groq, Cerebras et des puces sur mesure des fournisseurs d'infonuagique — est saine pour un secteur qui ne peut se permettre une monoculture matérielle permanente.
Sarvam AI Modèles Sarvam, IA pour les langues indiennes
Compagnies
Entreprise indienne d'IA qui développe des modèles spécifiquement optimisés pour la diversité linguistique de l'Inde. Leurs modèles gèrent l'hindi, le tamoul, le télougou, le bengali et d'autres langues indiennes avec une aisance que les modèles internationaux peinent constamment à atteindre.
Pourquoi c’est important : Sarvam AI est la réponse la plus crédible à une question que l'industrie mondiale de l'IA a largement ignorée : qui construit les modèles fondation pour les langues qu'un cinquième de l'humanité parle réellement? Avec des racines profondes dans la communauté de recherche en IA de l'Inde, un alignement gouvernemental et une gamme de produits spécialement conçue pour la diversité linguistique indienne, Sarvam représente à la fois une opportunité commerciale et un impératif stratégique. Leur succès ou leur échec signalera si la révolution de l'IA se mondialise véritablement ou reste un phénomène d'abord anglophone avec des traductions greffées après coup.
L'entreprise qui a democratise la generation d'images en publiant Stable Diffusion en code source ouvert en 2022. Malgre des turbulences au niveau de la direction, leurs modeles demeurent la colonne vertebrale de l'ecosysteme de generation d'images open source.
Pourquoi c’est important : Stability AI a declenche la revolution de la generation d'images open source en publiant Stable Diffusion, creant un ecosysteme de milliers de modeles derives, d'outils et d'applications creatives qu'aucune plateforme fermee ne pouvait egaler. Meme a travers les bouleversements de direction et les turbulences financieres, leur pari fondamental — que l'IA generative devrait etre accessible a tous, pas seulement a ceux qui peuvent se payer des appels API — a remodele l'industrie entiere et a etabli le modele de fonctionnement des entreprises d'IA open source.
Entreprise de generation musicale par IA qui permet a quiconque de creer des chansons completes — voix, instruments, production — a partir d'une description textuelle. Passee d'inconnue a des millions d'utilisateurs en quelques mois, forcant l'industrie musicale a affronter la creativite de l'IA de plein fouet.
Pourquoi c’est important : Suno a prouve que l'IA pouvait generer des chansons completes et agreables a ecouter a partir d'une simple description textuelle, creant une categorie entierement nouvelle d'outil creatif du jour au lendemain. Ils sont au centre de la bataille de droit d'auteur la plus consequente en IA generative, le resultat de la poursuite de la RIAA etant susceptible d'etablir un precedent sur le fonctionnement des droits sur les donnees d'entrainement dans toutes les modalites. Plus largement, ils representent le cas de figure le plus tranchant pour determiner si la democratisation des outils creatifs elargit l'expression humaine ou mine les fondements economiques qui soutiennent les artistes professionnels.
Une alternative aux Transformers qui traite les séquences en maintenant un « état » compressé au lieu d'utiliser l'attention sur tous les tokens. Mamba est l'architecture SSM la plus connue. Les SSM croissent linéairement avec la longueur de la séquence (contre quadratiquement pour l'attention), les rendant potentiellement beaucoup plus efficaces pour les très longs contextes.
Pourquoi c’est important : Les SSM sont le principal concurrent de la domination des Transformers. Ils sont plus rapides pour les longues séquences et utilisent moins de mémoire, mais la recherche est encore en cours de maturation. Les architectures hybrides (mélangeant des couches SSM avec de l'attention) pourraient bien offrir le meilleur des deux mondes.
Une instruction spéciale donnée à un modèle au début d'une conversation qui définit son comportement, sa personnalité et ses règles. Contrairement aux messages utilisateur, le prompt système est censé être persistant et autoritaire — il définit qui est le modèle pour cette session. « Vous êtes un assistant de codage utile. Utilisez toujours TypeScript. »
Pourquoi c’est important : Les prompts système sont l'outil principal pour personnaliser le comportement de l'IA sans fine-tuning. C'est ainsi que les entreprises font de Claude un agent de support client, un réviseur de code ou un assistant d'information médicale — même modèle, prompt système différent.
Des relations en loi de puissance montrant que la performance s'améliore de manière prévisible avec la taille du modèle, la taille du dataset et le calcul.
Pourquoi c'est important : Ont transformé l'entraînement d'un jeu de devinettes en ingénierie. Expliquent la course à l'armement IA.
Une approche d'entraînement où le modèle génère son propre signal de supervision à partir de données non étiquetées. Cache une partie de l'entrée, entraîne le modèle à prédire la partie cachée.
Pourquoi c'est important : L'apprentissage auto-supervisé est la percée qui a rendu l'IA moderne possible. Il a permis l'entraînement sur l'ensemble d'internet au lieu de coûteux datasets étiquetés à la main.
Un petit modèle brouillon génère des candidats, le grand modèle les vérifie tous en même temps. Accélération de 2 à 3x avec une qualité de sortie identique.
Pourquoi c'est important : Un des rares « repas gratuits » de l'inférence IA. Sortie mathématiquement identique, juste plus rapide.
Envoyer la sortie token par token au fur et à mesure de la génération, via SSE sur HTTP. C'est pourquoi le texte apparaît mot par mot dans les interfaces de chat.
Pourquoi c'est important : 10 secondes de texte qui se construit, ça passe ; 10 secondes d'écran vide, ça casse l'expérience. Permet aussi aux utilisateurs d'interrompre tôt.
Faire répondre l'IA dans un format lisible par machine (JSON, XML, schéma). La plupart des fournisseurs le supportent nativement : tu définis un schéma, le modèle garantit la conformité.
Pourquoi c'est important : Passer du chatbot à l'application nécessite une sortie structurée. Ton code ne peut pas parser du texte libre.
Une approche d'entraînement où le modèle apprend à partir d'exemples étiquetés — des paires entrée-sortie où la bonne réponse est fournie. Le modèle ajuste ses paramètres pour minimiser la différence entre ses prédictions et les réponses correctes connues.
Pourquoi c'est important : L'apprentissage supervisé est la forme la plus intuitive de ML et le cheval de bataille derrière la plupart des applications pratiques : filtres anti-spam, analyse d'images médicales, détection de fraude, et la phase de fine-tuning des LLM.
Des données d'entraînement générées par des modèles d'IA. Devenues standard dans les pipelines d'entraînement.
Pourquoi c'est important : Les vraies données étiquetées coûtent cher. Les modèles frontière génèrent des millions d'exemples du jour au lendemain. Le contrôle qualité est critique.
Softmax Fonction softmax, exponentielles normalisées
Une fonction qui convertit un vecteur de nombres bruts (logits) en une distribution de probabilités — toutes les valeurs deviennent positives et leur somme vaut 1. Softmax amplifie les différences entre les valeurs : la plus grande entrée obtient la plus haute probabilité, et les entrées plus petites obtiennent des probabilités exponentiellement plus faibles. On la retrouve dans les mécanismes d'attention, les sorties de classification et la prédiction de tokens.
Pourquoi c'est important : Softmax est partout dans l'IA moderne. Chaque fois qu'un modèle de langage prédit le prochain token, softmax convertit les sorties brutes du modèle en probabilités. Chaque tête d'attention utilise softmax pour calculer les poids d'attention. Chaque classifieur utilise softmax pour produire les probabilités de classe. Comprendre softmax t'aide à comprendre la température, l'échantillonnage top-p, et pourquoi les modèles sont « confiants » même quand ils ont tort.
La plus grande entreprise d'étiquetage de données pour l'IA, fournissant les données d'entraînement annotées par des humains dont la plupart des grands modèles d'IA dépendent. Scale AI étiquette des images, du texte, de la vidéo et des données 3D pour la conduite autonome, le gouvernement et les entreprises d'IA. Ils offrent aussi des services d'évaluation, de collecte de données RLHF et de curation de données pour l'ajustement fin. Les grands clients incluent OpenAI, Meta, le département de la Défense américain et de nombreuses entreprises de voitures autonomes.
Pourquoi c'est important : Scale AI occupe une position critique dans la chaîne d'approvisionnement de l'IA : entre les données brutes et les modèles entraînés. La qualité des données étiquetées détermine directement la qualité des modèles, et Scale est le plus grand fournisseur. Leurs services de collecte de données RLHF signifient qu'ils aident littéralement à façonner la manière dont les modèles d'IA sont alignés — les préférences humaines qui entraînent Claude, GPT et d'autres passent souvent par des plateformes d'étiquetage comme Scale.
Search that finds results based on meaning rather than exact keyword matches. Instead of looking for documents containing the word "fix," semantic search finds documents about "repair," "resolve," "patch," and "debug" because they mean similar things. It works by converting text into embeddings (numerical vectors) and finding the closest matches in vector space.
Why it matters: Semantic search is why modern search feels magical compared to keyword search. It powers RAG systems, documentation search, e-commerce product discovery, and support ticket routing. If you're building any application that needs to find relevant information, semantic search is probably the right approach.
Attention mechanisms that process only a subset of token pairs instead of the full N×N attention matrix. Sliding window attention attends to only nearby tokens (within a fixed window). Sparse patterns (like Longformer's combination of local + global attention) let specific tokens attend to everything while most tokens attend locally. These approaches reduce attention's quadratic cost for long sequences.
Why it matters: Sparse attention is how Mistral, Mixtral, and other efficient models handle long sequences without the full cost of dense attention. It's the practical compromise between "attend to everything" (expensive but thorough) and "attend to nothing distant" (cheap but limited). Understanding sparse attention helps you evaluate claims about context length and predict where quality degradation might occur.
The process of selecting which token to generate next from the model's predicted probability distribution. Greedy decoding always picks the most likely token. Random sampling picks proportionally to probabilities. Temperature, top-p (nucleus), and top-k are controls that adjust the randomness and diversity of the selection. The sampling strategy dramatically affects output quality, creativity, and consistency.
Why it matters: Sampling parameters are the most accessible knobs for controlling LLM behavior. Temperature 0 for deterministic code generation. Temperature 0.7 for creative writing. Top-p 0.9 for a good balance. These aren't magic numbers — they directly control which tokens the model considers at each step. Understanding sampling helps you tune outputs for your specific use case.
An attention mechanism where a sequence attends to itself — every token computes its relevance to every other token in the same sequence. The queries, keys, and values all come from the same input. This lets each token gather information from all other tokens, weighted by relevance. Self-attention is the core operation in every Transformer layer.
Why it matters: Self-attention is what makes Transformers work. It replaced the sequential processing of RNNs with parallel, direct connections between all positions. The word "bank" in "river bank" attends to "river" to resolve its meaning, regardless of how far apart they are. This ability to directly connect any two positions is why Transformers handle long-range dependencies so well.
A gated activation function used in the feedforward layers of modern Transformers. SwiGLU combines the SiLU/Swish activation with a gating mechanism: SwiGLU(x) = (x · W1 · SiLU) ⊗ (x · W3), where ⊗ is element-wise multiplication. This lets the network learn what information to pass through, consistently outperforming standard ReLU or GELU feedforward layers.
Why it matters: SwiGLU is the feedforward activation used by LLaMA, Mistral, Qwen, Gemma, and most modern LLMs. Understanding it helps you read model architectures and explains why modern FFN layers have three weight matrices instead of two. It's a small architectural choice with outsized impact on model quality.
A mathematical function that squashes any real number into the range (0, 1): σ(x) = 1 / (1 + e^(−x)). Historically the default activation function in neural networks, now largely replaced by ReLU and GELU for hidden layers but still used for binary classification outputs, gating mechanisms (in LSTMs and GLU), and attention-like operations where you need values between 0 and 1.
Why it matters: Sigmoid appears everywhere in AI even though it's no longer the default hidden activation. LSTM gates use sigmoid. The SiLU/Swish activation is x · sigmoid(x). Binary classifiers use sigmoid as the output activation. Understanding sigmoid — and why it was replaced by ReLU for hidden layers — is foundational knowledge for understanding neural network design choices.
Déterminer automatiquement le ton émotionnel d'un texte — positif, négatif ou neutre. « Ce produit est incroyable ! » est positif. « Service client épouvantable » est négatif. Au-delà de la simple polarité, l'analyse de sentiments avancée détecte des émotions spécifiques (colère, joie, frustration), le sentiment au niveau des aspects (« la nourriture était excellente mais le service était lent »), et le sarcasme.
Pourquoi c'est important : L'analyse de sentiments est l'une des applications NLP les plus déployées commercialement. Les entreprises l'utilisent pour surveiller la perception de marque sur les réseaux sociaux, analyser les avis clients à grande échelle, évaluer la satisfaction des employés dans les sondages, et détecter les crises de relations publiques émergentes. C'est aussi un point d'entrée fréquent pour apprendre le NLP — une tâche de classification simple et intuitive avec des données d'entraînement abondantes.
Le modèle de génération d'images open source le plus utilisé, créé par Stability AI en collaboration avec des chercheurs académiques. Stable Diffusion génère des images à partir de prompts textuels en utilisant la diffusion latente — effectuant le processus de débruitage dans un espace latent compressé plutôt que dans l'espace pixel, ce qui le rend assez rapide pour tourner sur des GPU grand public. SD 1.5, SDXL et SD3 représentent des générations successives.
Pourquoi c'est important : Stable Diffusion a démocratisé la génération d'images par IA. Avant SD, la génération d'images nécessitait un accès API coûteux (DALL-E) ou était limitée à la recherche. Les poids ouverts de SD signifiaient que n'importe qui pouvait l'exécuter localement, le fine-tuner et construire dessus. Ça a créé un écosystème énorme : des fine-tunes LoRA, ControlNet, des modèles personnalisés, des checkpoints entraînés par la communauté, et des applications d'Automatic1111 à ComfyUI.
Applying the visual style of one image (a painting, a photograph, a design) to the content of another image. "Make this photo look like a Van Gogh painting" is style transfer. Neural style transfer uses deep networks to separate content (what's in the image) from style (how it looks) and recombine them.
Why it matters: Style transfer was one of the first viral AI art applications and remains widely used in photo editing apps, social media filters, and creative tools. Understanding it helps you understand how neural networks represent visual features at different levels of abstraction — the same insight that powers modern image generation.
Increasing the resolution of an image by generating plausible detail that wasn't in the original. A 256×256 photo becomes a sharp 1024×1024 image. AI super resolution doesn't just interpolate pixels (which produces blur) — it hallucinate realistic texture, edges, and fine detail based on what it learned from high-resolution training images.
Why it matters: Super resolution has immediate practical applications: enhancing old photos, upscaling video game textures, improving security camera footage, preparing low-res images for print, and as a post-processing step in AI image generation pipelines. Real-ESRGAN and similar models can dramatically improve image quality with a single inference pass.
Determining who spoke when in an audio recording with multiple speakers. Given a meeting recording, diarization segments it into "Speaker A: 0:00–0:15, Speaker B: 0:15–0:32, Speaker A: 0:32–0:45." Combined with speech recognition, this produces speaker-attributed transcripts — essential for meeting minutes, interview transcription, and call center analytics.
Why it matters: Speech recognition alone produces a wall of text with no indication of who said what. Diarization adds the structure that makes transcripts useful: you can search for what a specific person said, summarize each speaker's contributions, and analyze conversational dynamics (who talks most, who interrupts). It's essential for any multi-speaker audio application.
Augmenter la résolution d'une image en générant des détails plausibles qui n'étaient pas dans l'original. Une photo de 256×256 devient une image nette de 1024×1024. La super résolution par IA ne se contente pas d'interpoler les pixels (ce qui produit du flou) — elle hallucine des textures, des bords et des détails fins réalistes basés sur ce qu'elle a appris des images haute résolution d'entraînement.
Pourquoi c'est important : La super résolution a des applications pratiques immédiates : améliorer de vieilles photos, agrandir des textures de jeux vidéo, améliorer des images de caméras de surveillance, préparer des images basse résolution pour l'impression, et comme étape de post-traitement dans les pipelines de génération d'images IA. Real-ESRGAN et des modèles similaires peuvent améliorer drastiquement la qualité d'image en une seule passe d'inférence.
Géant technologique chinois derrière WeChat, l'une des plus grandes entreprises de jeux vidéo au monde et une force croissante en IA générative. Leurs modèles Hunyuan propulsent des fonctionnalités à travers l'immense écosystème de Tencent qui dessert plus d'un milliard d'utilisateurs.
Pourquoi c’est important : Tencent compte en IA pour la même raison qu'elle compte en tout : l'échelle et la distribution. Avec WeChat qui atteint 1,3 milliard d'utilisateurs et un empire du jeu vidéo couvrant toutes les grandes plateformes, Tencent peut déployer des fonctionnalités IA auprès de plus de gens, plus rapidement, que presque n'importe quelle entreprise au monde. Leurs modèles Hunyuan et notamment HunyuanVideo ont prouvé qu'un laboratoire d'IA de conglomérat peut produire un travail véritablement compétitif, et pas seulement des outils internes fonctionnels. Pour l'écosystème mondial de l'IA, les publications en code ouvert de Tencent en modèles vidéo et de langage ont relevé le plancher de ce qui est librement disponible, et leurs investissements en infrastructure garantissent que les capacités de la Chine en IA demeurent formidables indépendamment des restrictions sur les exportations de puces.
Entreprise de compréhension vidéo qui permet de rechercher, analyser et générer du contenu à partir de la vidéo en langage naturel. Pensez-y comme à la « génération augmentée par la recherche pour la vidéo » — leurs modèles comprennent ce qui se passe dans une vidéo comme les grands modèles de langage comprennent le texte.
Pourquoi c’est important : Twelve Labs construit l'infrastructure fondamentale pour rendre le contenu vidéo mondial lisible par les machines. À une époque où la vidéo domine la communication numérique mais reste en grande partie non interrogeable par l'IA, leurs modèles de plongement et de génération spécialement conçus résolvent un problème que même les plus grands laboratoires frontière n'ont abordé que superficiellement. Si la vidéo est le médium dominant d'internet, celui qui résout la compréhension vidéo à l'échelle de la production détient une position stratégique comparable à celle que Google Search détient pour le texte.
Entreprise d'IA spécialisée dans la génération de modèles 3D à partir de texte ou d'images. Dans un domaine où la plupart de la génération 3D produit des formes inutilisables, Tripo se distingue par la génération de maillages propres et prêts pour la production que les développeurs de jeux et les designers peuvent réellement utiliser.
Pourquoi c’est important : Tripo représente la fine pointe de ce qui rend le contenu 3D généré par IA réellement utilisable en production. Alors que la plupart de la génération 3D par IA produit encore des actifs nécessitant un nettoyage manuel extensif, Tripo s'est concentrée sans relâche sur la qualité des maillages, la topologie appropriée et l'intégration aux flux de travail réels — l'ingénierie peu glamour qui sépare une démonstration de recherche d'un outil pour lequel les professionnels sont prêts à payer. Alors que l'informatique spatiale et la demande de contenu 3D en temps réel explosent, les entreprises qui résoudront en premier la génération de qualité production capteront un marché énorme.
Un paramètre qui contrôle le degré d'aléatoire ou de déterminisme de la sortie d'un modèle. La température 0 fait que le modèle choisit toujours le prochain token le plus probable (déterministe, focalisé). La température 1+ le rend plus enclin à choisir des tokens moins probables (créatif, imprévisible). La plupart des API utilisent par défaut environ 0,7.
Pourquoi c’est important : La température est le bouton de créativité. Écrire de la fiction ? Montez-la. Générer du code ou des réponses factuelles ? Baissez-la. C'est l'un des paramètres les plus impactants que vous pouvez ajuster, et expérimenter ne coûte rien.
L'unité de base du texte que les modèles d'IA traitent. Un token est typiquement un mot ou un fragment de mot — « understanding » pourrait être un seul token, tandis que « un » + « der » + « standing » pourrait en faire trois. En moyenne, un token représente environ 3/4 d'un mot en anglais. Les modèles lisent, réfléchissent et facturent en tokens.
Pourquoi c’est important : Les tokens sont la monnaie de l'IA. Les fenêtres de contexte se mesurent en tokens. La tarification des API est au token. Quand un fournisseur dit « 1M de contexte », il parle d'un million de tokens, soit environ 750 000 mots. Comprendre les tokens vous aide à estimer les coûts et à optimiser l'utilisation.
La capacité d'un modèle d'IA à appeler des fonctions ou des outils externes pendant une conversation. Au lieu de simplement générer du texte, le modèle peut décider de chercher sur le web, exécuter du code, interroger une base de données ou appeler une API — puis incorporer les résultats dans sa réponse. Le modèle produit un « appel d'outil » structuré que l'application hôte exécute.
Pourquoi c’est important : L'utilisation d'outils est ce qui rend les modèles d'IA réellement utiles au-delà de la conversation. C'est le mécanisme derrière les interpréteurs de code, l'IA naviguant sur le web et chaque agent IA. Sans cela, les modèles sont limités à ce qui se trouve dans leurs données d'entraînement.
L'architecture de réseau de neurones derrière pratiquement tous les LLM modernes et de nombreux modèles d'image et d'audio. Introduit par Google dans l'article de 2017 « Attention Is All You Need », le Transformer utilise l'auto-attention pour traiter toutes les parties d'une entrée simultanément plutôt que séquentiellement, permettant un parallélisme massif pendant l'entraînement.
Pourquoi c’est important : Les Transformers sont l'architecture qui a rendu le boom actuel de l'IA possible. GPT, Claude, Gemini, Llama, Mistral — ce sont tous des Transformers sous le capot. Comprendre cette architecture vous aide à comprendre pourquoi les modèles ont les capacités et les limitations qu'ils ont.
L'algorithme qui convertit du texte brut en tokens avant qu'un modèle puisse le traiter. Un tokenizer maintient un vocabulaire fixe de types de tokens et découpe n'importe quel texte d'entrée en une séquence de ces tokens. Différents modèles utilisent différents tokenizers — la même phrase se tokenise différemment pour Claude, GPT et Llama.
Pourquoi c'est important : Le tokenizer est la couche invisible entre ton texte et le modèle. Il détermine combien de tokens ton prompt coûte, pourquoi certaines langues sont plus chères que d'autres, et pourquoi le code consomme parfois le contexte plus vite que la prose.
Utiliser les connaissances apprises d'une tâche ou d'un jeu de données pour améliorer la performance sur une tâche différente mais liée. Au lieu d'entraîner à partir de zéro chaque fois, tu commences avec un modèle qui comprend déjà des patterns généraux (structure du langage, caractéristiques visuelles) et tu l'adaptes à ton besoin spécifique. Le pré-entraînement suivi d'un ajustement fin est le paradigme dominant en IA moderne.
Pourquoi c'est important : L'apprentissage par transfert est la raison pour laquelle l'IA est devenue pratique. Entraîner un modèle de langage à partir de zéro coûte des millions de dollars. Ajuster finement un modèle pré-entraîné sur ta tâche spécifique coûte quelques dizaines de dollars et quelques heures. Cette économie est ce qui a permis l'explosion des applications d'IA — tu n'as pas besoin du budget de Google pour construire quelque chose d'utile.
Le nombre total de tokens qu'un système peut générer par seconde à travers toutes les requêtes concurrentes. Distinct de la latence (la rapidité avec laquelle une requête individuelle est servie). Un système avec un haut débit sert de nombreux utilisateurs simultanément. Un système avec une faible latence sert chaque utilisateur individuel rapidement. Les deux s'opposent souvent.
Pourquoi c'est important : Quand tu construis des produits IA, le débit détermine tes coûts de service et ta capacité. Un système qui génère 100 tokens/seconde par utilisateur mais ne peut servir qu'un seul utilisateur à la fois a un faible débit même si la latence individuelle est excellente. Le débit est ce que tu optimises quand tu paies des factures GPU pour des milliers d'utilisateurs concurrents.
Une plateforme cloud pour exécuter et entraîner des modèles d'IA open-source. Together AI fournit des API d'inférence pour des modèles ouverts populaires (Llama, Mistral, Qwen, etc.) à des prix compétitifs, plus de l'infrastructure d'ajustement fin et d'entraînement personnalisé. Fondée par des chercheurs en IA, ils contribuent aussi à la recherche open-source et ont publié leurs propres modèles.
Pourquoi c'est important : Together AI est la principale alternative à l'auto-hébergement pour les équipes qui veulent utiliser des modèles ouverts. Au lieu de gérer tes propres serveurs GPU et ton infrastructure de service de modèles, tu appelles leur API et tu obtiens Llama-70B ou Mistral à une fraction des prix d'OpenAI/Anthropic. Ils représentent la couche « cloud pour modèles ouverts » de la pile IA qui rend les modèles à poids ouverts pratiques pour l'utilisation en production.
Générer automatiquement une version plus courte d'un texte qui préserve les informations clés. Le résumé extractif sélectionne et combine les phrases existantes les plus importantes. Le résumé abstractif génère de nouvelles phrases qui capturent le sens — comme un humain résumerait. Les LLM modernes excellent dans le résumé abstractif, produisant des résumés fluides et précis de documents, articles et conversations.
Pourquoi c'est important : La surcharge informationnelle est le défi majeur de l'ère numérique. Le résumé aide : condenser de longs rapports en synthèses exploitables, générer des notes de réunion à partir de transcriptions, créer des résumés pour les articles de recherche, et produire des versions TL;DR d'articles longs. C'est l'une des capacités LLM les plus immédiatement utiles et l'une des plus faciles à intégrer dans les flux de travail existants.
Un tableau multidimensionnel de nombres — la structure de données fondamentale en deep learning. Un scalaire est un tenseur 0D (un seul nombre). Un vecteur est un tenseur 1D. Une matrice est un tenseur 2D. Une image est un tenseur 3D (hauteur × largeur × canaux). Un lot d'images est un tenseur 4D. Les poids du modèle, les activations, les gradients — tout dans un réseau de neurones est un tenseur.
Pourquoi c'est important : Les tenseurs sont le langage du deep learning. PyTorch, TensorFlow et JAX sont fondamentalement des bibliothèques de calcul tensoriel. Comprendre les formes et opérations de tenseurs est essentiel pour lire le code de modèles, déboguer les erreurs de forme (l'erreur la plus courante dans le code ML), et comprendre ce qui se passe à l'intérieur des réseaux de neurones. Si tu peux suivre les formes de tenseurs, tu peux suivre l'architecture.
Appliquer le style visuel d'une image (une peinture, une photographie, un design) au contenu d'une autre image. « Fais que cette photo ressemble à un tableau de Van Gogh » — c'est du transfert de style. Le transfert de style neuronal utilise des réseaux profonds pour séparer le contenu (ce qui est dans l'image) du style (comment ça se présente) et les recombiner.
Pourquoi c'est important : Le transfert de style a été l'une des premières applications virales d'art IA et reste largement utilisé dans les applications de retouche photo, les filtres de réseaux sociaux et les outils créatifs. Le comprendre t'aide à saisir comment les réseaux de neurones représentent les caractéristiques visuelles à différents niveaux d'abstraction — le même insight qui alimente la génération d'images moderne.
Comparer deux variantes d'un système IA (différents modèles, prompts ou configurations) en assignant aléatoirement de vrais utilisateurs à chaque variante et en mesurant laquelle performe mieux sur les métriques qui comptent. Contrairement à l'évaluation hors ligne (benchmarks, jeux de test), les tests A/B révèlent comment les changements affectent le comportement réel des utilisateurs — engagement, satisfaction, complétion de tâches et revenus.
Pourquoi c'est important : Les métriques hors ligne ne prédisent pas toujours la performance réelle. Un modèle qui score plus haut sur les benchmarks pourrait produire des réponses que les utilisateurs apprécient moins. Un changement de prompt qui améliore la qualité pourrait augmenter la latence au point que les utilisateurs abandonnent. Les tests A/B sont le seul moyen de savoir si un changement améliore réellement l'expérience utilisateur. C'est comme ça que chaque produit IA majeur prend ses décisions de déploiement.
Entreprise coréenne d'IA connue pour sa famille de modèles Solar et ses produits Document AI. A démontré que des modèles plus petits et bien entraînés peuvent surpasser des modèles beaucoup plus grands — leur Solar 10.7B a largement dépassé sa catégorie de poids sur les bancs d'essai internationaux.
Pourquoi c’est important : Upstage a démontré qu'on n'a pas besoin de cent milliards de paramètres pour construire un modèle de langage de classe mondiale. Le succès de Solar 10.7B en tête des bancs d'essai ouverts a remis en question le discours dominant selon lequel « la mise à l'échelle est tout ce dont on a besoin » et a montré que des techniques d'entraînement astucieuses pouvaient compenser la taille brute. Au-delà des modèles, le travail d'Upstage en Document AI comble l'une des lacunes les plus pratiques de l'écosystème IA — transformer des documents réels désordonnés en données structurées — et leur succès depuis Séoul prouve que de l'innovation significative en IA se produit bien au-delà des corridors de la Silicon Valley et de Beijing qui dominent les manchettes.
Une approche d'entraînement où le modèle trouve des patterns dans les données sans qu'on lui dise quoi chercher. Pas de labels, pas de bonnes réponses — juste des données brutes et un modèle qui découvre la structure.
Pourquoi c'est important : La plupart des données du monde réel ne sont pas étiquetées. L'apprentissage non supervisé trouve des patterns impossibles à découvrir manuellement. C'est aussi la base des embeddings.
La capacité d'un modèle de langage à comprendre et raisonner sur des images en même temps que du texte. Tu envoies une photo et tu demandes « qu'est-ce qu'il y a dans cette image ? » ou tu téléverses un graphique et tu demandes « résume les tendances ». Les modèles capables de vision (Claude, GPT-4V, Gemini) encodent les images en tokens que le modèle de langage traite aux côtés des tokens textuels, permettant un raisonnement unifié texte-image.
Pourquoi c'est important : La vision transforme ce que les LLM peuvent faire. Au lieu de décrire un bogue en mots, tu le captures en screenshot. Au lieu de taper un tableau, tu le photographies. Au lieu d'expliquer un diagramme, tu le partages. La vision rend l'IA accessible pour les tâches où le texte seul est insuffisant — c'est-à-dire la plupart des tâches du monde réel. C'est la capacité multimodale la plus impactante pour l'utilisateur au quotidien.
L'ensemble fixe de tokens qu'un modèle peut reconnaître et produire. Un vocabulaire est construit par le tokenizer pendant l'entraînement et contient typiquement de 32K à 128K entrées — des mots courants, des fragments de sous-mots, des caractères individuels et des tokens spéciaux. Tout texte que le modèle traite doit pouvoir s'exprimer comme une séquence de tokens de ce vocabulaire. Les tokens absents du vocabulaire sont découpés en morceaux plus petits qui, eux, y figurent.
Pourquoi c'est important : Le vocabulaire détermine ce que le modèle peut « voir ». Un vocabulaire entraîné principalement sur l'anglais traitera l'anglais efficacement (un token par mot) mais fragmentera le chinois, l'arabe ou le code en beaucoup de petits tokens (coûteux, plus lent, moins de contexte). La conception du vocabulaire est l'une des décisions les plus lourdes de conséquences et les moins discutées dans le développement de modèles.
Les systèmes d'IA pour générer, comprendre et manipuler la parole humaine. Cela inclut la synthèse vocale (TTS), la reconnaissance vocale (STT/ASR), le clonage vocal, la traduction vocale en temps réel, la détection d'émotions dans la parole et les agents vocaux conversationnels. Le domaine a progressé au point où la parole générée par IA est souvent indiscernable de la parole humaine.
Pourquoi c’est important : La voix est l'interface humaine la plus naturelle, et l'IA la rend enfin programmable. La voix IA propulse tout, des robots de service à la clientèle à la narration de livres audio en passant par la transcription de réunions en temps réel. Les implications éthiques du clonage vocal — consentement, identité, fraude — en font l'un des domaines les plus sensibles de l'IA.
Vidu Génération vidéo Vidu, cohérence longue durée
Compagnies
Plateforme de génération vidéo de Shengshu Technology, produisant certaines des vidéos générées par IA les plus physiquement cohérentes. A attiré l'attention pour la qualité de mouvement solide et la cohérence multi-plans qui rivalise avec les concurrents occidentaux.
Pourquoi c’est important : Vidu a démontré que les laboratoires chinois d'IA pouvaient égaler la qualité de génération vidéo occidentale en quelques mois seulement après la révélation de Sora, reformulant les hypothèses sur l'endroit où se situe réellement la fine pointe en vidéo IA. Leur accent sur la cohérence physique et la cohérence multi-plans a fait avancer tout le domaine, forçant les concurrents à prioriser le réalisme plutôt que le simple attrait visuel. Pour le marché plus large de la vidéo IA, la tarification agressive de Vidu et la disponibilité de son API ont également contribué à faire baisser les coûts et à accroître l'accès pour les développeurs du monde entier.
Voyage AI voyage-3, embeddings spécifiques au domaine
Compagnies
Entreprise de modèles de plongement construisant des vecteurs spécialisés pour le code, le juridique, la finance et la recherche multilingue. Leurs modèles se classent systématiquement en tête du classement MTEB, offrant l'une des meilleures qualités de recherche disponibles via API.
Pourquoi c’est important : Voyage AI a prouvé que les plongements méritent la même attention et le même investissement en ingénierie que les grands modèles de langage. Dans un marché où la plupart des fournisseurs traitent les représentations vectorielles comme un utilitaire à faible marge, Voyage a démontré que des modèles de plongement spécifiques par domaine peuvent améliorer de manière significative la précision de la recherche — le levier le plus important dans les systèmes de génération augmentée par la recherche en production. Leur acquisition par Google a validé la thèse que celui qui possède la couche de plongement possède les fondations de l'infrastructure de recherche IA.
Une base de données optimisée pour le stockage et la recherche d'embeddings (vecteurs). Au lieu de faire correspondre des mots-clés exacts comme une base de données traditionnelle, les bases de données vectorielles trouvent les éléments les plus sémantiquement similaires. Vous demandez « comment corriger une fuite de mémoire » et elle retourne des documents sur « déboguer la consommation de RAM » parce que les embeddings sont proches.
Pourquoi c’est important : Les bases de données vectorielles sont la couche de stockage qui fait fonctionner le RAG. Sans elles, il faudrait convertir en embedding toute votre base de connaissances à chaque requête. Elles sont aussi l'épine dorsale des systèmes de recommandation et de la recherche sémantique.
La mémoire d'un GPU, distincte de la RAM système. Les modèles d'IA doivent tenir dans la VRAM pour tourner sur un GPU. Un modèle de 7 milliards de paramètres en précision 16 bits a besoin d'environ 14 Go de VRAM. Les GPU grand public ont de 8 à 24 Go ; les GPU de centre de données (A100, H100) ont de 40 à 80 Go. La VRAM est presque toujours le goulot d'étranglement pour l'IA locale.
Pourquoi c’est important : La VRAM détermine quels modèles vous pouvez exécuter. C'est pourquoi la quantification existe (pour réduire les modèles afin qu'ils tiennent), pourquoi les modèles MoE sont complexes (tous les experts doivent tenir dans la VRAM), et pourquoi les prix des GPU augmentent si fortement avec la mémoire. « Est-ce que ça rentre dans la VRAM ? » est la première question de l'auto-hébergement d'IA.
Creating video from text descriptions, images, or other videos using AI models. Sora (OpenAI), Kling (Kuaishou), Runway Gen-3, Vidu, and others generate videos from prompts like "a drone shot flying over a coral reef." The technology extends image generation to the temporal dimension, adding the challenge of maintaining consistency across frames and generating realistic motion.
Why it matters: Video generation is the frontier of generative AI — the hardest modality and the one with the most commercial potential. It's beginning to transform filmmaking, advertising, social media, and education. The quality gap between AI and professional video is closing rapidly, with current models producing 5–15 second clips that are sometimes indistinguishable from real footage.
A Transformer architecture applied to images by splitting an image into fixed-size patches (e.g., 16×16 pixels), treating each patch as a "token," and processing the sequence of patches with standard Transformer attention. ViT (Dosovitskiy et al., 2020) showed that Transformers could match or exceed CNNs on image tasks when trained on enough data, unifying the architectures for language and vision.
Why it matters: ViT proved that the Transformer is a universal architecture — not just for text but for images too. This unification enabled the explosion of multimodal models: if images and text are both sequences of tokens processed by the same architecture, combining them becomes natural. ViT is the image encoder in CLIP, the backbone of DiT, and the foundation of modern computer vision.
An open-source LLM serving engine that achieves high throughput through PagedAttention and continuous batching. vLLM handles the complex engineering of GPU memory management, request scheduling, and KV cache optimization, providing an OpenAI-compatible API that makes it easy to self-host open models (Llama, Mistral, Qwen) in production.
Why it matters: vLLM is the most popular open-source LLM serving solution. If you're self-hosting an open model, you're probably using vLLM (or should be). Its PagedAttention innovation increased serving throughput by 2–24x compared to naive implementations. It's the infrastructure layer that makes open models practical for production use.
Créer une copie synthétique de la voix d'une personne spécifique à partir d'un court échantillon audio, permettant la synthèse vocale qui sonne comme cette personne. Les systèmes modernes (ElevenLabs, PlayHT, Resemble AI) peuvent cloner une voix à partir d'aussi peu que 15 secondes d'audio avec une fidélité remarquable, capturant le ton, l'accent, le style de parole et l'étendue émotionnelle.
Pourquoi c'est important : Le clonage vocal permet des applications créatives et d'accessibilité puissantes : doubler des films dans la propre voix de l'acteur à travers les langues, préserver les voix de personnes perdant leur capacité de parler (patients SLA), créer des voix de marque cohérentes, et personnaliser les assistants IA. Ça crée aussi des risques sérieux : arnaques téléphoniques imitant des membres de la famille, faux audio de personnalités publiques, et réplication vocale non consentie.
Un sous-ensemble de données tenu à l'écart de l'entraînement, utilisé pour évaluer la performance du modèle pendant le développement et ajuster les hyperparamètres. La division en trois parties : l'ensemble d'entraînement entraîne le modèle, l'ensemble de validation guide les décisions sur le modèle (taux d'apprentissage, architecture, quand arrêter), et l'ensemble de test fournit l'estimation finale et non biaisée de la performance. L'ensemble de validation est ton miroir pendant le développement.
Pourquoi c'est important : Sans un ensemble de validation, tu navigues à l'aveugle. La perte d'entraînement te dit à quel point le modèle s'ajuste aux données d'entraînement, mais pas à quel point il généralise. L'ensemble de validation répond à la question qui compte vraiment : « comment ce modèle performera-t-il sur des données qu'il n'a pas vues ? » Chaque décision pendant le développement du modèle — hyperparamètres, choix d'architecture, durée d'entraînement — devrait être évaluée sur l'ensemble de validation.
Une technique pour évaluer la performance d'un modèle quand tu n'as pas assez de données pour un jeu de test séparé. La validation croisée K-fold divise les données en K parties égales, entraîne sur K−1 parties et évalue sur la partie restante, en effectuant une rotation K fois pour que chaque point de données soit utilisé à la fois pour l'entraînement et l'évaluation. Le score moyen sur tous les K folds donne une estimation de performance plus fiable qu'un seul découpage entraînement/test.
Pourquoi c'est important : La validation croisée est essentielle quand les données sont rares — si tu n'as que 500 exemples, en mettre 100 de côté pour les tests signifie s'entraîner sur 20 % de données en moins. La validation croisée utilise toutes les données à la fois pour l'entraînement et l'évaluation. Elle te donne aussi un intervalle de confiance (variance entre les folds) plutôt qu'un seul chiffre, te disant à quel point la performance de ton modèle est stable.
Visualiser ce à quoi un modèle Transformer « prête attention » en affichant les poids d'attention sous forme de heatmaps. Pour chaque token de requête, la carte d'attention montre combien de poids il attribue à chaque autre token. Des poids élevés (points lumineux) indiquent une forte attention — le modèle considère ces tokens comme très pertinents pour le calcul en cours.
Pourquoi c'est important : La visualisation de l'attention est la manière la plus intuitive de regarder à l'intérieur d'un Transformer et comprendre son raisonnement. Quand un modèle traduit « le chat noir » en « the black cat », les cartes d'attention montrent que « black » prête fortement attention à « noir » et « cat » à « chat ». Ça aide à débuguer le comportement du modèle, comprendre les échecs, et construire une intuition sur le fonctionnement de l'attention.
W
Poids Poids de modèle, poids du réseau de neurones
Entraînement
Les valeurs numériques à l'intérieur d'un réseau neuronal qui sont ajustées pendant l'entraînement afin de minimiser l'erreur. Chaque connexion entre les neurones a un poids qui détermine dans quelle mesure un neurone influence le suivant. Lorsque vous téléchargez un fichier de modèle — un fichier .safetensors, .gguf ou .pt —, vous téléchargez ses poids. « Libérer les poids » signifie publier ces fichiers afin que quiconque puisse exécuter le modèle. Les poids SONT le modèle ; tout le reste n'est que l'architecture qui vous indique comment les organiser.
Pourquoi c’est important : Lorsque l'industrie de l'intelligence artificielle parle de « poids ouverts » vs « open source », la distinction est importante. Les poids seuls vous permettent de faire fonctionner et d'affiner un modèle, mais sans le code d'entraînement, les données et la recette, vous ne pouvez pas le reproduire à partir de zéro. Comprendre les poids vous aide à saisir la distribution du modèle, la quantification (réduction de la précision des poids) et pourquoi un modèle de 7B nécessite ~14 Go d'espace disque en fp16.
Wan-AI Modèles vidéo Wan, génération vidéo en poids ouverts
Compagnies
Initiative dédiée à la génération vidéo d'Alibaba, publiant des modèles vidéo de haute qualité à poids ouverts. Fait partie de la stratégie plus large d'Alibaba visant à mener en IA à code ouvert dans toutes les modalités.
Pourquoi c’est important : Wan-AI a fondamentalement changé l'accessibilité de la génération vidéo de haute qualité en publiant des modèles à poids ouverts que n'importe qui peut exécuter, affiner et déployer sans frais de licence. Cela a forcé toute l'industrie de la vidéo IA à reconsidérer la proposition de valeur des modèles à code source fermé et a accéléré l'innovation dans tout l'écosystème. En tant qu'élément de la stratégie d'IA à code ouvert plus large d'Alibaba aux côtés de Qwen, Wan représente un argument crédible selon lequel les publications à poids ouverts des grandes entreprises technologiques peuvent égaler ou dépasser ce que des entreprises en démarrage bien financées produisent derrière des portes closes.
Signaux invisibles dans le contenu IA pour permettre la détection. Texte : biaise la sélection de tokens statistiquement. Image : patterns de pixels invisibles.
Pourquoi c'est important : Une des rares approches pour distinguer le contenu IA à grande échelle. Important pour la désinformation et l'intégrité académique.
La plateforme MLOps dominante pour le suivi des expériences d'apprentissage automatique. W&B te permet de journaliser les métriques, hyperparamètres, sorties de modèles et performances système pendant l'entraînement, puis de comparer les exécutions visuellement. C'est devenu l'outil standard pour les chercheurs et ingénieurs ML pour suivre ce qu'ils ont essayé, ce qui a marché et pourquoi — essentiellement du contrôle de version pour les expériences.
Pourquoi c'est important : Sans suivi des expériences, le développement ML est le chaos : quels hyperparamètres ont produit ce bon résultat ? Quelle version du jeu de données a été utilisée ? Pourquoi l'entraînement a-t-il divergé ? W&B a tellement bien résolu ce problème que c'est maintenant utilisé par la plupart des labos d'IA, des chercheurs solo à OpenAI. Si tu entraînes des modèles, tu utilises presque certainement W&B ou quelque chose inspiré par lui.
Comment les poids du réseau de neurones sont fixés avant que l'entraînement ne commence. Une mauvaise initialisation peut faire échouer l'entraînement avant même qu'il ne commence (activations qui s'évanouissent ou explosent). Une bonne initialisation assure que les activations et gradients maintiennent des magnitudes raisonnables à travers les couches. L'initialisation Xavier (pour tanh/sigmoid) et l'initialisation Kaiming/He (pour ReLU) sont les standards, chacune calibrée pour la fonction d'activation.
Pourquoi c'est important : L'initialisation semble être un détail mineur mais c'est critique pour l'entraînement de réseaux profonds. Un réseau avec des poids initiaux aléatoires (trop grands) produit des activations qui explosent. Un avec des poids trop petits produit des activations qui s'évanouissent. Une initialisation correcte place le réseau dans une « zone Goldilocks » où les signaux traversent sans exploser ni s'évanouir — un prérequis pour que la descente de gradient fonctionne.
An AI-native code editor (formerly Codeium) that competes with Cursor in the AI coding assistant space. Like Cursor, Windsurf is built as a VS Code fork with deep AI integration: multi-file editing, codebase-aware suggestions, and natural language commands. The company emphasizes "flows" — longer multi-step AI interactions that maintain context across edits.
Why it matters: Windsurf represents the growing competition in AI coding tools, proving that the market for AI-native editors is large enough for multiple players. Its "Cascade" feature for multi-step coding tasks and its free tier have attracted a significant user base. The Cursor vs. Windsurf vs. Copilot vs. Claude Code competition is driving rapid innovation in how developers interact with AI.
Un éditeur de code natif IA (anciennement Codeium) qui concurrence Cursor dans l'espace des assistants de codage IA. Comme Cursor, Windsurf est construit comme un fork de VS Code avec une intégration IA profonde : édition multi-fichiers, suggestions contextuelles à la base de code, et commandes en langage naturel. L'entreprise met l'accent sur les « flows » — des interactions IA en plusieurs étapes qui maintiennent le contexte à travers les modifications.
Pourquoi c'est important : Windsurf représente la concurrence croissante dans les outils de codage IA, prouvant que le marché des éditeurs natifs IA est assez grand pour plusieurs acteurs. Sa fonctionnalité « Cascade » pour les tâches de codage en plusieurs étapes et son plan gratuit ont attiré une base d'utilisateurs significative. La compétition Cursor vs Windsurf vs Copilot vs Claude Code stimule l'innovation rapide dans la façon dont les développeurs interagissent avec l'IA.
L'une des plus grandes entreprises d'électronique grand public au monde, qui développe désormais ses propres modèles d'IA. MiLM propulse des fonctionnalités à travers l'écosystème Xiaomi de téléphones, d'appareils de maison intelligente et de véhicules électriques — l'IA pour le prochain milliard d'utilisateurs.
Pourquoi c’est important : Xiaomi représente l'argument le plus convaincant sur la manière dont l'IA atteindra le prochain milliard d'utilisateurs — non pas par des applications de chatbot autonomes ou des API pour développeurs, mais intégrée invisiblement dans les appareils que les gens possèdent déjà. Avec des centaines de millions d'appareils actifs couvrant téléphones, objets connectés portables, appareils ménagers et désormais véhicules électriques, Xiaomi peut déployer l'IA à une échelle et avec une intimité que les entreprises d'IA pures ne peuvent égaler. Leur approche « écosystème d'abord » est un aperçu de la façon dont l'IA deviendra une infrastructure ambiante plutôt qu'un produit qu'on choisit consciemment d'utiliser, et leur dominance dans les marchés émergents signifie que cet avenir atteindra des populations auxquelles les laboratoires d'IA frontière pensent rarement.
L'entreprise d'IA d'Elon Musk (2023). Modèles Grok, accès aux données de X, cluster Colossus (100K+ H100).
Pourquoi c'est important : L'échelle + des données uniques. Que le firehose de X et un calcul massif produisent des modèles de qualité frontière, c'est la question ouverte.
Un format de sérialisation de données lisible par les humains utilisé de manière extensive dans l'intelligence artificielle et le DevOps pour les fichiers de configuration, les définitions de pipeline et les métadonnées des modèles. YAML utilise l'indentation pour représenter la structure (aucuns crochets ou accolades), ce qui en fait un format facile à lire, mais réputé pour être sensible à l'espace blanc. On le trouve partout dans les workflows d'intelligence artificielle — les fichiers Docker Compose, les manifestes Kubernetes, les fiches de modèles Hugging Face, les pipelines CI/CD et les fichiers de configuration d'entraînement.
Pourquoi c’est important : Si vous travaillez avec l'infrastructure d'intelligence artificielle, vous rédigez du YAML. Les configurations de modèles, les manifestes de déploiement, les définitions de pipeline, les variables d'environnement — c'est le langage de liaison du stack d'intelligence artificielle moderne. Il n'est pas optionnel de s'y familiariser ; c'est la première chose qui casse lorsqu'on malconfigure une course d'entraînement ou un déploiement.
Entreprise d'IA chinoise issue de l'Université Tsinghua. Derrière la famille de modèles GLM et l'une des principales plateformes d'IA en Chine, avec des forces en génération textuelle et visuelle.
Pourquoi c’est important : Zhipu AI fait le pont entre la recherche académique et l'IA commerciale en Chine, produisant des modèles libres — en particulier en génération vidéo avec CogVideoX — qui ont connu une adoption véritablement mondiale. Leur architecture GLM et leurs racines à Tsinghua leur confèrent une crédibilité technique profonde, faisant de Zhipu l'une des rares entreprises d'IA chinoises dont les contributions à la recherche sont largement citées et utilisées comme fondement à l'échelle internationale.
Zero-shot signifie demander à un modèle d'effectuer une tâche sans aucun exemple — juste l'instruction. Few-shot signifie fournir quelques exemples entrée-sortie dans le prompt avant la requête réelle. « Voici 3 exemples de comment formater ces données... maintenant faites celui-ci. » Le modèle apprend le patron à partir du contexte seul, sans entraînement requis.
Pourquoi c’est important : Le prompting few-shot est le moyen le plus rapide d'enseigner un nouveau format ou comportement à un modèle. Besoin d'une sortie JSON cohérente ? Montrez-lui trois exemples. Besoin d'un style d'écriture spécifique ? Donnez-lui des échantillons. C'est gratuit, instantané et étonnamment puissant.