Zubnet AIAprender › Wiki

AI Wiki

Conceptos de AI explicados por creadores, no manuales. Sin muros de jerga. Sin gatekeeping académico. Definiciones claras y prácticas de los términos que realmente vas a encontrar.

324 términos 8 categorías Actualizado abril 2026
💡
Término del día
Loading...
🧭 Rutas de aprendizaje
Principiante
Acabo de escuchar sobre IA
AIChatbotPromptLLMTokenContext WindowHallucination
Builder
Estoy creando una app de IA
APIStructured OutputStreamingFunction CallingRAGSemantic SearchModel Serving
En profundidad
¿Cómo funciona realmente la IA?
NeuronLayerActivation FunctionGradient DescentTransformerAttentionAutoregressive
IA local
Quiero correr IA en mi máquina
Open WeightsQuantizationGGUFllama.cppOllamaVRAMEdge AI
Seguridad
Seguridad y alineación de IA
AlignmentGuardrailsRed TeamingPrompt InjectionConstitutional AIAI EthicsAI Regulation
ML Engineer
Quiero entrenar modelos
DatasetLoss FunctionTransfer LearningFine-TuningLoRARLHFDPO
Ningún término encontrado.
A
ASI
Superinteligencia Artificial
Fundamentos
Un sistema teórico de IA que supera las capacidades cognitivas de todos los humanos en casi todos los dominios — razonamiento científico, inteligencia social, creatividad, planificación estratégica y más. El ASI va más allá del AGI (que iguala la inteligencia humana) hacia algo cualitativamente diferente: una inteligencia que podría mejorarse de forma recursiva y resolver problemas que los humanos ni siquiera pueden formular. No existe ningún ASI, y no hay consenso científico sobre si se podrá o se construirá uno.
Por qué importa: ASI es donde la seguridad de la IA se vuelve existencial. Si crees que la superinteligencia es posible, la alineación no se trata solo de hacer que los chatbots sean educados — se trata de asegurar que un sistema más inteligente que toda la humanidad aún actúe en nuestro interés. Es especulativo, pero los riesgos son lo suficientemente altos como para que investigadores serios lo tomen en serio. Entender ASI te ayuda a evaluar afirmaciones sobre los riesgos de la IA con más matices.
AGI
Inteligencia Artificial General
Fundamentos
Un sistema hipotético de IA que puede entender, aprender y realizar cualquier tarea intelectual que pueda hacer un humano — con la capacidad de transferir conocimiento entre dominios sin necesidad de ser entrenado específicamente para cada uno. A diferencia de la IA actual, que destaca en tareas específicas (generar texto, clasificar imágenes), la IA general podría manejar situaciones novedosas, razonar de manera abstracta y adaptarse a cualquier desafío. Si la IA general está a punto de llegar, está décadas lejos o es imposible, es el debate más controvertido en el campo.
Por qué importa: AGI es la estrella polar (o el fantasma) de toda la industria de la IA. Impulsa miles de millones en inversiones, define las prioridades de investigación en seguridad y domina los debates de políticas. Sea que creas o no que la AGI está cerca, el concepto define cómo empresas como Anthropic, OpenAI y DeepMind enmarcan sus misiones — y entender el debate te ayuda a separar el progreso real de la especulación.
Asistentes de codificación IA
Code Copilot, IDE de IA
Herramientas
Herramientas de IA que ayudan a los desarrolladores a escribir, revisar, depurar y desplegar código. Desde autocompletado (GitHub Copilot, Codeium) hasta desarrollo completamente autónomo (Claude Code, Cursor, Devin), los asistentes de codificación representan una de las aplicaciones más maduras y ampliamente adoptadas de los LLMs. Funcionan prediciendo los siguientes tokens de código dado el contexto de tu codebase, documentación e instrucciones.
Por qué importa: Los asistentes de codificación con IA son el filo más afilado del impacto de la IA en el trabajo del conocimiento. Los desarrolladores que los usan reportan ganancias de productividad del 30-50% en tareas rutinarias. Pero también alucinan APIs que no existen, introducen bugs sutiles y pueden hacer a los desarrolladores dependientes de herramientas que no entienden completamente.
Automatización
Automatización con IA, automatización de flujos de trabajo
Herramientas
Usar IA para realizar tareas que antes requerían intervención humana. Esto va desde automatización simple (auto-categorizar correos, generar reportes) hasta flujos de trabajo autónomos complejos (agentes de IA que investigan, escriben, prueban y despliegan código). El cambio clave de la automatización tradicional (reglas rígidas) a la automatización con IA (inteligencia flexible) es que la IA puede manejar tareas ambiguas y no estructuradas.
Por qué importa: La automatización es el motor económico de la adopción de IA. Cada empresa que compra IA realmente está comprando automatización — menos humanos haciendo trabajo repetitivo, procesamiento más rápido, operación 24/7. La pregunta no es si la IA automatizará tareas, sino cuáles tareas, qué tan rápido y qué pasa con los humanos que solían hacerlas.
IA en ciberseguridad
Ciberseguridad con IA, detección de amenazas con IA
Seguridad
La doble aplicación de la IA en ciberseguridad: usar IA para defender sistemas (detección de amenazas, detección de anomalías, respuesta automatizada a incidentes) y los nuevos vectores de ataque que la IA crea (phishing generado por IA, descubrimiento automatizado de vulnerabilidades, ataques adversariales a sistemas de ML). El campo está en una carrera armamentista donde tanto atacantes como defensores están cada vez más potenciados por IA.
Por qué importa: La IA hace que las amenazas cibernéticas existentes sean más rápidas y baratas de ejecutar — un correo de phishing escrito por un LLM es más convincente y no cuesta nada personalizarlo. Pero la IA también permite defensas que serían imposibles manualmente, como analizar millones de eventos de red por segundo en busca de anomalías. Los equipos de seguridad que no usen IA perderán ante atacantes que sí lo hagan.
Gobernanza de la IA
Regulación de la IA, política de IA
Seguridad
Los marcos de trabajo, políticas, leyes y prácticas organizacionales que guían cómo se desarrolla, despliega y usa la IA. Esto incluye regulación gubernamental (el EU AI Act, órdenes ejecutivas), autorregulación de la industria (políticas de escalamiento responsable, model cards), gobernanza corporativa (comités de ética de IA, políticas de uso) y coordinación internacional sobre estándares de seguridad de IA.
Por qué importa: La tecnología se mueve más rápido que las reglas. Las empresas están lanzando productos de IA en salud, justicia penal y finanzas con supervisión mínima. La gobernanza es el intento de establecer límites antes de que algo falle lo suficientemente mal como para desencadenar una reacción que podría retrasar todo el campo.
Privacidad en la IA
Privacidad de datos en IA, privacidad ML
Seguridad
El desafío de construir y usar sistemas de IA sin comprometer datos personales. Esto abarca todo el ciclo de vida: datos de entrenamiento que podrían contener información privada, modelos que pueden memorizar y regurgitar detalles personales, logs de inferencia que rastrean el comportamiento del usuario, y la tensión fundamental entre la capacidad de IA (que mejora con más datos) y los derechos de privacidad.
Por qué importa: Cada conversación con una IA es data. Cada imagen que generas revela tus prompts. Cada documento que resumes pasa por los servidores de alguien. La privacidad no es solo una casilla legal (GDPR, CCPA) — es un tema de confianza que determina si individuos y empresas adoptarán IA para trabajo sensible.
Seguridad de la IA
Seguridad de LLM, ingeniería de seguridad de IA
Seguridad
La práctica de proteger sistemas de IA contra ataques adversariales, envenenamiento de datos, inyección de prompts, robo de modelos y uso indebido — mientras también se defiende contra amenazas habilitadas por IA como deepfakes y ciberataques automatizados. La seguridad de IA se encuentra en la intersección de la ciberseguridad tradicional y las vulnerabilidades únicas introducidas por los sistemas de machine learning.
Por qué importa: Los sistemas de IA son simultáneamente herramientas poderosas y superficies de ataque novedosas. Una inyección de prompt puede hacer que tu bot de soporte al cliente filtre datos internos. Un dataset de entrenamiento envenenado puede insertar puertas traseras. Conforme la IA se despliega en infraestructura crítica, salud y finanzas, la seguridad no es opcional — es existencial.
Precios de la IA
Precios por token, precios de API
Infraestructura
Cómo los proveedores de IA cobran por el acceso a sus modelos. El modelo dominante es el precio por token — pagas por el número de tokens que envías (entrada) y recibes (salida), con los tokens de salida costando típicamente 3-5x más. Otros modelos incluyen precio por solicitud, suscripciones mensuales, descuentos por uso comprometido y niveles gratuitos. La carrera por bajar precios ha sido feroz, con costos cayendo 10-100x en dos años.
Por qué importa: Los precios determinan lo que puedes construir. Una aplicación que hace 10,000 llamadas a la API por día vive o muere por el costo por token. Entender modelos de precios, comparar proveedores y optimizar el uso de tokens es una habilidad fundamental para cualquiera que construya productos potenciados por IA.
Infraestructura de IA
Infra IA, infraestructura ML
Infraestructura
El stack completo de hardware, software y servicios requeridos para entrenar y desplegar modelos de IA a escala. Esto incluye GPUs y chips personalizados, centros de datos, redes, almacenamiento, plataformas de orquestación (Kubernetes, Slurm), frameworks de servicio de modelos (vLLM, TensorRT), y los proveedores de nube que empaquetan todo. La infraestructura de IA es donde el mundo abstracto de la arquitectura de modelos se encuentra con el mundo muy concreto de redes eléctricas y sistemas de enfriamiento.
Por qué importa: La infraestructura determina lo que es posible. La razón por la que solo un puñado de empresas puede entrenar modelos de frontera no es falta de ideas — es falta de infraestructura. Y la razón por la que la IA cuesta lo que cuesta para los usuarios finales se traza directamente a la disponibilidad de GPUs, capacidad de centros de datos y eficiencia de servicio de inferencia.
AssemblyAI
Universal-2 STT, inteligencia de audio
Empresas
Empresa de IA de voz que construye API amigables para desarrolladores para transcripción, detección de hablantes y comprensión de audio. Su modelo Universal-2 rivaliza con OpenAI Whisper en precisión mientras agrega funciones como diarización de hablantes, sentimiento y detección de temas de forma nativa.
Por qué importa: AssemblyAI ha hecho que speech-to-text sea genuinamente accesible para desarrolladores, comprimiendo lo que solía requerir un equipo dedicado de ML en una sola llamada API. Su stack de Audio Intelligence — que combina transcripción, identificación de hablantes, sentimiento y resumen potenciado por LLM — está convirtiendo audio crudo en datos estructurados y accionables a una escala que no era práctica hace apenas dos años. En un mundo donde la voz se está convirtiendo en la interfaz predeterminada para agentes de IA, AssemblyAI está construyendo la capa de comprensión de la que todo lo demás depende.
Anthropic
Claude, IA constitucional, MCP
Empresas
Empresa de seguridad en IA que desarrolla Claude. Fundada por los ex investigadores de OpenAI Dario y Daniela Amodei, Anthropic se enfoca en desarrollar sistemas de IA confiables, interpretables y dirigibles.
Por qué importa: Anthropic demostró que una empresa de IA podía liderar con investigación en seguridad y aún así competir en la frontera. Su enfoque de Constitutional AI influyó en cómo toda la industria piensa sobre el alignment, su Responsible Scaling Policy estableció una plantilla que otros laboratorios han adoptado en varias formas, y Claude se ha convertido en el modelo elegido por empresas que necesitan confiabilidad y manejo cuidadoso de contenido sensible. Quizás lo más importante, la existencia de Anthropic como competidor bien financiado asegura que la carrera hacia la AGI no sea un asunto de una sola empresa — y que al menos un jugador importante tenga la seguridad entretejida en su ADN fundacional en lugar de agregada como un parche.
Alibaba Cloud
Modelos Qwen, Tongyi Qianwen
Empresas
La división de computación en la nube de Alibaba Group y creadora de la familia de modelos Qwen. Los modelos Qwen son completamente open-weights, multilingües y se encuentran entre los modelos abiertos más capaces disponibles.
Por qué importa: Alibaba Cloud ha convertido a Qwen en la familia de modelos open-weights más desplegada en Asia y un competidor global genuino de Llama de Meta, demostrando que los modelos de capacidad de frontera pueden venir de fuera de Silicon Valley. Su combinación de lanzamientos de modelos abiertos, infraestructura masiva de nube y el ecosistema ModelScope da a los desarrolladores — especialmente aquellos en mercados afectados por los controles de exportación de EE.UU. — una alternativa creíble y de alta calidad a las plataformas de IA occidentales.
Agente
Agente IA
Herramientas
Un sistema de IA que puede planificar y ejecutar tareas de múltiples pasos de forma autónoma, usando herramientas (búsqueda web, ejecución de código, llamadas a API) para lograr un objetivo. A diferencia de un chatbot simple que responde una pregunta a la vez, un agente decide qué hacer a continuación basándose en lo que ha aprendido hasta el momento.
Por qué importa: Los agentes son el puente entre "IA que habla" e "IA que hace". Cuando tu IA puede navegar documentación, escribir código y probarlo sin que la lleves de la mano en cada paso — eso es un agente.
Seguridad
El desafío de hacer que los sistemas de IA se comporten de maneras que coincidan con los valores e intenciones humanas. Un modelo alineado hace lo que quieres decir, no solo lo que dijiste — y evita acciones dañinas incluso cuando no se le dice explícitamente que no las haga.
Por qué importa: Un modelo que es técnicamente brillante pero mal alineado es como un empleado genial que sigue las instrucciones demasiado literalmente. La investigación en alignment es la razón por la que los modelos rechazan solicitudes peligrosas e intentan ser genuinamente útiles.
API
Interfaz de programación de aplicaciones
Infraestructura
Una forma estructurada para que el software se comunique con otro software. En IA, esto generalmente significa enviar una solicitud (tu prompt) al servidor de un proveedor y recibir una respuesta (la salida del modelo) de vuelta. Las API REST sobre HTTPS son el estándar.
Por qué importa: Cada proveedor de IA — Anthropic, Google, Mistral — expone sus modelos a través de API. Si estás construyendo algo con IA más allá de una ventana de chat, estás usando una API.
Atención
Mecanismo de atención, autoatención
Modelos
El mecanismo central de los Transformers que permite a un modelo ponderar qué partes de la entrada son más relevantes entre sí. En vez de leer texto de izquierda a derecha como los modelos anteriores, attention permite que cada palabra "mire" a todas las demás palabras simultáneamente para entender el contexto.
Por qué importa: Attention es la razón por la que los LLM modernos entienden que "banco" significa cosas diferentes en "banco del río" vs. "cuenta de banco". También es la razón por la que las ventanas de contexto más grandes cuestan más — attention escala cuadráticamente con la longitud de la secuencia.
Autoregresivo
Modelo autoregresivo, predicción del siguiente token
Un modelo que genera salida un token a la vez, donde cada nuevo token se predice basándose en todos los tokens anteriores. Todo LLM moderno — Claude, GPT, Llama, Gemini — es autoregresivo.
Por qué importa: Entender la generación autoregresiva explica la mayoría de los comportamientos de los LLMs: por qué las respuestas se transmiten token por token, por qué los modelos a veces se contradicen, por qué las salidas más largas son más lentas, y por qué no puedes pedirle a un modelo que “vuelva y arregle el principio.”
Entrenamiento
Usar conocimiento aprendido de una tarea o dataset para mejorar el rendimiento en una tarea diferente pero relacionada. En lugar de entrenar desde cero cada vez, comienzas con un modelo que ya entiende patrones generales (estructura del lenguaje, características visuales) y lo adaptas a tu necesidad específica. Pre-entrenar y luego hacer fine-tuning es el paradigma dominante en la IA moderna.
Por qué importa: El aprendizaje por transferencia es la razón por la que la IA se volvió práctica. Entrenar un modelo de lenguaje desde cero cuesta millones de dólares. Hacer fine-tuning de un modelo pre-entrenado para tu tarea específica cuesta decenas de dólares y unas pocas horas. Esta economía es lo que permitió la explosión de aplicaciones de IA — no necesitas el presupuesto de Google para construir algo útil.
Aumento de Datos
Data Augmentation
Entrenamiento
Técnicas que expanden artificialmente un dataset de entrenamiento creando versiones modificadas de ejemplos existentes. Para imágenes: voltear, rotar, recortar, cambios de color. Para texto: parafraseo, traducción inversa, sustitución de sinónimos. Para audio: cambios de velocidad, inyección de ruido. El objetivo es enseñarle al modelo invariancias — un gato es un gato ya sea que la imagen esté volteada, oscurecida o recortada.
Por qué importa: El aumento de datos es la forma más barata de mejorar el rendimiento de un modelo cuando tienes datos limitados. Reduce el sobreajuste mostrando al modelo muchas variaciones de cada ejemplo, enseñándole a enfocarse en características esenciales en lugar de detalles superficiales. En visión por computadora, el aumento rutinariamente proporciona mejoras de 2–5% en exactitud de forma gratuita.
El sistema de IA en dispositivo y en la nube de Apple, integrado en iPhone, iPad y Mac. Apple Intelligence ejecuta modelos más pequeños localmente en Apple Silicon para tareas sensibles a la privacidad (reescritura de texto, resumen, generación de imágenes) y dirige solicitudes complejas a los servidores de Private Cloud Compute de Apple. También integra modelos externos (como ChatGPT) con consentimiento del usuario para tareas más allá de sus propias capacidades.
Por qué importa: Apple Intelligence representa la estrategia de IA para consumidores de la empresa más valiosa del mundo, alcanzando más de mil millones de dispositivos. Su énfasis en la privacidad (procesamiento en dispositivo, Private Cloud Compute con seguridad verificable) ofrece un modelo diferente al enfoque cloud-first de OpenAI y Google. Si Apple acierta con la IA, normaliza la IA en dispositivo para miles de millones de usuarios no técnicos.
Empresas
Una empresa israelí de IA conocida por Jamba, la primera arquitectura híbrida de grado producción que combina capas de atención Transformer con capas SSM de Mamba. AI21 fue fundada por investigadores de IA (incluyendo a Yoav Shoham) y ha estado construyendo modelos de lenguaje desde 2017, antes de ChatGPT. Sus modelos están disponibles vía API y a través de proveedores de nube.
Por qué importa: AI21 Labs importa porque Jamba demostró que las arquitecturas híbridas Transformer-SSM funcionan en la práctica, no solo en papers de investigación. Al intercalar capas de atención y Mamba, Jamba logra una ventana de contexto de 256K con menor uso de memoria que modelos Transformer puros de calidad similar. Este enfoque híbrido puede ser el futuro de la arquitectura de LLMs.
A period of reduced funding, interest, and progress in AI research following a cycle of hype and unmet expectations. There have been two major AI winters: the first from the mid-1970s to early 1980s (after expert systems failed to scale), and the second from the late 1980s to mid-1990s (after neural networks hit computational limits). Each was preceded by wild optimism and followed by disillusionment.
Why it matters: Understanding AI winters provides essential context for evaluating today's AI claims. The pattern — breakthrough, hype, overpromise, underdeliver, funding collapse — has repeated twice. Whether the current deep learning boom will follow the same pattern or break it is the most important question in AI. The best defense against another winter is honest assessment of what current systems can and can't do.
An AI system that can independently plan, decide, and execute multi-step tasks with minimal human supervision. Given a high-level goal ("research competitors and write a report"), an autonomous agent breaks it into steps, uses tools (web search, code execution, file management), handles errors, and delivers a result. The level of autonomy ranges from "ask permission at each step" to "just do it and report back."
Why it matters: Autonomous agents are the next evolution beyond chatbots and copilots. A chatbot answers questions. A copilot assists with tasks. An agent completes tasks independently. The economic potential is enormous — agents that can handle routine knowledge work (research, data analysis, customer service, code review) at a fraction of the cost and time. But reliability and safety challenges remain significant.
Atención Cruzada
Atención Encoder-Decoder
Fundamentos
Un mecanismo de atención donde las queries provienen de una secuencia y las keys/values provienen de una secuencia diferente. En modelos encoder-decoder, las queries del decoder atienden a las keys y values del encoder, permitiendo que el decoder "mire" la entrada mientras genera la salida. La atención cruzada también es cómo el texto condiciona la generación de imágenes en modelos de difusión ...
Por qué importa: La atención cruzada es el puente entre diferentes modalidades y diferentes partes de una arquitectura. Es cómo los modelos de traducción conectan idiomas de origen y destino, cómo los generadores de imágenes siguen prompts de texto, cómo los modelos multimodales relacionan imágenes con texto, y cómo los sistemas de Retrieval-Augmented incorporan documentos recuperados. Cada vez que dos entradas diferentes necesitan interactuar, la atención cruzada suele estar involucrada.
Agente Autónomo
Agente de IA, IA Agéntica
Usar AI
Un sistema de IA que puede planificar, decidir y ejecutar tareas de múltiples pasos de forma independiente con supervisión humana mínima. Dado un objetivo de alto nivel ("investiga competidores y escribe un informe"), un agente autónomo lo descompone en pasos, usa herramientas (búsqueda web, ejecución de código, gestión de archivos), maneja errores y entrega un resultado. El nivel de autonomía ...
Por qué importa: Los agentes autónomos son la siguiente evolución más allá de chatbots y copilots. Un chatbot responde preguntas. Un copilot asiste con tareas. Un agente completa tareas de forma independiente. El potencial económico es enorme — agentes que pueden manejar trabajo de conocimiento rutinario (investigación, análisis de datos, servicio al cliente, revisión de código) a una fracción del costo y tiempo. Pero los desafíos de confiabilidad y seguridad siguen siendo significativos.
Atención Dispersa
Atención Local, Atención de Ventana Deslizante
Modelos
Mecanismos de atención que procesan solo un subconjunto de pares de tokens en lugar de la matriz de atención N×N completa. La atención de ventana deslizante atiende solo a tokens cercanos (dentro de una ventana fija). Los patrones dispersos (como la combinación de atención local + global de Longformer) permiten que tokens específicos atiendan a todo mientras la mayoría atiende localmente....
Por qué importa: La atención dispersa es cómo Mistral, Mixtral y otros modelos eficientes manejan secuencias largas sin el costo completo de la atención densa. Es el compromiso práctico entre "atender a todo" (caro pero exhaustivo) y "no atender a nada distante" (barato pero limitado). Entender la atención dispersa te ayuda a evaluar afirmaciones sobre longitud de contexto y predecir dónde podría ocurrir degradación de calidad.
Aprendizaje continuo
Aprendizaje a lo largo de la vida, Aprendizaje incremental
Entrenamiento
La capacidad de un modelo para aprender de nuevos datos continuamente sin olvidar lo que aprendió antes. Los LLMs actuales se entrenan una vez y se congelan — actualizarlos requiere un reentrenamiento costoso. El aprendizaje continuo permitiría que los modelos aprendan de cada interacción, se mantengan actualizados con nueva información y se adapten a usuarios individuales con el tiempo, de la manera en que los humanos aprenden naturalmente.
Por qué importa: El aprendizaje continuo es uno de los grandes problemas no resueltos de la IA. Los modelos actuales tienen fechas de corte de conocimiento, no pueden aprender de correcciones y tratan cada conversación como una pizarra en blanco. Resolver el aprendizaje continuo eliminaría la necesidad de ciclos de reentrenamiento costosos, permitiría una IA personalizada que genuinamente se adapte a cada usuario y permitiría que los modelos se mantengan perpetuamente actualizados.
Entrenamiento
Una estrategia de entrenamiento que presenta ejemplos en un orden significativo — típicamente de fácil a difícil — en lugar de aleatoriamente. Como enseñarle a un estudiante aritmética antes de cálculo, el aprendizaje curricular le da al modelo los patrones fundamentales primero y construye complejidad gradualmente. Esto puede llevar a una convergencia más rápida y a veces a un mejor rendimiento final.
Por qué importa: El aprendizaje curricular es una técnica subestimada que puede mejorar la eficiencia del entrenamiento sin cambiar el modelo ni los datos. El preentrenamiento de LLMs cada vez más usa programación de datos — mostrando datos más limpios y de mayor calidad en las etapas finales del entrenamiento — lo cual es una forma de aprendizaje curricular. El orden en que presentas los datos importa, no solo los datos en sí.
Abierto vs. cerrado
Open Source vs. Propietario, Debate de pesos abiertos
Fundamentos
El debate en curso sobre si los modelos de IA deberían publicarse abiertamente (pesos disponibles públicamente, como Llama y Mistral) o mantenerse propietarios (disponibles solo vía API, como Claude y GPT). Los defensores de lo abierto argumentan a favor de la transparencia, la competencia y la democratización. Los defensores de lo cerrado argumentan a favor de la seguridad, el despliegue responsable y la prevención del mal uso. La realidad es un espectro: los modelos verdaderamente "open source" (con datos de entrenamiento y código) son raros; la mayoría de los modelos "abiertos" son de pesos abiertos.
Por qué importa: Este debate moldea el futuro de la IA. Si gana lo cerrado, unas pocas empresas controlan el acceso a la tecnología más poderosa del siglo. Si gana lo abierto, la IA poderosa está disponible para todos — incluidos quienes la usarían mal. La mayoría de los profesionales usan ambos: APIs propietarias para producción (confiabilidad, soporte) y modelos abiertos para experimentación, privacidad y control de costos. Entender las compensaciones te ayuda a elegir.
Anotación
Etiquetado de datos, Anotación de datos
Entrenamiento
El proceso de agregar etiquetas, marcas o metadatos a datos sin procesar para que puedan usarse para aprendizaje supervisado. Anotar imágenes significa dibujar cajas delimitadoras alrededor de objetos. Anotar texto significa etiquetar entidades, sentimiento o intención. Anotar para RLHF significa clasificar respuestas del modelo por calidad. La anotación es el trabajo humano que convierte datos sin procesar en datos de entrenamiento.
Por qué importa: La anotación es la base poco glamorosa de la IA supervisada. Cada dataset etiquetado, cada modelo fine-tuneado, cada asistente alineado depende de anotadores humanos que pasaron horas etiquetando datos correctamente. La calidad de las anotaciones determina directamente la calidad del modelo — el etiquetado inconsistente o sesgado produce modelos inconsistentes y sesgados. Es la parte más intensiva en mano de obra y a menudo la más costosa de construir sistemas de IA.
Aprendizaje federado
FL, Aprendizaje colaborativo
Entrenamiento
Un enfoque de entrenamiento donde el modelo se entrena a través de múltiples dispositivos u organizaciones sin compartir los datos sin procesar. En lugar de enviar datos a un servidor central, cada participante entrena una copia local del modelo con sus propios datos y envía solo las actualizaciones del modelo (gradientes) a un coordinador central. El coordinador agrega las actualizaciones de todos los participantes para mejorar el modelo global.
Por qué importa: El aprendizaje federado permite el entrenamiento de IA con datos que no pueden centralizarse debido a la privacidad, la regulación o preocupaciones competitivas. Los hospitales pueden entrenar colaborativamente un modelo de diagnóstico sin compartir registros de pacientes. Las empresas pueden mejorar un modelo compartido sin exponer datos propietarios. Es el enfoque más práctico para el entrenamiento de IA que preserva la privacidad a escala.
The convolutional neural network that won the 2012 ImageNet competition by a massive margin, triggering the deep learning revolution. Created by Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton, AlexNet reduced the image classification error rate from 26% to 16% — a gap so large it convinced the computer vision community that deep learning was fundamentally superior to hand-engineered features.
Why it matters: AlexNet is the "before and after" moment in AI history. Before 2012, most AI researchers worked on feature engineering and non-neural methods. After AlexNet, deep learning became the dominant paradigm. Every modern AI system — GPT, Claude, Stable Diffusion — traces its lineage to the paradigm shift that AlexNet triggered. It's the Big Bang of modern AI.
Atención multi-cabeza
Multi-Head Attention, MHA
Fundamentos
Ejecutar múltiples operaciones de atención en paralelo, cada una con su propia proyección aprendida de las queries, keys y values. En lugar de una función de atención que mira la dimensión completa del modelo, la atención multi-cabeza divide la dimensión en múltiples "cabezas" (por ejemplo, 32 cabezas de 128 dimensiones cada una para un modelo de 4096 dimensiones). Cada cabeza puede enfocarse en diferentes tipos de relaciones simultáneamente.
Por qué importa: La atención multi-cabeza es la razón por la que los Transformers son tan expresivos. Una cabeza puede enfocarse en relaciones sintácticas (sujeto-verbo), otra en patrones posicionales (palabras cercanas), otra en similitud semántica. Esta especialización paralela permite al modelo capturar muchos tipos de dependencias simultáneamente, algo que una sola cabeza de atención no puede hacer con la misma eficacia.
Auto-atención
Self-Attention, Scaled Dot-Product Attention
Fundamentos
Un mecanismo de atención donde una secuencia atiende a sí misma — cada token calcula su relevancia con respecto a cada otro token en la misma secuencia. Las queries, keys y values provienen todas de la misma entrada. Esto permite que cada token recopile información de todos los demás tokens, ponderada por relevancia. La auto-atención es la operación central en cada capa de Transformer.
Por qué importa: La auto-atención es lo que hace funcionar a los Transformers. Reemplazó el procesamiento secuencial de las RNN con conexiones paralelas y directas entre todas las posiciones. La palabra "banco" en "banco del río" atiende a "río" para resolver su significado, sin importar qué tan separadas estén. Esta capacidad de conectar directamente cualquier par de posiciones es la razón por la que los Transformers manejan tan bien las dependencias de largo alcance.
Autoencoder disperso
Sparse Autoencoder, SAE
Modelos
Una red neuronal entrenada para reconstruir las activaciones internas de un modelo a través de un cuello de botella con restricción de dispersión — solo unas pocas características pueden estar activas a la vez. Las características aprendidas a menudo corresponden a conceptos interpretables (temas específicos, patrones lingüísticos, estrategias de razonamiento), convirtiendo a los SAE en la herramienta principal para desenredar las características superpuestas dentro de los modelos de lenguaje grandes.
Por qué importa: Los autoencoders dispersos son el microscopio de la interpretabilidad mecanicista. Los LLMs empaquetan miles de características en cada capa mediante superposición, haciendo que las neuronas individuales sean ininterpretables. Los SAE descomponen estas representaciones superpuestas en características individuales e interpretables. Anthropic usó SAEs para identificar millones de características en Claude, incluyendo características de engaño, conceptos específicos y comportamientos relevantes para la seguridad.
Modelos
La red neuronal convolucional que ganó la competencia ImageNet de 2012 por un margen masivo, desencadenando la revolución del deep learning. Creada por Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton, AlexNet redujo la tasa de error de clasificación de imágenes del 26% al 16% — una brecha tan grande que convenció a la comunidad de visión por computadora de que el deep learning era fundamentalmente superior a las características diseñadas a mano.
Por qué importa: AlexNet es el momento de "antes y después" en la historia de la IA. Antes de 2012, la mayoría de los investigadores de IA trabajaban en ingeniería de características y métodos no neuronales. Después de AlexNet, el deep learning se convirtió en el paradigma dominante. Cada sistema de IA moderno — GPT, Claude, Stable Diffusion — tiene su linaje en el cambio de paradigma que AlexNet desencadenó. Es el Big Bang de la IA moderna.
Aprendizaje contrastivo
Contrastive Learning, SimCLR, InfoNCE
Entrenamiento
Un enfoque de aprendizaje auto-supervisado que entrena modelos contrastando pares positivos (elementos similares que deben estar cerca en el espacio de embeddings) contra pares negativos (elementos disímiles que deben estar lejos). CLIP contrasta pares imagen-texto coincidentes contra no coincidentes. SimCLR contrasta vistas aumentadas de la misma imagen contra vistas de imágenes diferentes. El modelo aprende representaciones donde la similitud en el espacio de embeddings refleja la similitud del mundo real.
Por qué importa: El aprendizaje contrastivo es cómo se entrenan la mayoría de los modelos de embedding — los modelos que alimentan la búsqueda semántica, RAG y las recomendaciones. También es el enfoque de entrenamiento detrás de CLIP, que conecta lenguaje y visión. Cada vez que usas embeddings para medir similitud, el aprendizaje contrastivo es probablemente cómo esos embeddings fueron creados.
Adam Optimizer
Adam, AdamW
The most widely used optimization algorithm for training neural networks. Adam (Adaptive Moment Estimation) combines momentum (using a running average of past gradients) with adaptive learning rates (scaling updates by the inverse of past gradient magnitudes). AdamW adds decoupled weight decay for better regularization. Nearly every modern LLM is trained with AdamW.
Why it matters: Adam works well across a wide range of tasks and hyperparameters, making it the default optimizer. Understanding it explains why training "just works" most of the time (Adam adapts per-parameter) and why it sometimes doesn't (Adam's memory requirements are 2x the model's parameters, which matters for large models). It's also the answer to "which optimizer should I use?" in 90% of cases.
AI Observability
LLM Monitoring, AI Tracing, LLMOps
Monitoring and understanding the behavior of AI systems in production — tracking inputs, outputs, latency, costs, errors, and quality metrics in real-time. AI observability is like application monitoring (Datadog, New Relic) but specialized for AI: tracing prompt-response pairs, detecting quality degradation, monitoring for hallucinations, and alerting on anomalous behavior.
Why it matters: Deploying an AI system without observability is like flying blind. You don't know if the model is hallucinating more than usual, if latency is creeping up, if a specific type of query is failing, or if costs are spiking. AI observability turns "it seems to work" into "we know it works, and we know when it doesn't." It's the difference between a demo and a production system.
AWS Bedrock
Amazon Bedrock
Amazon Web Services' managed platform for accessing and deploying foundation models from multiple providers (Anthropic, Meta, Mistral, Cohere, Stability AI, Amazon's own Titan models) through a unified API. Bedrock handles model hosting, scaling, and fine-tuning, letting enterprises use AI without managing GPU infrastructure. It also provides guardrails, knowledge bases (RAG), and agent capabilities.
Why it matters: AWS Bedrock is how most Fortune 500 companies access AI models. Its multi-model approach lets enterprises compare and switch between providers (Claude, Llama, Mistral) through a single API, avoiding vendor lock-in. For companies already on AWS (which is most large companies), Bedrock is the path of least resistance for AI adoption — same account, same billing, same compliance frameworks.
Análisis de Sentimiento
Minería de Opinión
Uso de IA
Determinar automáticamente el tono emocional de un texto — positivo, negativo o neutro. "¡Este producto es increíble!" es positivo. "Pésimo servicio al cliente" es negativo. Más allá de la simple polaridad, el análisis de sentimiento avanzado detecta emociones específicas (enojo, alegría, frustración), sentimiento a nivel de aspecto ("la comida estuvo genial pero el servicio fue lento") y sarcasmo.
Por qué importa: El análisis de sentimiento es una de las aplicaciones de NLP más desplegadas comercialmente. Las empresas lo usan para monitorear la percepción de marca en redes sociales, analizar reseñas de clientes a escala, medir la satisfacción de empleados en encuestas y detectar crisis de relaciones públicas emergentes. También es un punto de entrada común para aprender NLP — una tarea de clasificación simple e intuitiva con abundantes datos de entrenamiento.
Ajuste de Hiperparámetros
HPO, Optimización de Hiperparámetros, Grid Search
Entrenamiento
Buscar sistemáticamente los mejores hiperparámetros — las opciones de configuración que no se aprenden durante el entrenamiento sino que deben establecerse antes de que comience. Tasa de aprendizaje, tamaño de batch, número de capas, tasa de dropout y rango de LoRA son todos hiperparámetros. Los métodos de ajuste incluyen grid search (probar todas las combinaciones), random search (probar combinaciones aleatorias) y optimización bayesiana (usar resultados pasados para guiar la búsqueda).
Por qué importa: La diferencia entre un buen y mal conjunto de hiperparámetros puede ser enorme — una tasa de aprendizaje incorrecta puede hacer que el entrenamiento diverja o converja a una solución pobre. El ajuste de hiperparámetros es cómo sacas el máximo provecho de tu arquitectura de modelo y datos. Para ajustar LLMs, la tasa de aprendizaje y el número de épocas son típicamente los hiperparámetros más impactantes para ajustar.
AWS Bedrock
Amazon Bedrock
Empresas
La plataforma gestionada de Amazon Web Services para acceder y desplegar modelos de fundamento de múltiples proveedores (Anthropic, Meta, Mistral, Cohere, Stability AI, los propios modelos Titan de Amazon) a través de una API unificada. Bedrock maneja el hosting del modelo, escalado y ajuste fino, permitiendo a las empresas usar IA sin gestionar infraestructura de GPU. También proporciona guardrails, bases de conocimiento (RAG) y capacidades de agentes.
Por qué importa: AWS Bedrock es cómo la mayoría de las empresas Fortune 500 acceden a modelos de IA. Su enfoque multi-modelo permite a las empresas comparar y cambiar entre proveedores (Claude, Llama, Mistral) a través de una sola API, evitando el vendor lock-in. Para empresas ya en AWS (que son la mayoría de empresas grandes), Bedrock es el camino de menor resistencia para la adopción de IA — misma cuenta, misma facturación, mismos frameworks de cumplimiento.
B
Bria
Datos de entrenamiento licenciados, generación de imágenes empresarial
Empresas
Empresa israelí de IA que construyó sus modelos de generación de imágenes exclusivamente con datos de entrenamiento licenciados y atribuidos. Se posiciona como la opción segura para empresas que necesitan imágenes generadas por IA sin riesgo de derechos de autor.
Por qué importa: Bria es el caso de prueba más prominente sobre si la generación de imágenes con IA puede construirse sobre datos de entrenamiento completamente licenciados y aún así competir comercialmente. En una industria que enfrenta una avalancha de litigios por derechos de autor, su enfoque ofrece a las empresas un camino para adoptar IA generativa sin exposición legal — una propuesta de valor que se vuelve más convincente con cada nueva demanda presentada contra competidores. Si Bria tiene éxito, valida toda una filosofía de desarrollo responsable de IA; si tiene dificultades, sugiere que el mercado en última instancia no se preocupa lo suficiente por la procedencia de los datos como para pagar un premium por ella.
ByteDance
Doubao, TikTok, recomendaciones impulsadas por IA
Empresas
Empresa matriz de TikTok y una de las empresas tecnológicas más valiosas del mundo. Su laboratorio de IA construye la familia de modelos Doubao y potencia algoritmos de recomendación que sirven a más de mil millones de usuarios diarios.
Por qué importa: ByteDance es la empresa de tecnología privada más valiosa del mundo y despliega IA a una escala que pocas organizaciones pueden igualar, sirviendo a más de mil millones de usuarios diarios a través de TikTok, Douyin y una suite creciente de productos impulsados por IA. Su familia de modelos Doubao y la plataforma de nube Volcano Engine los convierten en un participante formidable en la carrera de modelos fundacionales, respaldados por algo con lo que la mayoría de las startups de IA solo pueden soñar: un negocio central masivo y rentable y distribución incorporada a más de mil millones de usuarios.
Black Forest Labs
Modelos FLUX.1
Empresas
Fundada por los creadores originales de Stable Diffusion tras dejar Stability AI. Sus modelos FLUX rápidamente se convirtieron en el nuevo estándar para la generación de imágenes de código abierto, superando la calidad de los modelos que dejaron atrás.
Por qué importa: Black Forest Labs representa el mejor escenario posible para la IA de código abierto: los arquitectos originales de Stable Diffusion empezando de cero con mejor tecnología, estrategia de negocio más inteligente y la confianza de la comunidad creativa. FLUX.1 no solo iteró sobre Stable Diffusion — lo superó de un salto, y el modelo de licenciamiento escalonado que pioneraron se está convirtiendo en el plan maestro de cómo las empresas de IA equilibran apertura con ingresos.
Entrenamiento
Una prueba estandarizada usada para evaluar y comparar modelos de IA. Los benchmarks miden capacidades específicas — razonamiento (ARC), matemáticas (GSM8K), programación (HumanEval), conocimiento general (MMLU) — y producen puntajes que se pueden comparar entre modelos.
Por qué importa: Los benchmarks son cómo la industria lleva el marcador, pero son imperfectos. Los modelos pueden ser entrenados para dominar benchmarks sin ser genuinamente mejores. El rendimiento en el mundo real a menudo cuenta una historia diferente. Trátalos como señales, no como verdad.
Seguridad
Patrones sistemáticos en las salidas de IA que reflejan o amplifican los prejuicios sociales presentes en los datos de entrenamiento. El sesgo puede aparecer en generación de texto, creación de imágenes, herramientas de contratación y en cualquier lugar donde los modelos tomen decisiones que afectan a las personas de manera diferente.
Por qué importa: Si los datos de entrenamiento dicen que las enfermeras son mujeres y los ingenieros son hombres, el modelo perpetuará eso. El sesgo no siempre es obvio — se esconde en asociaciones de palabras, suposiciones por defecto y en quién queda representado.
BERT
Bidirectional Encoder Representations from Transformers
Modelos
Un modelo basado en Transformer de Google (2018) que revolucionó el NLP al introducir pre-entrenamiento bidireccional — cada token puede atender a todos los demás tokens, dando al modelo una comprensión contextual profunda. BERT es un modelo solo-encoder: destaca en la comprensión de texto (clasificación, búsqueda, NER) pero no puede generar texto como GPT o Claude.
Por qué importa: BERT es el paper de NLP más influyente de la era moderna. Demostró que pre-entrenar con texto sin etiquetar y luego hacer fine-tuning en tareas específicas podía aplastar cada benchmark existente. Aunque los LLMs han robado los reflectores, los modelos tipo BERT siguen impulsando la mayoría de los motores de búsqueda en producción, sistemas de embeddings y pipelines de clasificación porque son más pequeños, rápidos y baratos que los LLMs para tareas no generativas.
BLEU y ROUGE
Puntuación BLEU, Puntuación ROUGE
Fundamentos
Métricas clásicas para evaluar la calidad de generación de texto comparando la salida del modelo con textos de referencia. BLEU (Bilingual Evaluation Understudy) mide cuántos n-gramas del texto generado aparecen en la referencia — diseñado originalmente para traducción automática. ROUGE (Recall-Oriented Understudy for Gisting Evaluation) mide cuántos n-gramas de la referencia aparecen en el texto generado — diseñado para resúmenes.
Por qué importa: BLEU y ROUGE fueron las métricas de evaluación estándar para NLP durante más de una década y todavía se usan ampliamente. Entenderlas — y sus limitaciones — te ayuda a evaluar afirmaciones de investigación en NLP y a comprender por qué el campo se está moviendo hacia la evaluación humana y la evaluación basada en modelos. Una puntuación BLEU alta no garantiza calidad; una puntuación BLEU baja no garantiza fracaso.
Benchmarks de IA
MMLU, HumanEval, ARC, HellaSwag
Fundamentos
Pruebas estandarizadas usadas para medir y comparar las capacidades de los modelos de IA. MMLU evalúa conocimiento en 57 materias académicas. HumanEval evalúa la generación de código. ARC evalúa el razonamiento científico. HellaSwag evalúa el razonamiento de sentido común. GSM8K evalúa matemáticas. Las puntuaciones de benchmarks proporcionan un lenguaje común para comparar modelos, aunque tienen limitaciones significativas.
Por qué importa: Los benchmarks son cómo la industria lleva la cuenta. Cuando Anthropic dice que Claude obtiene X% en MMLU y Y% en HumanEval, esos números solo significan algo si sabes qué evalúan los benchmarks, cómo se puntúan y cuáles son sus limitaciones. Entender los benchmarks te ayuda a separar las afirmaciones de marketing y evaluar qué modelo es realmente el mejor para tu caso de uso específico.
BPE
Byte Pair Encoding, Subword Tokenization
The most common algorithm for building tokenizer vocabularies. BPE starts with individual bytes or characters and iteratively merges the most frequent adjacent pair into a new token. After thousands of merges, common words become single tokens ("the," "function") while rare words are split into subword pieces ("un" + "common"). Used by GPT, Claude, Llama, and most modern LLMs.
Why it matters: BPE is the reason your tokenizer works the way it does. It explains why common words are cheap (one token), why rare words are expensive (many tokens), and why non-English text costs more (fewer merges allocated to non-English character pairs). Understanding BPE helps you predict token counts, optimize prompts, and understand why different tokenizers produce different results for the same text.
Backpropagation
Backprop, Backward Pass
The algorithm that computes how much each parameter in a neural network contributed to the error, enabling gradient descent to update parameters efficiently. Backpropagation applies the chain rule of calculus in reverse through the network: starting from the loss at the output, it propagates gradients backward through each layer to determine each weight's share of the blame.
Why it matters: Backpropagation is the algorithm that makes neural network training possible. Without an efficient way to compute gradients for billions of parameters, gradient descent would be computationally infeasible. Every model you use — from a small classifier to a 400B LLM — was trained using backpropagation. It's the single most important algorithm in deep learning.
BPE
Byte Pair Encoding, Tokenización por subpalabras
Fundamentos
El algoritmo más común para construir vocabularios de tokenizadores. BPE comienza con bytes o caracteres individuales y fusiona iterativamente el par adyacente más frecuente en un nuevo token. Después de miles de fusiones, las palabras comunes se convierten en tokens únicos ("the", "function") mientras que las palabras raras se dividen en piezas de subpalabras ("un" + "common"). Utilizado por GPT, Claude, Llama y la mayoría de los LLMs modernos.
Por qué importa: BPE es la razón por la que tu tokenizador funciona como lo hace. Explica por qué las palabras comunes son baratas (un token), por qué las palabras raras son caras (muchos tokens) y por qué el texto que no es en inglés cuesta más (menos fusiones asignadas a pares de caracteres no ingleses). Entender BPE te ayuda a predecir conteos de tokens, optimizar prompts y comprender por qué diferentes tokenizadores producen resultados diferentes para el mismo texto.
Búsqueda beam
Beam Search
Fundamentos
Una estrategia de decodificación que mantiene múltiples secuencias candidatas (el "beam") simultáneamente, expandiendo cada una por un token en cada paso y conservando solo los candidatos con mayor puntuación. A diferencia de la decodificación greedy (siempre elegir el mejor siguiente token) o el muestreo (elegir aleatoriamente), beam search explora múltiples caminos y encuentra la secuencia con la mayor probabilidad general. Comúnmente usado para traducción y resumen.
Por qué importa: Beam search demuestra que la mejor opción local no siempre es la mejor global. La decodificación greedy podría elegir "The" como primera palabra cuando "In" llevaría a una oración mucho mejor en general. Al mantener múltiples candidatos, beam search evita comprometerse demasiado pronto. Sin embargo, para generación abierta (chat, escritura creativa), el muestreo produce texto más diverso y natural que beam search.
C
Visión por computadora
Visión artificial, visión por máquina
Fundamentos
El campo de la IA enfocado en permitir que las máquinas interpreten y entiendan información visual del mundo — imágenes, video, escenas 3D y documentos. La visión por computadora potencia todo, desde reconocimiento facial y conducción autónoma hasta imágenes médicas y generación de imágenes con IA. Las tareas centrales incluyen detección de objetos, clasificación de imágenes, segmentación, OCR y estimación de pose.
Por qué importa: La visión por computadora fue la primera área donde el deep learning superó claramente el rendimiento humano (ImageNet 2012), y sigue siendo una de las aplicaciones de IA con mayor impacto comercial. Cada imagen o video generado por IA, cada documento que procesas con OCR, cada cámara de seguridad con detección inteligente — todo es visión por computadora.
Moderación de contenido
Moderación con IA, Trust & Safety
Seguridad
Usar IA para detectar y filtrar contenido dañino, ilegal o que viola políticas a escala. Esto incluye clasificación de texto (discurso de odio, spam, amenazas), análisis de imágenes (detección NSFW, CSAM), y moderación de video. Los sistemas modernos combinan clasificadores de IA con revisión humana, pero el volumen de contenido generado por la propia IA está creando una crisis de moderación — ahora necesitas IA para moderar IA.
Por qué importa: Toda plataforma con contenido generado por usuarios necesita moderación, y la IA es la única forma de manejar la escala. Pero la moderación es más difícil de lo que parece — el contexto importa, las normas culturales difieren, y los falsos positivos silencian el discurso legítimo mientras los falsos negativos dejan pasar el daño.
Cartesia
Sonic, modelos de voz basados en SSM
Empresas
Startup de IA de voz construida sobre la arquitectura de state space model (SSM) en lugar de transformers. Sus modelos Sonic logran generación de voz con latencia ultra baja, haciendo que la IA conversacional en tiempo real se sienta genuinamente natural por primera vez.
Por qué importa: Cartesia importa porque demostraron que los state space models no son solo una curiosidad de investigación sino una arquitectura comercialmente viable para IA de voz en tiempo real. Su latencia por debajo de 100 milisegundos hace posible una IA conversacional genuinamente natural por primera vez, cerrando la brecha entre "hablar con un bot" y "hablar con una persona". A medida que la industria se mueve hacia agentes de IA orientados a la voz, la ventaja arquitectónica de Cartesia en velocidad de streaming podría convertirlos en la capa de infraestructura sobre la que todos los demás construyan.
Cohere
Command, Embed, Rerank
Empresas
Empresa de IA enfocada en empresas, cofundada por Aidan Gomez, uno de los coautores del paper original del Transformer "Attention Is All You Need". Se especializa en modelos optimizados para casos de uso empresarial, RAG y soporte multilingüe.
Por qué importa: Cohere representa el caso de prueba más claro de si una empresa de IA enfocada y empresarial puede prosperar de forma independiente en una era dominada por hyperscalers de billones de dólares y laboratorios de frontera orientados al consumidor. Su linaje del paper del Transformer les da credibilidad técnica genuina, su flexibilidad de despliegue resuelve un dolor real para industrias reguladas, y sus modelos de embedding y rerank se han convertido en herramientas indispensables para sistemas RAG en producción en todo el mundo. Si el futuro de la IA se trata menos de chatbots y más de infraestructura tejida en cada flujo de trabajo empresarial, Cohere está posicionada para importar enormemente.
Una técnica de prompting donde le pides al modelo que muestre su razonamiento paso a paso antes de dar una respuesta final. En vez de saltar a una conclusión, el modelo "piensa en voz alta", lo que mejora dramáticamente la precisión en tareas complejas.
Por qué importa: Pedir "explica tu razonamiento" no es solo para transparencia — realmente hace a los modelos más inteligentes. CoT redujo los errores matemáticos hasta un 50% en estudios tempranos. La mayoría de los modelos modernos ahora hacen esto internamente.
Ventana de contexto
Longitud de contexto
Usar AI
La cantidad máxima de texto (medida en tokens) que un modelo puede procesar en una sola conversación. Esto incluye tanto tu entrada como la salida del modelo. Si un modelo tiene una ventana de contexto de 200K, eso es aproximadamente 150,000 palabras — alrededor de dos novelas.
Por qué importa: El tamaño de la ventana de contexto determina lo que puedes hacer. ¿Resumир todo un codebase? Necesita contexto grande. ¿Pregunta-respuesta rápida? Pequeño está bien. Pero más grande no siempre es mejor — los modelos pueden perder el foco en contextos muy largos.
Corpus
Conjunto de datos, datos de entrenamiento
Entrenamiento
El cuerpo de texto (u otros datos) usado para entrenar un modelo. Un corpus puede ir desde colecciones curadas de libros y papers hasta scrapes masivos de todo el internet. La calidad y composición del corpus moldea fundamentalmente lo que el modelo sabe y cómo se comporta.
Por qué importa: Basura entra, basura sale. Un modelo entrenado con Reddit habla diferente que uno entrenado con papers científicos. Por eso curamos nuestro propio corpus para Sarah — los web crawls genéricos producían resultados confusos e incoherentes.
Chatbot
Asistente IA
Interfaz de software para interacción conversacional con IA. Los chatbots modernos (Claude, ChatGPT, Gemini) están potenciados por LLMs y manejan diálogo abierto, código, imágenes y herramientas.
Por qué importa: La forma principal en que la mayoría de la gente interactúa con IA. El chatbot es un producto construido sobre el modelo, no el modelo en sí.
Editor de código nativo de IA (fork de VS Code). Integración profunda con LLMs: generación inline, edición multi-archivo, contexto del codebase completo.
Por qué importa: La apuesta de que la IA cambia fundamentalmente cómo se escribe código. Adopción rápida, ganancias de productividad tangibles.
Clasificación
Clasificador, Categorización
Fundamentos
La tarea de asignar una entrada a una de un conjunto predefinido de categorías. "¿Este correo es spam o no?" (clasificación binaria). "¿Esta imagen es un gato, un perro o un pájaro?" (multi-clase). "¿Cuáles de estas etiquetas aplican a este artículo?" (multi-etiqueta). La clasificación es la tarea de aprendizaje supervisado más común y la base de incontables aplicaciones reales de IA.
Por qué importa: La clasificación es donde la mayoría de las personas se encuentran por primera vez con el machine learning en la práctica — filtros de spam, moderación de contenido, diagnóstico médico, detección de fraude, análisis de sentimiento. Entender la clasificación te ayuda a comprender toda la pipeline de aprendizaje supervisado: datos etiquetados entran, modelo entrenado, predicciones salen.
CNN
Red Neuronal Convolucional, ConvNet
Modelos
Una arquitectura de red neuronal diseñada para procesar datos con estructura de cuadrícula (imágenes, espectrogramas de audio) deslizando pequeños filtros (kernels) sobre la entrada para detectar patrones locales como bordes, texturas y formas. Las CNNs dominaron la visión por computadora desde 2012 (AlexNet) hasta que los Vision Transformers surgieron alrededor de 2020. Siguen siendo ampliamente usadas en producción, especialmente en dispositivos edge.
Por qué importa: Las CNNs iniciaron la revolución del deep learning. La victoria de AlexNet en ImageNet en 2012 demostró que las redes neuronales profundas podían superar dramáticamente las características diseñadas a mano, desencadenando el boom actual de la IA. Entender las CNNs te ayuda a entender por qué los Transformers funcionan (muchas de las mismas ideas — características jerárquicas, compartición de parámetros — aplican), y las CNNs siguen siendo la mejor opción para muchas tareas de visión en dispositivos con recursos limitados.
Codificación Posicional
Positional Embedding, RoPE, ALiBi
Fundamentos
Un mecanismo que le dice a un modelo Transformer el orden de los tokens en una secuencia. A diferencia de los RNNs que procesan tokens secuencialmente (así que la posición es implícita), los Transformers procesan todos los tokens en paralelo y no tienen sentido inherente del orden. Las codificaciones posicionales inyectan información de posición para que el modelo sepa que "el perro muerde al hombre" y "el hombre muerde al perro" son diferentes.
Por qué importa: Sin información posicional, un Transformer trata una oración como una bolsa de palabras — el orden de las palabras se pierde. La elección de codificación posicional también determina qué tan bien un modelo maneja secuencias más largas que las vistas durante el entrenamiento, por lo que técnicas como RoPE y ALiBi son críticas para modelos de contexto largo.
Contaminación
Contaminación de Datos, Filtración de Benchmarks
Fundamentos
Cuando los datos de prueba de un benchmark aparecen en los datos de entrenamiento de un modelo, inflando sus puntuaciones sin reflejar capacidad genuina. Si un modelo "estudió la hoja de respuestas" al ver las preguntas de prueba durante el entrenamiento, su rendimiento en el benchmark no tiene sentido. La contaminación es un problema creciente a medida que los datasets de entrenamiento crecen y rastrean más de internet, donde los datos de benchmarks frecuentemente están publicados.
Por qué importa: La contaminación socava todo el sistema de benchmarks que la industria de IA usa para comparar modelos. Un modelo que obtiene 90% en MMLU porque memorizó las respuestas no es más inteligente que uno que obtiene 80% y nunca las vio. A medida que más benchmarks se filtran en los datos de entrenamiento, la comunidad se ve forzada a crear nuevos benchmarks constantemente, y las evaluaciones privadas retenidas se vuelven más importantes que las tablas de clasificación públicas.
Chatbot Arena
LMSYS Arena, Rankings ELO
Fundamentos
Una plataforma de crowdsourcing (de LMSYS) donde los usuarios chatean con dos modelos de IA anónimos lado a lado y votan cuál respuesta es mejor. Los resultados se usan para calcular ratings ELO — el mismo sistema de clasificación usado en ajedrez — creando una tabla de clasificación continuamente actualizada de calidad de modelos basada en preferencias humanas reales en lugar de benchmarks automatizados.
Por qué importa: Chatbot Arena es posiblemente la comparación de modelos más confiable hoy porque es resistente a la contaminación (las preguntas son nuevas), refleja preferencias reales de usuarios (no benchmarks sintéticos) y enfrenta modelos cara a cara (la comparación relativa es más fiable que las puntuaciones absolutas). Cuando la gente dice "Claude es mejor que GPT para programación" o viceversa, los rankings de Arena son frecuentemente la evidencia.
Cerebras
Cerebras Systems, WSE
Empresas
Una empresa de chips que construye procesadores de IA a escala de oblea — chips del tamaño de toda una oblea de silicio, más de 100 veces más grandes que una GPU estándar. El Cerebras WSE-3 (Wafer Scale Engine) contiene 4 billones de transistores y 900,000 núcleos. Sus sistemas CS-3 están diseñados tanto para entrenamiento como para inferencia, ofreciendo una alternativa a clústers de miles de GPUs individuales.
Por qué importa: Cerebras representa el replanteamiento más radical del hardware de IA. En lugar de conectar miles de chips pequeños con ancho de banda limitado, ponen todo en un chip masivo con enorme ancho de banda de memoria en chip. La ventaja potencial es eliminar el cuello de botella de comunicación que limita el entrenamiento multi-GPU. Si la computación a escala de oblea puede competir con el enorme ecosistema de NVIDIA es la pregunta del billón de dólares.
An attention mechanism where the queries come from one sequence and the keys/values come from a different sequence. In encoder-decoder models, the decoder's queries attend to the encoder's keys and values, allowing the decoder to "look at" the input while generating the output. Cross-attention is also how text conditions image generation in diffusion models — the image generation process attends to the text prompt.
Why it matters: Cross-attention is the bridge between different modalities and different parts of an architecture. It's how translation models connect source and target languages, how image generators follow text prompts, how multimodal models relate images to text, and how Retrieval-Augmented systems incorporate retrieved documents. Any time two different inputs need to interact, cross-attention is usually involved.
Techniques that enable language models to handle sequences longer than those seen during training. A model trained on 4K tokens can be extended to 32K or 128K through modifications to its positional encoding (typically RoPE) combined with short fine-tuning on longer sequences. This avoids the enormous cost of training from scratch on long sequences.
Why it matters: Context length extension is why models have gone from 4K to 128K to 1M+ context windows in just two years. The cost of training a model from scratch on million-token sequences would be prohibitive. Extension techniques make long-context models practical by adapting models that were trained on shorter sequences, requiring only a fraction of the original training compute.
Colapso de Modelo
Bucle de Retroalimentación de Datos
Entrenamiento
La degradación que ocurre cuando los modelos de IA se entrenan con datos generados por modelos de IA anteriores, creando un bucle de retroalimentación donde los errores y sesgos se acumulan a lo largo de las generaciones. Cada generación pierde algo de diversidad y amplifica algunos artefactos de la anterior, produciendo eventualmente modelos que generan salidas repetitivas, genéricas o distors...
Por qué importa: El colapso de modelo es la bomba de tiempo de la era del contenido generado por IA. A medida que internet se llena de texto generado por IA (estimado en un 10–50% del nuevo contenido web), los futuros modelos entrenados con scrapes web inevitablemente ingerirán salidas de IA. Si esto no se gestiona cuidadosamente, la calidad de los modelos podría estancarse o degradarse. Por eso la curación de datos y el seguimiento de procedencia se están convirtiendo en infraestructura crítica.
Capa
Capa oculta, Capa de red neuronal
Fundamentos
Un grupo de neuronas que procesa datos en un nivel específico de abstracción dentro de una red neuronal. La capa de entrada recibe datos sin procesar. Las capas ocultas (las intermedias) aprenden representaciones cada vez más abstractas. La capa de salida produce el resultado final. El aprendizaje "profundo" (deep learning) significa muchas capas ocultas — los LLMs modernos tienen de 32 a más de 128 capas.
Por qué importa: Las capas crean la jerarquía que hace poderoso al deep learning. Las capas tempranas aprenden patrones simples (bordes en imágenes, fragmentos de palabras en texto). Las capas intermedias combinan estos en conceptos (rostros, frases). Las capas profundas combinan conceptos en comprensión de alto nivel (reconocimiento de escenas, razonamiento). La profundidad de una red determina la complejidad de los patrones que puede aprender.
Característica
Representación aprendida, Activación
Fundamentos
Un patrón o concepto que una red neuronal aprende a detectar en su entrada. En visión, las características de las capas tempranas son bordes y texturas; las de las capas posteriores son partes de objetos y objetos completos. En modelos de lenguaje, las características van desde las simples (la letra "a", un patrón sintáctico específico) hasta las abstractas (el concepto de sarcasmo, una estrategia de razonamiento particular). Las características se representan como patrones de activación a lo largo de las neuronas.
Por qué importa: Las características son lo que los modelos realmente aprenden — no hechos individuales sino patrones que generalizan. Un modelo no memoriza "los gatos tienen pelo"; aprende un detector de características para texturas similares al pelo que se activa para gatos, perros y osos de peluche. Entender las características ayuda a explicar el comportamiento del modelo: por qué generaliza (las características se transfieren), por qué falla (se activó la característica incorrecta) y cómo mejorarlo (exponerlo a características más diversas).
Cómputo en tiempo de inferencia
Cómputo en inferencia, Cadena de pensamiento, Tokens de razonamiento
Fundamentos
Usar cómputo adicional durante la inferencia (cuando el modelo está generando una respuesta) para mejorar la calidad de la respuesta. En lugar de generar una respuesta inmediatamente, el modelo "piensa" más tiempo — generando tokens de razonamiento, explorando múltiples enfoques o verificando su propia salida. Más cómputo en el momento de la inferencia produce mejores respuestas, especialmente para tareas de razonamiento complejo.
Por qué importa: El cómputo en tiempo de inferencia es el último paradigma de escalado. La primera era escaló el cómputo de entrenamiento (modelos más grandes, más datos). La era actual también escala el cómputo de inferencia (más razonamiento por pregunta). Modelos como o1 y Claude con pensamiento extendido muestran que dejar que un modelo razone 30 segundos a menudo supera a un modelo que responde en 2 segundos, incluso si el modelo rápido es técnicamente más grande. Esto cambia la economía: la calidad se convierte en una función de cuánto estás dispuesto a gastar por consulta.
Clustering
K-Means, DBSCAN, Análisis de clusters
Fundamentos
Una tarea de aprendizaje no supervisado que agrupa puntos de datos similares sin etiquetas predefinidas. Dados datos de compras de clientes, el clustering podría descubrir segmentos distintos de clientes (cazadores de ofertas, compradores de lujo, compradores ocasionales). K-means es el algoritmo más común: elige K clusters, asigna cada punto al centro de cluster más cercano y refina iterativamente los centros.
Por qué importa: El clustering es la tarea de aprendizaje no supervisado más común y aparece en todas partes: segmentación de clientes, agrupación de documentos, detección de anomalías (valores atípicos que no encajan en ningún cluster), compresión de imágenes (agrupar píxeles similares) y exploración de datos (¿qué grupos naturales existen en mis datos?). A menudo es el primer paso para entender un nuevo dataset.
Cosine Similarity
Cosine Distance, Vector Similarity
A measure of similarity between two vectors based on the angle between them, ignoring their magnitude. Cosine similarity of 1 means the vectors point in the same direction (identical meaning). 0 means they're perpendicular (unrelated). -1 means opposite directions. It's the standard similarity metric for comparing text embeddings in semantic search, RAG, and recommendation systems.
Why it matters: Every time you do semantic search, use RAG, or compare embeddings, cosine similarity is (probably) the metric deciding what's "similar." Understanding it helps you debug retrieval quality, choose between cosine and alternatives (dot product, Euclidean distance), and understand why some searches miss obvious matches.
CLIP
Contrastive Language-Image Pre-training
A model from OpenAI (2021) that learns to connect images and text by training on 400 million image-caption pairs. CLIP encodes images and text into the same embedding space, where matching image-text pairs are close together and non-matching pairs are far apart. It's the bridge between language and vision in most modern multimodal AI systems.
Why it matters: CLIP is the backbone of text-to-image generation (Stable Diffusion, DALL-E), image search, zero-shot image classification, and multimodal understanding. When you type a prompt and get an image, CLIP (or a descendant) is what connects your words to visual concepts. It proved that you can learn powerful visual representations from natural language supervision alone, without labeled image datasets.
An architecture that adds spatial control to image generation models. Instead of just describing what you want in text ("a person standing"), ControlNet lets you specify how — providing an edge map, depth map, pose skeleton, or segmentation map that guides the composition. The generated image follows the spatial structure of your control input while filling in details from the text prompt.
Why it matters: ControlNet made AI image generation usable for professional workflows. Without it, you get random compositions and hope for the best. With it, you specify the exact pose, layout, or structure you need. This is the difference between "generate something vaguely like what I want" and "generate exactly this composition with these details" — critical for design, advertising, and production work.
Contrastive Learning
SimCLR, InfoNCE
A self-supervised learning approach that trains models by contrasting positive pairs (similar items that should be close in embedding space) against negative pairs (dissimilar items that should be far apart). CLIP contrasts matching image-text pairs against non-matching ones. SimCLR contrasts augmented views of the same image against views of different images. The model learns representations where similarity in embedding space reflects real-world similarity.
Why it matters: Contrastive learning is how most embedding models are trained — the models that power semantic search, RAG, and recommendations. It's also the training approach behind CLIP, which connects language and vision. Any time you use embeddings to measure similarity, contrastive learning is likely how those embeddings were created.
Checkpoint
Model Checkpoint, Snapshot
A saved snapshot of a model's state during training — the weights, optimizer state, learning rate schedule, and training step. Checkpoints let you resume training after interruptions (hardware failure, preemption), evaluate intermediate versions of the model, and roll back to an earlier version if training degrades. Saving checkpoints every few thousand steps is standard practice.
Why it matters: Training large models takes days to months. Without checkpoints, a GPU failure at step 90,000 of a 100,000-step training run means starting over. Checkpoints are insurance: they save progress incrementally so you only lose work since the last checkpoint. They also enable model selection — sometimes an earlier checkpoint performs better on your evaluation metrics than the final one.
Conexión residual
Residual Connection, Skip Connection, Shortcut Connection
Fundamentos
Una conexión que evita una o más capas agregando la entrada directamente a la salida: output = layer(x) + x. En lugar de que cada capa aprenda una transformación completa, solo necesita aprender el "residual" — la diferencia respecto a la función identidad. Las conexiones residuales están en cada capa de Transformer y son esenciales para entrenar redes profundas.
Por qué importa: Sin conexiones residuales, las redes profundas son casi imposibles de entrenar — los gradientes se desvanecen o explotan a través de muchas capas. Las conexiones residuales proporcionan una autopista de gradientes que permite que la información (y los gradientes) fluyan directamente desde las capas tempranas hasta las tardías, saltándose cualquier cantidad de transformaciones intermedias. Son la razón por la que podemos entrenar redes de más de 100 capas.
CLIP
Contrastive Language-Image Pre-training
Modelos
Un modelo de OpenAI (2021) que aprende a conectar imágenes y texto entrenándose con 400 millones de pares imagen-texto. CLIP codifica imágenes y texto en el mismo espacio de embeddings, donde los pares imagen-texto coincidentes están cerca y los no coincidentes están lejos. Es el puente entre lenguaje y visión en la mayoría de los sistemas de IA multimodal modernos.
Por qué importa: CLIP es la columna vertebral de la generación de texto a imagen (Stable Diffusion, DALL-E), la búsqueda de imágenes, la clasificación de imágenes zero-shot y la comprensión multimodal. Cuando escribes un prompt y obtienes una imagen, CLIP (o un descendiente) es lo que conecta tus palabras con conceptos visuales. Demostró que puedes aprender representaciones visuales potentes solo con supervisión de lenguaje natural, sin datasets de imágenes etiquetadas.
Cabeza de inducción
Induction Head
Fundamentos
Un circuito específico de dos cabezas de atención descubierto en Transformers que implementa el aprendizaje en contexto mediante coincidencia de patrones. Si el modelo ha visto el patrón "A B" antes en el contexto y ahora ve "A" de nuevo, la cabeza de inducción predice que "B" seguirá. Este mecanismo simple se cree que es un bloque fundamental de cómo los LLMs aprenden de los ejemplos en su contexto.
Por qué importa: Las cabezas de inducción son el circuito mejor entendido en interpretabilidad mecanicista — un ejemplo concreto de cómo los Transformers implementan un algoritmo útil a partir de pesos aprendidos. Explican por qué funciona el prompting few-shot: cuando das ejemplos, las cabezas de inducción detectan el patrón y lo aplican. Entender las cabezas de inducción proporciona una base para comprender comportamientos aprendidos más complejos.
Modelos
Una arquitectura que agrega control espacial a los modelos de generación de imágenes. En lugar de solo describir lo que quieres en texto ("una persona de pie"), ControlNet te permite especificar cómo — proporcionando un mapa de bordes, mapa de profundidad, esqueleto de pose o mapa de segmentación que guía la composición. La imagen generada sigue la estructura espacial de tu entrada de control mientras llena los detalles a partir del prompt de texto.
Por qué importa: ControlNet hizo que la generación de imágenes con IA fuera utilizable para flujos de trabajo profesionales. Sin él, obtienes composiciones aleatorias y esperas lo mejor. Con él, especificas la pose, distribución o estructura exacta que necesitas. Esta es la diferencia entre "generar algo vagamente parecido a lo que quiero" y "generar exactamente esta composición con estos detalles" — algo crítico para diseño, publicidad y trabajo de producción.
Capa de embedding
Embedding Layer, Token Embedding, Tabla de búsqueda
Fundamentos
Una tabla de búsqueda que mapea cada token del vocabulario a un vector denso (el embedding del token). Cuando el modelo recibe el ID de token 42, la capa de embedding devuelve la fila 42 de una matriz aprendida. Este vector es la representación inicial del modelo de ese token — el punto de partida para todo el procesamiento subsiguiente a través de las capas de atención y feedforward.
Por qué importa: La capa de embedding es donde el texto se convierte en matemáticas. Cada LLM comienza convirtiendo tokens discretos (palabras, subpalabras) en vectores continuos que la red neuronal puede procesar. La tabla de embedding es también uno de los componentes más grandes de los modelos pequeños — un vocabulario de 128K con embeddings de 4096 dimensiones son 512 millones de parámetros. Entender esto te ayuda a razonar sobre tamaños de modelo y diseño de vocabulario.
Checkpoint
Punto de control del modelo, Snapshot
Entrenamiento
Una instantánea guardada del estado de un modelo durante el entrenamiento — los pesos, el estado del optimizador, el programa de tasa de aprendizaje y el paso de entrenamiento. Los checkpoints permiten reanudar el entrenamiento después de interrupciones (fallas de hardware, desalojo), evaluar versiones intermedias del modelo y retroceder a una versión anterior si el entrenamiento se degrada. Guardar checkpoints cada pocos miles de pasos es práctica estándar.
Por qué importa: Entrenar modelos grandes toma de días a meses. Sin checkpoints, una falla de GPU en el paso 90,000 de un entrenamiento de 100,000 pasos significa empezar de nuevo. Los checkpoints son un seguro: guardan el progreso incrementalmente para que solo pierdas el trabajo desde el último checkpoint. También permiten la selección de modelos — a veces un checkpoint anterior tiene mejor rendimiento en tus métricas de evaluación que el final.
Convolution
Conv, Convolutional Layer, Kernel, Filter
A mathematical operation that slides a small filter (kernel) across an input to detect local patterns. In images, a 3×3 kernel slides across every position, computing a dot product with the underlying pixels to produce a feature map. Different kernels detect different patterns: horizontal edges, vertical edges, textures, and eventually complex features like eyes or wheels in deeper layers.
Why it matters: Convolution is the operation that made computer vision work. It encodes two powerful assumptions: locality (nearby pixels are related) and translation equivariance (a pattern is the same regardless of where it appears). These assumptions dramatically reduce the number of parameters compared to fully connected layers, making it feasible to process high-resolution images. Even in the Transformer era, convolutions are used in many hybrid architectures.
A platform for creating and chatting with AI characters — fictional personalities, historical figures, and custom personas that maintain consistent personality, knowledge, and speech patterns across conversations. Founded by former Google Brain researchers, Character.AI was one of the first AI products to achieve massive consumer adoption, with millions of daily users, primarily younger demographics.
Why it matters: Character.AI proved that social/entertainment AI could drive massive engagement — users spend more time on Character.AI than on many social media platforms. It pioneered the "AI companion" category and demonstrated that personality consistency, emotional engagement, and role-play capability are as commercially important as factual accuracy. Google invested $2.7B in the company in 2024.
Clonación de Voz
Síntesis de Voz, Replicación de Voz
Uso de IA
Crear una copia sintética de la voz de una persona específica a partir de una muestra de audio corta, permitiendo texto a voz que suena como esa persona. Los sistemas modernos (ElevenLabs, PlayHT, Resemble AI) pueden clonar una voz a partir de tan solo 15 segundos de audio con notable fidelidad, capturando tono, acento, estilo de habla y rango emocional.
Por qué importa: La clonación de voz permite aplicaciones poderosas de creatividad y accesibilidad: doblar películas con la propia voz del actor en diferentes idiomas, preservar las voces de personas que pierden su capacidad de hablar (pacientes con ELA), crear voces de marca consistentes y personalizar asistentes de IA. También crea riesgos serios: estafas telefónicas suplantando a familiares, audio falso de figuras públicas y replicación de voz sin consentimiento.
Conjunto de Validación
Dev Set, Hold-Out Set
Entrenamiento
Un subconjunto de datos reservado del entrenamiento, usado para evaluar el rendimiento del modelo durante el desarrollo y ajustar hiperparámetros. La división en tres partes: el conjunto de entrenamiento entrena el modelo, el conjunto de validación guía las decisiones sobre el modelo (tasa de aprendizaje, arquitectura, cuándo detenerse) y el conjunto de prueba proporciona la estimación de rendimiento final e imparcial. El conjunto de validación es tu espejo durante el desarrollo.
Por qué importa: Sin un conjunto de validación, estás volando a ciegas. La pérdida de entrenamiento te dice qué tan bien el modelo se ajusta a los datos de entrenamiento, pero no qué tan bien generaliza. El conjunto de validación responde la pregunta que realmente importa: "¿cómo se desempeñará este modelo en datos que no ha visto?" Cada decisión durante el desarrollo del modelo — hiperparámetros, opciones de arquitectura, duración del entrenamiento — debería evaluarse en el conjunto de validación.
Empresas
Una plataforma para crear y chatear con personajes de IA — personalidades ficticias, figuras históricas y personas personalizadas que mantienen personalidad, conocimiento y patrones de habla consistentes a través de conversaciones. Fundada por antiguos investigadores de Google Brain, Character.AI fue uno de los primeros productos de IA en lograr adopción masiva de consumidores, con millones de usuarios diarios, principalmente demografías más jóvenes.
Por qué importa: Character.AI demostró que la IA social/entretenimiento podía impulsar un engagement masivo — los usuarios pasan más tiempo en Character.AI que en muchas plataformas de redes sociales. Fue pionera en la categoría de "compañero de IA" y demostró que la consistencia de personalidad, el engagement emocional y la capacidad de role-play son tan comercialmente importantes como la precisión factual. Google invirtió $2.7B en la empresa en 2024.
Empresas
Un proveedor de nube especializado construido completamente en torno a la computación GPU para cargas de trabajo de IA. CoreWeave opera grandes clusters de GPUs NVIDIA (H100, H200) y ha asegurado miles de millones en financiamiento y deuda para construir centros de datos GPU. Empresas importantes de IA (incluyendo Microsoft y varios laboratorios de IA) usan CoreWeave para entrenamiento e inferencia a escala.
Por qué importa: CoreWeave es una de las empresas de infraestructura de más rápido crecimiento en IA, apostando a que los proveedores de nube GPU especializados pueden superar a los hyperscalers de propósito general para cargas de trabajo de IA. Su enfoque permite una utilización de GPU más eficiente, redes diseñadas a propósito (InfiniBand para clusters de entrenamiento) y precios que son un 30–50% menores que AWS/GCP para trabajo intensivo en GPU.
D
Fundamentos
Un subconjunto del aprendizaje automático que utiliza redes neuronales con muchas capas (por eso "profundo") para aprender representaciones jerárquicas de los datos. Cada capa transforma su entrada en algo ligeramente más abstracto — de píxeles a bordes a formas a objetos a conceptos. El aprendizaje profundo es lo que hizo posible la revolución actual de la IA: es el enfoque detrás de los LLMs, generadores de imágenes, reconocimiento de voz y casi todos los avances en IA desde 2012.
Por qué importa: El aprendizaje profundo es el motor de la era actual de la inteligencia artificial. Antes de 2012, la inteligencia artificial era un ensamblaje de algoritmos especializados. El aprendizaje profundo unificó todo bajo un solo paradigma: apilar suficientes capas, alimentar con suficientes datos, dedicar suficiente potencia de cálculo y el modelo se encarga del resto. Entender el aprendizaje profundo es entender por qué de repente la inteligencia artificial funciona.
Herramientas para desarrolladores
SDK de IA, frameworks de IA
Herramientas
El ecosistema de bibliotecas, frameworks y plataformas que facilitan la construcción de aplicaciones potenciadas por IA. Esto incluye frameworks de orquestación (LangChain, LlamaIndex), servidores de inferencia (vLLM, llama.cpp), herramientas de fine-tuning (Axolotl, Unsloth), frameworks de evaluación (LMSYS, Braintrust) y plataformas full-stack (Vercel AI SDK, Hugging Face). El panorama de herramientas cambia mensualmente.
Por qué importa: Las APIs de modelos crudas son necesarias pero no suficientes. Las herramientas de desarrollo cierran la brecha entre "tengo una API key" y "tengo una aplicación en producción". Las herramientas correctas pueden reducir el tiempo de desarrollo de meses a días, mientras que las incorrectas añaden complejidad sin valor.
Deepfakes
Medios sintéticos, falsificaciones generadas por IA
Seguridad
Imágenes, video o audio generados por IA diseñados para representar convincentemente a personas reales diciendo o haciendo cosas que nunca hicieron. Originalmente construidos con tecnología GAN, los deepfakes modernos usan modelos de difusión y clonación de voz para producir resultados que son cada vez más difíciles de distinguir de la realidad. Existen herramientas de detección pero consistentemente van detrás de las capacidades de generación.
Por qué importa: Los deepfakes son el lado oscuro del poder creativo de la IA generativa. Se han usado para fraude, imágenes íntimas no consentidas, manipulación política y robo de identidad. La tecnología es ahora lo suficientemente accesible como para que cualquiera con una laptop pueda crear falsificaciones convincentes, haciendo que la detección, las marcas de agua y los marcos legales sean prioridades urgentes.
Centros de datos
Centros de datos IA, clústeres de GPU
Infraestructura
Instalaciones físicas que albergan los servidores, GPUs, equipos de red y sistemas de enfriamiento necesarios para entrenar y ejecutar modelos de IA. Los centros de datos modernos de IA están construidos a propósito para computación paralela masiva, consumiendo megavatios de energía y requiriendo enfriamiento especializado. Una sola corrida de entrenamiento de un modelo de frontera podría ocupar miles de GPUs a través de una instalación completa durante meses.
Por qué importa: Los centros de datos son las fábricas de la era de la IA. Cada consulta a Claude, cada imagen de Midjourney, cada video de Runway corre en hardware que está dentro de uno de estos edificios. La escasez global de capacidad de centros de datos listos para IA es una de las mayores restricciones al crecimiento de la IA — y una de las mayores oportunidades de inversión.
DeepL
Traducción automática neuronal, DeepL Pro
Empresas
Empresa alemana de IA ampliamente considerada como el mejor servicio de traducción automática del mundo. Construida por un equipo de lingüístas computacionales que consistentemente superan a Google Translate y otras ofertas de grandes tecnológicas, especialmente para idiomas europeos.
Por qué importa: DeepL es la prueba viviente de que una empresa de IA enfocada puede superar consistentemente a competidores de un billón de dólares en una capacidad central. En un campo donde más grande generalmente es mejor, la ventaja de calidad de traducción de DeepL sobre Google y Microsoft sigue siendo medible y significativa, especialmente para idiomas europeos y casos de uso profesional. Su éxito desafía la suposición de que los modelos de IA de propósito general inevitablemente commoditizarán las tareas especializadas — y para los cientos de miles de empresas que dependen de la comunicación precisa entre idiomas, esa especialización vale la pena pagarla.
Decart AI
Simulación de mundos en tiempo real, generación de juegos
Empresas
Empresa israelí de IA que empuja los límites de la generación de IA en tiempo real. Su tecnología puede generar entornos interactivos similares a juegos en tiempo real, difuminando la línea entre el renderizado tradicional y la generación por IA.
Por qué importa: Decart AI demostró algo que la mayoría de la gente asumía que estaba a años de distancia: una red neuronal generando un mundo 3D jugable e interactivo en tiempo real, sin ningún motor de juegos tradicional involucrado. Su demo de Oasis fue una prueba de concepto para la simulación de mundos nativa de IA, una tecnología con implicaciones mucho más allá de los juegos — desde conducción autónoma hasta robótica y computación espacial. Si los modelos del mundo en tiempo real se vuelven prácticos a calidad de producción, el trabajo temprano de Decart en optimización de inferencia y generación interactiva habrá sido fundacional.
DeepSeek
DeepSeek-V3, DeepSeek-R1
Empresas
Laboratorio chino de IA que sacudió la industria a principios de 2025 con DeepSeek-R1, un modelo de razonamiento que rivalizaba con los laboratorios de frontera a una fracción del costo de entrenamiento. Respaldado por el fondo de cobertura cuantitativo High-Flyer.
Por qué importa: DeepSeek destruyó la suposición de que la IA de frontera requería presupuestos de frontera. Su enfoque de eficiencia primero — logrando rendimiento de clase GPT-4 y clase o1 a una fracción del costo de entrenamiento — forzó a toda la industria a repensar la narrativa de que escalar es todo lo que necesitas y reenfocarse en la innovación arquitectónica. El lanzamiento open-weights de R1 bajo licencia MIT democratizó el acceso a modelos de razonamiento de una manera que ningún laboratorio occidental había hecho. Y geopolíticamente, DeepSeek demostró que los controles de exportación por sí solos no pueden contener la capacidad de IA, una realización con implicaciones profundas para la política tecnológica, la inversión y el equilibrio global de poder en IA.
Deepgram
Nova reconocimiento de voz, Aura síntesis de voz
Empresas
Empresa de IA de voz que construye API rápidas y precisas de reconocimiento de voz y texto a voz. Sus modelos Nova compiten con y frecuentemente superan a Whisper de OpenAI en precisión mientras funcionan significativamente más rápido para aplicaciones en tiempo real.
Por qué importa: Deepgram demostró que una startup podía construir reconocimiento de voz desde cero usando deep learning de extremo a extremo y competir cara a cara con Google, Amazon y Microsoft en precisión mientras los superaba en velocidad. Su enfoque de API orientada al desarrollador trajo patrones de infraestructura moderna a la IA de voz, haciendo tan fácil agregar transcripción a una app como agregar pagos con Stripe. A medida que los agentes de IA conversacional se vuelven mainstream, Deepgram se está posicionando como la capa crítica de infraestructura de voz debajo — la plomería que hace que la IA de voz realmente funcione en producción.
Un tipo de modelo generativo que crea imágenes (o video, audio) comenzando con ruido puro y eliminándolo gradualmente hasta que aparece una salida coherente. El modelo aprende a revertir el proceso de agregar ruido a datos reales. Stable Diffusion, DALL-E 3 y Midjourney usan variantes de este enfoque.
Por qué importa: Los modelos de difusión destronaron a las GAN como la técnica dominante de generación de imágenes alrededor de 2022. Producen salidas más diversas y controlables y son la columna vertebral de casi todas las herramientas de IA de imagen y video hoy.
Destilación
Destilación de conocimiento
Entrenar un modelo “estudiante” más pequeño para imitar a un modelo “maestro” más grande, aprendiendo de las distribuciones de probabilidad suaves del maestro en lugar de etiquetas duras.
Por qué importa: La destilación hace accesible la IA poderosa. Una destilación de 70B a 7B puede capturar el 90% de la capacidad con el 10% del costo. Muchos modelos que se ejecutan localmente son destilados de modelos de frontera.
DPO
Optimización Directa de Preferencias
Una alternativa al RLHF para alineación. DPO optimiza directamente el modelo usando pares de respuestas preferidas/rechazadas, sin necesidad de un modelo de recompensa separado ni reinforcement learning. Más simple, más estable, menos cómputo.
Por qué importa: DPO democratizó la alineación. El pipeline multi-etapa de RLHF es delicado; DPO lo colapsa en un solo paso. Muchos modelos open-weight ahora usan variantes de DPO.
Dataset
Conjunto de Entrenamiento, Datos
Fundamentos
Una colección estructurada de datos utilizada para entrenar, evaluar o probar un modelo de machine learning. Los datasets pueden ser etiquetados (cada ejemplo tiene una respuesta correcta conocida) o no etiquetados (datos crudos sin anotaciones). La calidad, tamaño, diversidad y representatividad de un dataset determinan fundamentalmente lo que un modelo puede aprender.
Por qué importa: Basura entra, basura sale. La arquitectura más elegante entrenada con un mal dataset producirá malos resultados. Por el contrario, un modelo simple entrenado con datos excelentes frecuentemente supera a un modelo complejo entrenado con ruido. La curación de datasets es posiblemente la parte más impactante y menos glamorosa del desarrollo de IA.
Dropout
Regularización, Weight Decay
Entrenamiento
Una técnica de regularización que "apaga" aleatoriamente una fracción de neuronas durante cada paso de entrenamiento poniendo sus salidas en cero. Esto evita que la red dependa demasiado de cualquier neurona individual, forzándola a aprender representaciones distribuidas y robustas. En el momento de inferencia, todas las neuronas están activas pero escaladas proporcionalmente.
Por qué importa: Dropout es la defensa más simple y ampliamente usada contra el sobreajuste. Sin regularización, las redes neuronales grandes memorizan los datos de entrenamiento en lugar de aprender patrones generalizables. Dropout (y su primo weight decay) son la razón por la que los modelos pueden ser mucho más grandes que sus conjuntos de entrenamiento sin simplemente memorizar todo.
Una arquitectura que reemplaza el backbone U-Net tradicionalmente usado en modelos de difusión con un Transformer. DiT aplica el mecanismo de atención a la generación de imágenes, habilitando el mismo comportamiento de escalado que hizo a los LLMs tan poderosos. Sora, Flux, Stable Diffusion 3 y la mayoría de los generadores de imágenes y video de vanguardia usan DiT o variantes.
Por qué importa: DiT unificó los mundos de la generación de lenguaje e imágenes bajo un solo paradigma arquitectónico: el Transformer. Esto significa que las leyes de escalado, técnicas de entrenamiento y estrategias de optimización desarrolladas para LLMs se transfieren en gran parte a la generación de imágenes y video. Es la razón por la que la calidad de imagen ha mejorado tan rápidamente — el campo está montado en la misma curva de escalado que el lenguaje.
DALL-E
DALL-E 2, DALL-E 3
OpenAI's image generation model family. DALL-E 1 (2021) used a discrete VAE + Transformer approach. DALL-E 2 (2022) used CLIP + diffusion. DALL-E 3 (2023) is integrated into ChatGPT and emphasizes prompt following — it uses an LLM to rewrite user prompts into detailed image descriptions before generation, significantly improving the match between what you ask for and what you get.
Why it matters: DALL-E was the model that made the public aware of AI image generation. DALL-E 2's launch in 2022 went viral and sparked both excitement and concern about AI-generated imagery. DALL-E 3's integration with ChatGPT made image generation accessible to hundreds of millions of users. Its prompt-rewriting innovation influenced how other models handle text-to-image conversion.
Decoder
Decoder Network, Generator
A neural network component that generates output from a representation. In Transformers, the decoder uses causal (left-to-right) attention to generate tokens one at a time. In image generation, the VAE decoder converts latent representations back into images. In autoencoders, the decoder reconstructs the original input from the compressed bottleneck. Decoders are the "generation" half of many architectures.
Why it matters: Every generative AI system has a decoder at its core. GPT, Claude, and Llama are decoder-only Transformers. Stable Diffusion uses a VAE decoder to produce images. Understanding decoders explains why generation is sequential (each token depends on previous tokens), why output is slower than input processing, and why the autoregressive paradigm dominates text generation.
Databricks
Mosaic ML, DBRX, Unity Catalog
A data and AI platform that provides unified analytics, data engineering, and machine learning capabilities. Databricks acquired Mosaic ML (2023) to add LLM training capabilities and released DBRX, their own open-weight LLM. The platform is built on Apache Spark and provides managed infrastructure for the full ML lifecycle from data preparation to model serving.
Why it matters: Databricks is where enterprise data meets AI. Most companies' AI ambitions start with "we need to make sense of our data," and Databricks is often the platform that handles data engineering, feature engineering, model training, and serving in one place. Their acquisition of Mosaic ML (known for efficient LLM training) signaled that the data platform and AI platform are converging.
Detección de Objetos
YOLO, Detección por Bounding Box
Uso de IA
Identificar y localizar objetos en imágenes o video dibujando bounding boxes alrededor de ellos y clasificando lo que contiene cada caja. "Hay un auto en la posición (x1,y1,x2,y2) y una persona en (x3,y3,x4,y4)." A diferencia de la clasificación de imágenes (que dice qué hay en la imagen), la detección de objetos dice qué hay en la imagen y dónde — permitiendo contar, rastrear y razonar espacialmente.
Por qué importa: La detección de objetos es la tecnología detrás de los autos autónomos (detectar peatones, vehículos, señales), las cámaras de seguridad (detección de personas), analítica retail (contar compradores), control de calidad en manufactura (detectar defectos) y realidad aumentada (colocar objetos virtuales relativos a los reales). Es una de las capacidades de visión por computadora más desplegadas comercialmente.
Databricks
Mosaic ML, DBRX, Unity Catalog
Empresas
Una plataforma de datos e IA que proporciona capacidades unificadas de analítica, ingeniería de datos y machine learning. Databricks adquirió Mosaic ML (2023) para agregar capacidades de entrenamiento de LLMs y lanzó DBRX, su propio LLM de pesos abiertos. La plataforma está construida sobre Apache Spark y proporciona infraestructura gestionada para el ciclo de vida completo de ML desde preparación de datos hasta servicio de modelos.
Por qué importa: Databricks es donde los datos empresariales se encuentran con la IA. La mayoría de las ambiciones de IA de las empresas comienzan con "necesitamos darle sentido a nuestros datos," y Databricks a menudo es la plataforma que maneja ingeniería de datos, ingeniería de features, entrenamiento de modelos y servicio en un solo lugar. Su adquisición de Mosaic ML (conocido por entrenamiento eficiente de LLMs) señaló que la plataforma de datos y la plataforma de IA están convergiendo.
Detección de Idioma
Identificación de Idioma, LangID
Identificar automáticamente en qué idioma está escrito un texto. "Bonjour le monde" → Francés. "こんにちは世界" → Japonés. Los modelos modernos pueden distinguir más de 100 idiomas con solo unas pocas palabras, manejar texto en varios idiomas (cambio de código) e identificar idiomas estrechamente relacionados (noruego vs. danés, malayo vs. indonesio).
Por qué importa: La detección de idioma es el primer paso esencial en cualquier pipeline multilingüe: necesitas saber en qué idioma está la entrada antes de poder traducirla, enrutarla al modelo correcto o aplicar procesamiento específico del idioma. Se usa en motores de búsqueda, enrutamiento de soporte al cliente, moderación de contenido y todo sistema que maneja texto de usuarios de todo el mundo.
Detección de Deriva
Deriva de Datos, Deriva de Modelo, Deriva de Concepto
Infraestructura
Monitorear cambios en la distribución de datos o el comportamiento del modelo a lo largo del tiempo que podrían degradar el rendimiento. Deriva de datos: los datos de entrada cambian (la demografía de clientes cambia, aparecen nuevas categorías de productos). Deriva de concepto: la relación entre entradas y salidas correctas cambia (lo que constituye spam evoluciona). Deriva de modelo: las predicciones del modelo gradualmente se vuelven menos precisas aunque el modelo en sí no ha cambiado.
Por qué importa: Los modelos se entrenan con datos históricos, pero el mundo sigue cambiando. Un modelo de detección de fraude entrenado en 2024 no detectará los nuevos patrones de fraude de 2025. Un sistema de recomendaciones entrenado con comportamiento pre-pandemia dará sugerencias pobres post-pandemia. La detección de deriva captura estas degradaciones antes de que se vuelvan costosas — alertándote de que el modelo necesita reentrenamiento o actualización.
Diarización de Hablantes
Quién habló cuándo
Determinar quién habló cuándo en una grabación de audio con múltiples hablantes. Dada una grabación de reunión, la diarización la segmenta en "Hablante A: 0:00–0:15, Hablante B: 0:15–0:32, Hablante A: 0:32–0:45." Combinada con reconocimiento de voz, esto produce transcripciones atribuidas al hablante — esencial para minutas de reuniones, transcripción de entrevistas y analítica de centros de llamadas.
Por qué importa: El reconocimiento de voz solo produce un bloque de texto sin indicación de quién dijo qué. La diarización agrega la estructura que hace las transcripciones útiles: puedes buscar lo que una persona específica dijo, resumir las contribuciones de cada hablante y analizar la dinámica conversacional (quién habla más, quién interrumpe). Es esencial para cualquier aplicación de audio con múltiples hablantes.
E
Emergencia
Habilidades emergentes, comportamiento emergente
Fundamentos
Capacidades que aparecen en modelos de IA a gran escala pero que no se entrenaron explícitamente para ello — habilidades que parecen "emergir" de repente una vez que un modelo alcanza un cierto tamaño o umbral de entrenamiento. Un modelo entrenado exclusivamente para predecir la siguiente palabra de alguna manera aprende a hacer aritmética, traducir entre idiomas en los que no fue enseñado, o escribir código funcional. La emergencia es uno de los fenómenos más debatidos en IA: ¿es magia real de transición de fase, o un artefacto de medición?
Por qué importa: La emergencia es el corazón de la mayor pregunta en IA: ¿podemos predecir qué podrán hacer los modelos más grandes? Si las capacidades emergen realmente de manera impredecible a gran escala, entonces cada modelo más grande es una caja de sorpresas. Si la emergencia es un artefacto de cómo medimos, entonces el escalamiento es más predecible de lo que parece. La respuesta define todo, desde la planificación de seguridad hasta las decisiones de inversión.
Evaluación
Evals, evaluación de modelos
Entrenamiento
Los métodos usados para medir qué tan bien funciona un modelo de IA. Esto va mucho más allá de benchmarks — incluye evaluación humana (personas calificando salidas), A/B testing (comparando modelos con tráfico real), red teaming (pruebas adversariales), pruebas específicas de dominio (precisión médica, corrección de código) y leaderboards comunitarios (Chatbot Arena, LMSYS). Una buena evaluación es más difícil que construir el modelo.
Por qué importa: Si no puedes medirlo, no puedes mejorarlo. Pero la evaluación de IA es singularmente difícil porque las tareas son abiertas y la calidad es subjetiva. Los benchmarks se manipulan, la evaluación humana es costosa, y el modelo que puntúa más alto en papel frecuentemente no es el mejor en la práctica. Construir buenas evaluaciones es un superpoder.
ElevenLabs
Síntesis de voz, clonación de voz, doblaje
Empresas
Empresa de IA de voz que hizo accesible para todos la síntesis de voz ultra realista. Su tecnología impulsa la clonación de voz, el doblaje en tiempo real y texto a voz en 32 idiomas, difuminando la línea entre voces humanas e IA.
Por qué importa: ElevenLabs demostró que el habla generada por IA podía cruzar el valle inquietante y sonar genuinamente humana, colapsando el costo y el tiempo de la producción profesional de voz en órdenes de magnitud. Sus herramientas de clonación de voz y doblaje multilingüe han hecho posible que un creador individual produzca contenido en 30+ idiomas sin contratar un solo actor de voz, remodelando fundamentalmente la economía de la localización de audio y video. También forzaron a toda la industria a confrontar la ética de la tecnología de voz sintética de frente, impulsando la adopción de marcas de agua, estándares de procedencia de contenido y protocolos de verificación que ahora se están convirtiendo en norma.
Embedding
Incrustación vectorial
Entrenamiento
Una forma de representar texto (o imágenes, o audio) como una lista de números (un vector) que captura su significado. Los conceptos similares terminan cerca en este espacio numérico — "gato" y "gatito" están cerca, mientras que "gato" y "economía" están lejos.
Por qué importa: Los embeddings son la base de la búsqueda semántica y RAG. Son cómo la IA entiende que una búsqueda de "arreglar bug de login" debería coincidir con un documento sobre "resolución de error de autenticación" aunque ninguna palabra coincida.
Infraestructura
Una URL específica donde una API de IA acepta solicitudes. Por ejemplo, el endpoint de mensajes de Anthropic es donde envías prompts a Claude. Diferentes endpoints sirven diferentes funciones: generación de texto, embeddings, creación de imágenes, listado de modelos.
Por qué importa: Al integrar proveedores de IA, los endpoints son donde la goma toca el camino. Cada proveedor estructura los suyos de manera diferente, que es por lo que existen plataformas como Zubnet — para normalizar el desorden.
IA en el borde
IA en dispositivo, IA local
Ejecutar IA en dispositivos del usuario final (teléfonos, laptops, autos) en lugar de la nube. Privado, latencia cero, funciona sin conexión.
Por qué importa: La intersección de privacidad + latencia + costo. Un modelo de 3B en tu teléfono muchas veces supera a uno de 400B en un centro de datos para las tareas correctas.
Encoder-Decoder
Seq2Seq, secuencia a secuencia
Arquitectura con encoder (comprime la entrada) y decoder (genera la salida). T5/BART son encoder-decoder. GPT/Claude son decoder-only. BERT es encoder-only.
Por qué importa: Explica por qué diferentes modelos destacan en diferentes tareas y por qué decoder-only ganó para los LLMs.
Ética de la IA
IA Responsable, IA Ética
Seguridad
El estudio de las cuestiones morales planteadas por el desarrollo y despliegue de la IA: ¿Qué sesgos perpetrán los sistemas de IA? ¿Quién resulta perjudicado cuando la IA comete errores? ¿Cómo deben explicarse las decisiones de la IA? ¿Quién es responsable cuando un sistema autónomo causa daños? La ética de la IA abarca equidad, transparencia, responsabilidad, privacidad y el impacto social de los sistemas de IA.
Por qué importa: Los sistemas de IA toman decisiones que afectan la contratación, los préstamos, la justicia penal, la salud y la moderación de contenido para miles de millones de personas. Estas decisiones codifican valores — de quién son los datos incluidos, qué resultados se optimizaron, a quién se consultó. La ética de la IA no es un ejercicio filosófico abstracto; es la pregunta práctica de si los sistemas de IA hacen el mundo más justo o menos.
The hypothesis that sufficiently advanced AI systems could pose a threat to human existence or permanently curtail humanity's potential. X-risk concerns range from concrete near-term scenarios (AI-enabled bioweapons, autonomous weapons) to speculative long-term scenarios (a superintelligent AI pursuing goals misaligned with human values). The topic is genuinely debated among leading AI researchers.
Why it matters: Existential risk is the most consequential debate in AI. If the risk is real and significant, it should dominate AI policy. If it's overstated, focusing on it diverts attention from concrete harms happening today (bias, job displacement, misinformation). Understanding the actual arguments — not the caricatures — helps you form an informed position on one of the most important questions of our time.
Extensión de Longitud de Contexto
YaRN, Escalado NTK, Escalado de RoPE
Infraestructura
Técnicas que permiten a los modelos de lenguaje manejar secuencias más largas que las vistas durante el entrenamiento. Un modelo entrenado con 4K tokens puede extenderse a 32K o 128K mediante modificaciones a su codificación posicional (típicamente RoPE) combinadas con un breve ajuste fino en secuencias más largas. Esto evita el costo enorme de entrenar desde cero en secuencias largas.
Por qué importa: La extensión de longitud de contexto es la razón por la que los modelos han pasado de 4K a 128K a más de 1M de tokens de ventana de contexto en solo dos años. El costo de entrenar un modelo desde cero con secuencias de un millón de tokens sería prohibitivo. Las técnicas de extensión hacen prácticos los modelos de contexto largo adaptando modelos entrenados con secuencias más cortas, requiriendo solo una fracción del cómputo de entrenamiento original.
Entrenamiento con precisión mixta
FP16, BF16, Media precisión
Entrenamiento
Entrenar redes neuronales usando formatos numéricos de menor precisión (16 bits en lugar de 32 bits) para la mayoría de los cálculos, manteniendo las operaciones críticas en precisión completa. Esto duplica la capacidad de memoria efectiva y la velocidad de cálculo de las GPUs con un impacto mínimo en la calidad del modelo. BF16 (bfloat16) es el estándar para el entrenamiento de LLMs; FP16 se usa para la inferencia.
Por qué importa: La precisión mixta es la razón por la que podemos entrenar modelos tan grandes como los actuales. Un modelo de 70B parámetros en FP32 necesitaría 280 GB solo para los pesos — imposible en cualquier GPU individual. En BF16, necesita 140 GB, lo que cabe en unas pocas GPUs. La precisión mixta efectivamente duplicó la capacidad de cómputo de la industria de IA gratis, solo usando un formato numérico más inteligente.
Entrenamiento distribuido
Paralelismo de datos, Paralelismo de modelo, FSDP
Infraestructura
Entrenar un modelo a través de múltiples GPUs o máquinas simultáneamente. El paralelismo de datos da a cada GPU una copia del modelo y divide los datos de entrenamiento. El paralelismo de modelo divide el modelo mismo entre GPUs cuando es demasiado grande para una sola. Los enfoques modernos como FSDP (Fully Sharded Data Parallel) y DeepSpeed combinan ambos, permitiendo el entrenamiento de modelos con cientos de miles de millones de parámetros.
Por qué importa: Ningún modelo de frontera cabe en una sola GPU. Entrenar GPT-4 o Claude requiere miles de GPUs trabajando juntas durante meses. El entrenamiento distribuido es la ingeniería que hace esto posible — es tan crítico como la arquitectura o los datos. La eficiencia de tu entrenamiento distribuido determina directamente cuánto modelo puedes entrenar para un presupuesto dado.
Evaluación humana
Human Eval, Evaluación manual
Fundamentos
Evaluar la calidad de la salida de IA haciendo que humanos la juzguen directamente. Los humanos evalúan la fluidez, precisión, utilidad, seguridad y si la salida realmente cumple con la solicitud. A pesar de ser costosa y lenta, la evaluación humana sigue siendo el estándar de oro porque las métricas automatizadas a menudo pasan por alto lo que realmente importa a los usuarios.
Por qué importa: Cada métrica automatizada es un proxy del juicio humano, y cada proxy tiene puntos ciegos. BLEU no puede detectar errores factuales. La perplejidad no puede medir la utilidad. Incluso los enfoques de LLM-como-juez heredan sesgos (prefiriendo respuestas verbosas, por ejemplo). Cuando hay mucho en juego — lanzar un producto, comparar versiones de modelos, evaluar seguridad — la evaluación humana es irremplazable.
Embedding Layer
Token Embedding, Embedding Table, Lookup Table
A lookup table that maps each token in the vocabulary to a dense vector (the token's embedding). When the model receives token ID 42, the embedding layer returns row 42 of a learned matrix. This vector is the model's initial representation of that token — the starting point for all subsequent processing through attention and feedforward layers.
Why it matters: The embedding layer is where text becomes math. Every LLM starts by converting discrete tokens (words, subwords) into continuous vectors that the neural network can process. The embedding table is also one of the largest components of small models — a 128K vocabulary with 4096-dimensional embeddings is 512 million parameters. Understanding this helps you reason about model sizes and vocabulary design.
Edición de conocimiento
Knowledge Editing, Model Editing, Fact Editing
Entrenamiento
Técnicas para modificar hechos específicos en un modelo entrenado sin reentrenarlo. Si un modelo declara incorrectamente "El presidente de Francia es Macron" después de una nueva elección, la edición de conocimiento puede actualizar este hecho específico modificando pesos objetivos, sin afectar el otro conocimiento o las capacidades del modelo. El objetivo es precisión quirúrgica: cambiar un hecho, dejar todo lo demás intacto.
Por qué importa: La edición de conocimiento aborda un problema práctico: los modelos se desactualizan y el reentrenamiento es caro. Si pudieras actualizar hechos específicos de manera económica, los modelos podrían mantenerse actualizados entre grandes ciclos de entrenamiento. También tiene implicaciones de seguridad: ¿se podría eliminar conocimiento peligroso? El campo es prometedor pero inmaduro — las ediciones a menudo tienen efectos secundarios no deseados en el conocimiento relacionado.
Early Stopping
Patience, Validation-Based Stopping
Stopping training when performance on a held-out validation set stops improving, rather than training for a fixed number of steps. As training continues, training loss keeps decreasing but validation loss eventually starts increasing — the model is overfitting to training data. Early stopping catches this inflection point and saves the best model before quality degrades.
Why it matters: Early stopping is the simplest and most effective regularization technique for fine-tuning. Without it, you risk training too long and destroying the capabilities you wanted to preserve. With it, the model automatically stops at its best point. The "patience" parameter (how many evaluations without improvement before stopping) is one of the most important hyperparameters in fine-tuning.
Encoder
Encoder Network, Feature Extractor
A neural network component that converts input data into a compressed, information-rich representation (encoding). In Transformers, the encoder uses bidirectional attention to process the full input and produce contextual representations. In autoencoders, the encoder compresses input into a latent bottleneck. In image generation, the VAE encoder converts images into latent space. Encoders are the "understanding" half of many architectures.
Why it matters: Encoders are everywhere: BERT is an encoder, CLIP has a text encoder and an image encoder, Stable Diffusion has a VAE encoder, RAG systems use encoder models for embeddings. Understanding what an encoder does — compresses input into a useful representation — helps you understand all of these systems. The quality of the encoding determines the quality of everything downstream.
Escala de Guidance
CFG Scale, Classifier-Free Guidance
Uso de IA
Un parámetro que controla qué tan fuertemente un modelo de generación de imágenes sigue el prompt de texto. Guidance bajo (1–3): el modelo genera libremente, produciendo imágenes diversas pero potencialmente fuera de tema. Guidance alto (7–15): el modelo sigue estrictamente el prompt pero puede producir imágenes saturadas y con artefactos. El punto ideal típico es 7–9. Es el equivalente en generación de imágenes de la temperatura para modelos de texto.
Por qué importa: La escala de guidance es el parámetro más impactante en generación de imágenes después del prompt mismo. Muy bajo y la imagen ignora tu descripción. Muy alto y se ve sobresaturada y artificial. Entender la escala de guidance te ayuda a resolver "¿por qué mi imagen no coincide con mi prompt?" (guidance muy bajo) y "¿por qué mi imagen se ve rara?" (guidance muy alto).
Extracción de Información
IE, Extracción Estructurada
Extraer automáticamente información estructurada de texto no estructurado. Dado un artículo de noticias, extraer: quién hizo qué, cuándo, dónde y por qué. Dado un contrato, extraer: partes, fechas, obligaciones y montos. IE combina NER (encontrar entidades), extracción de relaciones (encontrar conexiones entre entidades) y extracción de eventos (encontrar qué sucedió) en un pipeline unificado.
Por qué importa: La mayor parte de la información del mundo está atrapada en texto no estructurado — correos electrónicos, informes, artículos, documentos legales, registros médicos. La extracción de información convierte este texto en datos estructurados que pueden ser buscados, analizados y utilizados. Es la tecnología que te permite hacer una pregunta tipo base de datos sobre una pila de documentos.
Estimación de Pose
Pose Corporal, Detección de Esqueleto, Detección de Keypoints
Detectar la posición y orientación del cuerpo humano (o animal, mano, rostro) en una imagen o video localizando puntos anatómicos clave — articulaciones, puntos de referencia faciales, puntas de los dedos. La salida es un esqueleto: un conjunto de keypoints conectados que representan la pose del cuerpo. OpenPose, MediaPipe y YOLO-Pose son implementaciones populares.
Por qué importa: La estimación de pose permite: apps de fitness que analizan la forma del ejercicio, reconocimiento de lengua de señas, captura de movimiento para animación, interfaces de control por gestos, analítica deportiva y detección de caídas para el cuidado de personas mayores. En la generación de imágenes con IA, los esqueletos de pose sirven como entradas de ControlNet — especificas la pose exacta del cuerpo que quieres y el modelo genera una persona en esa pose.
F
Entrenamiento
Tomar un modelo pre-entrenado y entrenarlo más a fondo con un dataset más pequeño y específico para especializar su comportamiento. Como tomar a un médico general y meterlo en una residencia de cirugía — misma base de conocimiento, nueva especialidad.
Por qué importa: El fine-tuning es como los modelos genéricos se vuelven útiles para tareas específicas. Un modelo con fine-tuning puede aprender el tono de tu empresa, la terminología de tu dominio o un formato de salida específico sin empezar de cero.
Fundamentos
Un modelo grande entrenado con datos amplios que sirve como base para muchas tareas diferentes. Claude, GPT, Gemini y Llama son todos foundation models. Son “fundacionales” porque pueden adaptarse a casi cualquier cosa — escritura, programación, análisis, comprensión de imágenes — sin haber sido entrenados específicamente para cada tarea.
Por qué importa: Los foundation models cambiaron la economía de la IA. En lugar de entrenar un modelo separado para cada tarea, entrenas un modelo masivo una vez y luego le haces fine-tuning o lo guías con prompts para necesidades específicas.
Few-Shot
Aprendizaje en contexto
Proporcionar pares de ejemplo entrada-salida en tu prompt. Zero-shot = sin ejemplos, few-shot = 2–10 ejemplos. El modelo aprende el patrón sin necesidad de entrenamiento.
Por qué importa: La forma más rápida y barata de personalizar el comportamiento. Una de las capacidades emergentes más sorprendentes que surgen con la escala.
Flow Matching
Flujo rectificado
Técnica generativa que aprende caminos suaves y directos de ruido a datos. Menos pasos que la difusión para calidad comparable.
Por qué importa: Reemplazando la difusión para generación de vanguardia de imagen y video. Flux y SD3 lo usan. Menos pasos = más rápido = más barato.
Función de Activación
ReLU, GELU, SiLU, Swish
Fundamentos
Una función matemática aplicada a la salida de una neurona que introduce no-linealidad en la red. Sin funciones de activación, una red neuronal — sin importar cuántas capas de profundidad — solo podría aprender relaciones lineales. ReLU, GELU y SiLU/Swish son las más comunes en las arquitecturas modernas.
Por qué importa: Las funciones de activación son la razón por la que el deep learning funciona. Una pila de transformaciones lineales es solo una gran transformación lineal. Las funciones de activación entre capas permiten que la red aprenda patrones complejos y no lineales — las curvas, bordes y relaciones sutiles que hacen poderosas a las redes neuronales.
A GPU-optimized implementation of the attention mechanism that is 2–4x faster and uses significantly less memory than standard attention. Flash Attention achieves this not by changing what attention computes, but by restructuring how the computation is performed on GPU hardware — minimizing slow memory transfers between GPU HBM and on-chip SRAM.
Why it matters: Flash Attention is arguably the most impactful systems optimization in modern AI. It made long-context models practical by reducing attention's memory usage from quadratic to near-linear (in practice), directly enabling the jump from 4K to 128K+ context windows. Every major LLM uses it. Without Flash Attention, today's long-context models would be prohibitively expensive.
The component in each Transformer layer that processes each token independently through two linear transformations with an activation function in between. While attention mixes information across tokens (which tokens relate to which), the feedforward network processes each token's representation individually, applying non-linear transformations that encode knowledge and perform computation.
Why it matters: The feedforward network is where most of a Transformer's knowledge is stored. Attention gets all the glory, but the FFN layers contain the majority of the model's parameters (typically 2/3 of total parameters) and are where factual associations, language patterns, and learned computations primarily reside. Understanding this helps explain phenomena like knowledge editing and model pruning.
Flash Attention
FlashAttention, FlashAttention-2
Infraestructura
Una implementación del mecanismo de atención optimizada para GPU que es 2–4x más rápida y usa significativamente menos memoria que la atención estándar. Flash Attention logra esto no cambiando lo que la atención calcula, sino reestructurando cómo se realiza el cálculo en el hardware de la GPU — minimizando las transferencias lentas de memoria entre la HBM y la SRAM on-chip de la GPU.
Por qué importa: Flash Attention es posiblemente la optimización de sistemas más impactante en la IA moderna. Hizo prácticos los modelos de contexto largo al reducir el uso de memoria de la atención de cuadrático a casi lineal (en la práctica), habilitando directamente el salto de 4K a 128K+ tokens de ventana de contexto. Todos los LLM principales lo usan. Sin Flash Attention, los modelos de contexto largo actuales serían prohibitivamente caros.
Fecha de Corte del Conocimiento
Corte de Datos de Entrenamiento, Fecha de Conocimiento
Fundamentos
La fecha después de la cual un modelo no tiene datos de entrenamiento, lo que significa que carece de conocimiento sobre eventos, descubrimientos o cambios que ocurrieron después de esa fecha. Si la fecha de corte de un modelo es abril de 2024, no sabe nada de lo que pasó en mayo de 2024 o después — nuevos productos, noticias, papers científicos o hechos actualizados.
Por qué importa: La fecha de corte del conocimiento es la fuente más común de frustración con los asistentes de IA. "¿Por qué no sabe sobre X?" Porque X ocurrió después del entrenamiento. Esta limitación impulsa la adopción de RAG (dar al modelo acceso a información actual) y el uso de herramientas (permitir al modelo buscar en la web). Entender la fecha de corte te ayuda a saber cuándo confiar en el modelo y cuándo verificar.
Flujo de trabajo agéntico
Arquitectura de agente, Flujo de trabajo de IA
Usar AI
Un patrón de diseño donde los agentes de IA orquestan procesos de múltiples pasos — planificando, ejecutando herramientas, evaluando resultados e iterando — para completar tareas complejas. A diferencia de un intercambio simple de prompt-respuesta, los flujos agénticos involucran bucles: el agente actúa, observa el resultado, decide qué hacer a continuación y continúa hasta que la tarea se complete o necesite intervención humana.
Por qué importa: Los flujos de trabajo agénticos son cómo la IA pasa de "responder preguntas" a "hacer trabajo". Un chatbot responde una pregunta a la vez. Un flujo agéntico investiga un tema, escribe un borrador, lo revisa en busca de precisión y lo corrige — todo de forma autónoma. Este patrón está emergiendo en generación de código (Cursor, Claude Code), investigación (Perplexity, Deep Research) y automatización empresarial.
Ficha de modelo
Documentación de modelo, Hoja de datos
Seguridad
Un documento estandarizado que describe el uso previsto de un modelo de machine learning, sus características de rendimiento, datos de entrenamiento, limitaciones y consideraciones éticas. Introducidas por Mitchell et al. (2019), las fichas de modelo buscan aumentar la transparencia y ayudar a los usuarios a tomar decisiones informadas sobre si un modelo es apropiado para su caso de uso.
Por qué importa: Las fichas de modelo son las etiquetas nutricionales de la IA. Sin ellas, estás usando un modelo a ciegas — no sabes con qué datos fue entrenado, en qué funciona bien y mal, o qué grupos podría perjudicar. A medida que la regulación de IA aumenta (la Ley de IA de la UE requiere documentación), las fichas de modelo están pasando de ser una buena práctica a un requisito legal.
FLOPs
Floating Point Operations, FLOP/s, Compute
Floating Point Operations — the standard measure of computational work in AI. Training a model requires a certain number of FLOPs (total operations). Hardware is rated in FLOP/s (operations per second). An H100 GPU can perform ~2,000 TFLOP/s (2 quadrillion operations per second) in FP16. GPT-4's training is estimated at ~10^25 FLOPs — a number so large it's hard to comprehend.
Why it matters: FLOPs are the currency of AI compute. Scaling laws are expressed in FLOPs. Training budgets are measured in FLOPs. GPU comparisons use FLOP/s. Understanding FLOPs helps you estimate training costs, compare hardware, and understand why AI progress is so closely tied to compute scaling. When people say "scaling compute," they mean spending more FLOPs.
Fusión de modelos
Model Merging, TIES, DARE, SLERP, Frankenmerge
Entrenamiento
Combinar los pesos de múltiples modelos ajustados en un solo modelo sin entrenamiento adicional. Si el modelo A es excelente en programación y el modelo B es excelente en escritura creativa, fusionarlos puede producir un modelo que es bueno en ambos. Los métodos populares de fusión incluyen SLERP (interpolación esférica), TIES (resolver conflictos de signo) y DARE (descartar parámetros aleatoriamente antes de fusionar).
Por qué importa: La fusión de modelos es el arma secreta de la comunidad open source. No cuesta nada de cómputo (solo matemáticas sobre tensores de pesos) y puede producir modelos que superan a sus componentes. Muchos de los mejores modelos en el Open LLM Leaderboard son fusiones. También es cómo los practicantes combinan múltiples fine-tunes de LoRA en un solo modelo versátil. Entender la fusión desbloquea una capacidad potente y gratuita para cualquiera que trabaje con modelos abiertos.
FLOPs
Floating Point Operations, FLOP/s, Cómputo
Fundamentos
Floating Point Operations — la medida estándar del trabajo computacional en IA. Entrenar un modelo requiere un cierto número de FLOPs (operaciones totales). El hardware se evalúa en FLOP/s (operaciones por segundo). Una GPU H100 puede realizar ~2,000 TFLOP/s (2 cuatrillones de operaciones por segundo) en FP16. Se estima que el entrenamiento de GPT-4 fue ~10^25 FLOPs — un número tan grande que es difícil de comprender.
Por qué importa: Los FLOPs son la moneda del cómputo en IA. Las leyes de escala se expresan en FLOPs. Los presupuestos de entrenamiento se miden en FLOPs. Las comparaciones de GPU usan FLOP/s. Entender los FLOPs te ayuda a estimar costos de entrenamiento, comparar hardware y entender por qué el progreso de la IA está tan estrechamente vinculado al escalado del cómputo. Cuando la gente dice "escalar el cómputo", se refiere a gastar más FLOPs.
Facial Recognition
Face Recognition, Face ID
Identifying or verifying a person from their face in an image or video. Verification asks "is this person who they claim to be?" (1:1 matching, used in phone unlock). Identification asks "who is this person?" (1:N matching against a database, used in surveillance). Modern systems use deep learning to extract face embeddings and compare them, achieving superhuman accuracy under controlled conditions.
Why it matters: Facial recognition is one of the most powerful and most controversial AI applications. It enables convenient authentication (Face ID), helps find missing persons, and assists law enforcement. It also enables mass surveillance, raises serious privacy concerns, and has documented accuracy disparities across demographics — performing worse on women and people with darker skin tones. It's a textbook case of dual-use technology.
G
Fundamentos
Sistemas de IA que crean contenido nuevo — texto, imágenes, audio, video, código, modelos 3D — en lugar de solo analizar o clasificar datos existentes. La IA generativa es el término general para todo, desde que ChatGPT escribe ensayos hasta que Stable Diffusion crea imágenes hasta que Suno compone música. La parte "generativa" distingue estos modelos de la IA anterior que solo podía categorizar, predecir o recomendar.
Por qué importa: La inteligencia artificial generativa es el término que introdujo la IA en la cultura general. Es lo que la gente quiere decir cuando habla de "IA" en 2024-2026 — la capacidad de crear, no solo de procesar. Entenderla como una categoría te ayuda a navegar el paisaje: los LLMs generan texto, los modelos de difusión generan imágenes, y los límites entre modalidades se están desdibujando rápidamente.
Google DeepMind
Gemini, AlphaGo, AlphaFold
Empresas
La división unificada de investigación en IA de Google, formada al fusionar DeepMind y Google Brain en 2023. Detrás de Gemini, AlphaGo, AlphaFold y gran parte de la investigación fundacional que impulsa la IA moderna.
Por qué importa: Google DeepMind ha contribuido más investigación fundacional a la IA moderna que cualquier otra organización — la arquitectura del transformer, trabajo revolucionario en reinforcement learning, predicción de estructura de proteínas y leyes de escalamiento se remontan todos a equipos de DeepMind o Google Brain. Sus modelos Gemini son los únicos LLMs de frontera con distribución verdaderamente global incorporada, llegando a miles de millones de usuarios a través de Search, Android y Google Workspace. Y solo AlphaFold — que resolvió un problema de cincuenta años en biología y ganó un Premio Nobel — sería suficiente para asegurar su lugar en la historia de la ciencia, no solo en la historia de la IA.
GAN
Red generativa antagónica
Modelos
Una arquitectura de modelo donde dos redes neuronales compiten: un generador crea datos falsos y un discriminador intenta distinguir lo real de lo falso. A través de este juego adversarial, el generador mejora en la creación de resultados realistas. Dominó la generación de imágenes de 2014 a ~2022.
Por qué importa: Las GANs fueron pioneras en la generación realista de imágenes con IA y todavía se usan en algunas aplicaciones en tiempo real. Pero los modelos de difusión las han reemplazado en gran medida para trabajo donde la calidad es crítica, porque las GANs son más difíciles de entrenar y menos diversas en sus resultados.
GPU
Unidad de procesamiento gráfico
Infraestructura
Originalmente diseñadas para renderizar gráficos, las GPUs resultaron ser perfectas para la IA porque pueden realizar miles de operaciones matemáticas simultáneamente. Entrenar y ejecutar modelos de IA es esencialmente multiplicación masiva de matrices — exactamente para lo que las GPUs están hechas. NVIDIA domina este mercado.
Por qué importa: Las GPUs son el cuello de botella físico de toda la industria de IA. Por qué los modelos cuestan lo que cuestan, por qué algunos proveedores son más rápidos que otros, por qué hay escasez global de chips — todo se reduce a la oferta de GPUs y la VRAM.
Usar AI
Conectar las respuestas de un modelo a fuentes factuales y verificables en lugar de dejarlo depender únicamente de sus datos de entrenamiento. Las técnicas de grounding incluyen RAG, integración de búsqueda web y requerimientos de citación. Una respuesta con grounding dice “según [fuente]” en lugar de simplemente afirmar hechos.
Por qué importa: El grounding es la defensa principal contra la alucinación. Un modelo sin grounding inventa hechos con confianza. Uno con grounding te señala fuentes reales que puedes verificar.
Seguridad
Mecanismos de seguridad que impiden que los modelos de IA generen contenido dañino, inapropiado o fuera de tema. Los guardrails pueden incorporarse al modelo durante el entrenamiento (RLHF), aplicarse mediante system prompts o ser impuestos por filtros externos que verifican las respuestas antes de que lleguen a los usuarios.
Por qué importa: Sin guardrails, los modelos ayudarán felizmente con solicitudes peligrosas. El desafío es la calibración — demasiado estrictos y el modelo se vuelve inútil (“No puedo ayudar con eso”), demasiado laxos y se vuelve inseguro.
Descenso de gradiente
SGD, Backpropagation
Ajusta iterativamente los parámetros para reducir la pérdida computando gradientes y dando pasos cuesta abajo. La retropropagación calcula eficientemente los gradientes a través de las capas.
Por qué importa: Cada modelo fue entrenado con descenso de gradiente. Explica la importancia de la tasa de aprendizaje, la divergencia del entrenamiento y por qué Adam funciona.
Groq
Groq LPU
Chips de inferencia de IA personalizados (LPUs). Diseñados específicamente para la generación secuencial de tokens. 500–800 tok/s, a menudo 10x más rápido que las GPUs.
Por qué importa: Demostró que la inferencia no tiene que ser lenta. Enfoque de hardware contra optimización de software.
The standard file format for running quantized language models locally via llama.cpp, Ollama, and other local inference tools. GGUF files contain the model weights in a quantized format (reducing precision from 16-bit to 4-bit or 8-bit), along with metadata like vocabulary, architecture details, and quantization parameters — everything needed to load and run the model in a single file.
Why it matters: GGUF is the format that made local AI practical. Before it, running models locally required complex setups with PyTorch, CUDA, and specific GPU memory. GGUF packages everything into one file that llama.cpp or Ollama can load directly — on CPU, on Apple Silicon, on gaming GPUs, anywhere. If you see a model on Hugging Face with filenames like "Q4_K_M.gguf," that's a model ready for local use.
Neural networks designed to operate on graph-structured data — data where entities are connected by relationships (social networks, molecules, knowledge graphs, transportation networks). GNNs learn by passing messages between connected nodes, allowing each node to update its representation based on its neighbors. They handle data that doesn't fit neatly into grids (images) or sequences (text).
Why it matters: Not all data is text or images. Social networks, molecular structures, recommendation systems, fraud detection networks, and logistics routes are all naturally graph-structured. GNNs are the right tool when relationships between entities are as important as the entities themselves. Drug discovery, social network analysis, and traffic prediction all rely on GNNs.
GGUF
GGML Unified Format
Infraestructura
El formato de archivo estándar para ejecutar modelos de lenguaje cuantizados localmente vía llama.cpp, Ollama y otras herramientas de inferencia local. Los archivos GGUF contienen los pesos del modelo en un formato cuantizado (reduciendo la precisión de 16 bits a 4 u 8 bits), junto con metadatos como vocabulario, detalles de arquitectura y parámetros de cuantización — todo lo necesario pa...
Por qué importa: GGUF es el formato que hizo práctica la IA local. Antes, ejecutar modelos localmente requería configuraciones complejas con PyTorch, CUDA y memoria GPU específica. GGUF empaqueta todo en un archivo que llama.cpp u Ollama pueden cargar directamente — en CPU, en Apple Silicon, en GPUs de gaming, en cualquier lugar. Si ves un modelo en Hugging Face con nombres de archivo como "Q4_K_M.gguf", ese es un modelo listo para uso local.
Generación de Imágenes
Texto a Imagen, Arte con IA
Fundamentos
Crear imágenes a partir de descripciones de texto usando modelos de IA. Escribes "un atardecer sobre montañas en estilo acuarela" y el modelo genera una imagen que coincide. Los enfoques actuales incluyen modelos de difusión (Stable Diffusion, DALL-E), flow matching (Flux) y modelos autoregresivos. El campo ha progresado de caras borrosas en 2020 a salidas fotorrealistas y artísticamente contro...
Por qué importa: La generación de imágenes es la capacidad de IA para consumidores más visible después de los chatbots. Está transformando el diseño gráfico, la publicidad, el arte conceptual y la comunicación visual. Entender los enfoques subyacentes (difusión, flow matching, DiT) y sus compromisos te ayuda a elegir la herramienta correcta y entender las limitaciones — por qué algunos prompts funcionan y otros no, por qué ciertos estilos son más fáciles que otros.
Generación de Video
Texto a Video, Video con IA
Fundamentos
Crear video a partir de descripciones de texto, imágenes u otros videos usando modelos de IA. Sora (OpenAI), Kling (Kuaishou), Runway Gen-3, Vidu y otros generan videos a partir de prompts como "una toma de dron volando sobre un arrecife de coral". La tecnología extiende la generación de imágenes a la dimensión temporal, añadiendo el desafío de mantener la consistencia entre fotogramas y genera...
Por qué importa: La generación de video es la frontera de la IA generativa — la modalidad más difícil y la de mayor potencial comercial. Está comenzando a transformar la producción cinematográfica, la publicidad, las redes sociales y la educación. La brecha de calidad entre la IA y el video profesional se está cerrando rápidamente, con modelos actuales produciendo clips de 5–15 segundos que a veces son indistinguibles de metraje real.
Grafo de Conocimiento
KG, Ontología
Fundamentos
Una representación estructurada del conocimiento como una red de entidades (nodos) conectadas por relaciones (aristas). "París (entidad) es la capital de (relación) Francia (entidad)". Los grafos de conocimiento codifican hechos de una manera que soporta razonamiento, consultas y descubrimiento. El Knowledge Graph de Google, Wikidata y los grafos de conocimiento empresariales impulsan la búsque...
Por qué importa: Los grafos de conocimiento complementan a los LLMs proporcionando hechos estructurados y verificables que los LLMs pueden consultar en lugar de alucinar. Mientras los LLMs almacenan conocimiento implícitamente en pesos (y a veces se equivocan), los grafos de conocimiento lo almacenan explícitamente en tripletas que pueden verificarse y actualizarse. La combinación de LLMs (para entender lenguaje natural) y KGs (para anclar en hechos) es un patrón poderoso para IA empresarial.
GNN
Red Neuronal de Grafos
Modelos
Redes neuronales diseñadas para operar sobre datos estructurados como grafos — datos donde las entidades están conectadas por relaciones (redes sociales, moléculas, grafos de conocimiento, redes de transporte). Las GNN aprenden pasando mensajes entre nodos conectados, permitiendo que cada nodo actualice su representación basándose en sus vecinos. Manejan datos que no encajan ordenadamente...
Por qué importa: No todos los datos son texto o imágenes. Las redes sociales, las estructuras moleculares, los sistemas de recomendación, las redes de detección de fraude y las rutas logísticas son todos datos naturalmente estructurados como grafos. Las GNN son la herramienta correcta cuando las relaciones entre entidades son tan importantes como las entidades mismas. El descubrimiento de fármacos, el análisis de redes sociales y la predicción de tráfico dependen de las GNN.
GQA
Grouped Query Attention
An attention variant where multiple query heads share a single key-value head, reducing the KV cache size without significantly reducing quality. Instead of every query head having its own K and V projections (standard MHA), groups of query heads share K and V projections. Llama 2 70B, Mistral, Gemma, and most modern LLMs use GQA.
Why it matters: GQA is the practical solution to the KV cache memory problem. Standard multi-head attention with 64 heads needs 64 sets of K and V tensors per layer in the cache. GQA with 8 KV heads reduces this to 8 sets — an 8x memory reduction. This directly translates to serving more concurrent users or handling longer contexts on the same hardware.
Gradient Checkpointing
Activation Checkpointing, Rematerialization
A memory-saving technique that trades compute for memory during training. Instead of storing all intermediate activations from the forward pass (needed for backpropagation), gradient checkpointing only stores activations at certain "checkpoint" layers and recomputes the others during the backward pass. This reduces memory usage by up to 5–10x at the cost of ~30% more compute.
Why it matters: Gradient checkpointing is what makes it possible to fine-tune large models on limited GPU memory. Without it, a 7B model might need 80+ GB just for activations during training, exceeding a single GPU's capacity. With gradient checkpointing, the same model can be fine-tuned on a 24GB consumer GPU. It's the most commonly used memory optimization for training.
GQA
Grouped Query Attention, Atención de consulta agrupada
Fundamentos
Una variante de atención donde múltiples cabezas de query comparten una sola cabeza key-value, reduciendo el tamaño del KV cache sin reducir significativamente la calidad. En lugar de que cada cabeza de query tenga sus propias proyecciones K y V (MHA estándar), grupos de cabezas de query comparten proyecciones K y V. Llama 2 70B, Mistral, Gemma y la mayoría de los LLMs modernos usan GQA.
Por qué importa: GQA es la solución práctica al problema de memoria del KV cache. La atención multi-cabeza estándar con 64 cabezas necesita 64 conjuntos de tensores K y V por capa en el cache. GQA con 8 cabezas KV reduce esto a 8 conjuntos — una reducción de memoria de 8x. Esto se traduce directamente en servir más usuarios concurrentes o manejar contextos más largos en el mismo hardware.
Gradient Checkpointing
Activation Checkpointing, Rematerialización
Entrenamiento
Una técnica de ahorro de memoria que intercambia cómputo por memoria durante el entrenamiento. En lugar de almacenar todas las activaciones intermedias del pase forward (necesarias para la retropropagación), gradient checkpointing solo almacena activaciones en ciertas capas "checkpoint" y recalcula las demás durante el pase backward. Esto reduce el uso de memoria hasta 5–10x a cambio de ~30% más de cómputo.
Por qué importa: Gradient checkpointing es lo que hace posible ajustar modelos grandes con memoria GPU limitada. Sin él, un modelo de 7B podría necesitar más de 80 GB solo para activaciones durante el entrenamiento, excediendo la capacidad de una sola GPU. Con gradient checkpointing, el mismo modelo se puede ajustar en una GPU de consumo de 24GB. Es la optimización de memoria más comúnmente usada para entrenamiento.
Generación de Música
Música con IA, Texto a Música
Uso de IA
Crear música a partir de descripciones de texto, melodías u otras entradas de audio usando modelos de IA. "Una pista electrónica animada con una melodía de sintetizador pegajosa, 120 BPM" produce una composición musical completa. Suno, Udio, MusicLM (Google) y Stable Audio son modelos líderes. Los sistemas actuales generan voces, instrumentales y arreglos completos en diversos estilos y géneros.
Por qué importa: La generación de música es el equivalente de audio de la generación de imágenes — está haciendo la creación musical accesible para todos, no solo para músicos entrenados. Los creadores de contenido necesitan música de fondo, los desarrolladores de juegos necesitan bandas sonoras, los anunciantes necesitan jingles. La música con IA satisface estas necesidades a una fracción del costo y tiempo de contratar músicos. Pero también plantea las mismas preguntas de derechos de autor y autenticidad que la generación de imágenes.
H
Hiperparámetros
Hiperparámetros de entrenamiento
Entrenamiento
Ajustes que elige antes de que comience el entrenamiento y que controlan cómo el modelo aprende — a diferencia de los parámetros, que el modelo aprende por sí mismo. Los hiperparámetros incluyen tasa de aprendizaje (cuán grande es cada paso de actualización), tamaño del lote (cuántos ejemplos procesar a la vez), número de épocas (cuántas veces pasar por los datos), elección del optimizador (Adam, SGD, AdamW), decaimiento de peso, tasa de dropout y decisiones de arquitectura como número de capas y dimensiones ocultas. Ajustar correctamente los hiperparámetros suele ser la diferencia entre un modelo que converge hermosamente y otro que se aleja hacia el sinsentido.
Por qué importa: La sintonización de hiperparámetros es donde la ingeniería de ML se vuelve parte ciencia, parte arte. Puedes tener el conjunto de datos perfecto y la arquitectura, pero una tasa de aprendizaje demasiado alta hará que el entrenamiento falle y una que sea demasiado baja nunca convergerá. Entender los hiperparámetros es esencial para cualquiera que esté entrenando o afinando modelos — y saber cuáles son los más importantes ahorra una cantidad enorme de recursos computacionales.
HeyGen
Vídeos de avatares IA, doblaje con sincronización labial
Empresas
Plataforma de video con IA especializada en avatares realistas de tipo talking-head y doblaje automático con sincronización labial. Utilizada por empresas para marketing, capacitación y localización — convirtiendo un video en docenas de idiomas con movimientos labiales coincidentes.
Por qué importa: HeyGen transformó los avatares de video con IA de una curiosidad de investigación a una herramienta empresarial genuina, demostrando que hay ingresos reales en hacer que la creación de contenido de video sea tan fácil como escribir un documento. Su tecnología de doblaje con sincronización labial tiene particular importancia para negocios globales — reduce dramáticamente el costo y tiempo de localización de video de semanas y miles de dólares a minutos y centavos. Como una de las pocas empresas de video con IA con ingresos recurrentes sustanciales, HeyGen también sirve como caso de estudio sobre cómo construir un negocio real con IA generativa, no solo una demo.
HiDream
Modelos de generación de imágenes HiDream
Empresas
Empresa emergente de generación de imágenes que construye modelos de difusión de alta calidad. Sus lanzamientos open-weights han ganado tracción en la comunidad creativa de IA por su fuerte adherencia a los prompts y calidad visual.
Por qué importa: HiDream demostró que un equipo pequeño y enfocado puede producir modelos de imágenes open-weights que compiten con los resultados de organizaciones que gastan órdenes de magnitud más en infraestructura de entrenamiento. La fortaleza de sus modelos en renderizado de texto y precisión compositiva abordó puntos de dolor reales que frenaban la adopción comercial de imágenes generadas por IA. En el espacio rápidamente comoditizado de modelos de imagen abiertos, el éxito de HiDream refuerza el patrón de que el próximo salto en calidad puede venir de cualquier parte — no solo de los laboratorios más grandes con más GPUs.
Hume
Interfaz de voz empática, detección de emociones
Empresas
Empresa de IA que construye modelos que entienden y expresan emociones humanas. Su Empathic Voice Interface detecta tono, sentimiento y contexto emocional en tiempo real, permitiendo conversaciones de IA que responden no solo a lo que dices sino a cómo lo dices.
Por qué importa: Hume importa porque están abordando el punto ciego más evidente de la IA moderna: la comprensión emocional. Cada chatbot, asistente de voz y agente de IA hoy es esencialmente sordo al tono, respondiendo al contenido literal de las palabras mientras ignora el contexto emocional del que los humanos dependen instintivamente. La Empathic Voice Interface de Hume es el primer intento serio de cerrar esa brecha a escala de producción, y su insistencia en lineamientos éticos para IA emocional establece un estándar que la industria eventualmente se verá obligada a adoptar.
Usar AI
Cuando un modelo de IA genera información que suena confiada y plausible pero es factualmente incorrecta o completamente fabricada. El modelo no está “mintiendo” — está haciendo coincidencia de patrones para llegar a texto fluido sin un concepto de verdad. Citas falsas, estadísticas inventadas y métodos de API inexistentes son ejemplos comunes.
Por qué importa: La alucinación es el mayor problema de confianza en la IA actual. Es por eso que siempre debes verificar los hechos críticos de las respuestas de IA, y por qué existen técnicas como RAG y grounding.
El hub central de la IA open-source. 500K+ modelos, 100K+ datasets, librería Transformers, Spaces. El GitHub de la IA.
Por qué importa: Si usas modelos open-weight, usas HF. La librería Transformers es el estándar de facto.
I
Ideogram
Renderizado de texto en imágenes, Ideogram 2.0
Empresas
Empresa de generación de imágenes con IA fundada por exinvestigadores de Google Brain. Se hicieron un nombre al resolver uno de los problemas más difíciles en generación de imágenes: renderizar texto legible y preciso dentro de las imágenes.
Por qué importa: Ideogram demostró que resolver una sola debilidad crítica — texto legible en imágenes generadas por IA — podía crear una posición de mercado distinta en el saturado espacio de generación de imágenes. Su evolución de especialistas en renderizado de texto a una plataforma de diseño completa muestra cómo la diferenciación técnica, cuando apunta a puntos de dolor reales del flujo de trabajo, puede competir con rivales mejor financiados.
Infraestructura
El proceso de ejecutar un modelo entrenado para generar resultados. El entrenamiento es aprender; la inferencia es usar lo aprendido. Cada vez que envías un prompt a Claude o generas una imagen con Stable Diffusion, eso es inferencia. Es lo que les cuesta horas de GPU a los proveedores y lo que tú pagas por token.
Por qué importa: El costo y la velocidad de la inferencia determinan la economía de los productos de IA. Inferencia más rápida = menor latencia = mejor experiencia de usuario. Inferencia más barata = precios más bajos = adopción más amplia. Toda la industria de cuantización y optimización existe para hacer la inferencia más eficiente.
Inteligencia Artificial
IA, Inteligencia de Máquina
Fundamentos
El amplio campo de construir máquinas capaces de realizar tareas que normalmente requieren inteligencia humana — comprender lenguaje, reconocer imágenes, tomar decisiones, resolver problemas. La IA abarca desde sistemas estrechos que destacan en una tarea específica (filtros de spam, motores de ajedrez) hasta el objetivo aspiracional de una inteligencia general capaz de manejar cualquier tarea intelectual que un humano pueda.
Por qué importa: La IA es el paraguas que cubre todo lo demás en este wiki — machine learning, deep learning, LLMs, visión por computadora, robótica. Entender que "IA" es un espectro desde sistemas simples basados en reglas hasta modelos de lenguaje de frontera te ayuda a evaluar afirmaciones, cortar el hype y comprender lo que los sistemas actuales realmente son: detectores de patrones extraordinariamente capaces, no máquinas pensantes.
Seguridad
Una técnica de alineación desarrollada por Anthropic donde un modelo se entrena para seguir un conjunto de principios (una "constitución") en lugar de depender únicamente del feedback humano para cada decisión. El modelo critica y revisa sus propias salidas basado en estos principios, luego se entrena con las salidas revisadas. Esto reduce la necesidad de etiquetadores humanos y hace que los criterios de alineación sean explícitos y auditables.
Por qué importa: La IA Constitucional aborda dos problemas del RLHF: es costosa (etiquetadores humanos para cada ejemplo de entrenamiento) y opaca (los criterios están implícitos en los juicios de los etiquetadores). Al hacer los principios explícitos, la CAI hace la alineación más transparente, escalable y consistente. Es una parte central de cómo se entrena a Claude.
Fine-tuning a pre-trained language model on a dataset of (instruction, response) pairs to teach it to follow instructions. A base model that just predicts text becomes a model that answers questions, follows directions, and behaves like an assistant. This is the step that turns GPT into ChatGPT, or a base Llama into Llama-Chat.
Why it matters: Instruction tuning is the bridge between a raw language model (which can only complete text) and a useful assistant (which can follow instructions). Without it, even the most capable base model just generates plausible-sounding text rather than actually doing what you ask. It's arguably the most important post-training step.
Creating images from text descriptions using AI models. You type "a sunset over mountains in watercolor style" and the model generates a matching image. Current approaches include diffusion models (Stable Diffusion, DALL-E), flow matching (Flux), and autoregressive models. The field has progressed from blurry faces in 2020 to photorealistic, artistically controlled output in 2025.
Why it matters: Image generation is the most visible consumer AI capability after chatbots. It's transforming graphic design, advertising, concept art, and visual communication. Understanding the underlying approaches (diffusion, flow matching, DiT) and their trade-offs helps you choose the right tool and understand the limitations — why some prompts work and others don't, why certain styles are easier than others.
A model's ability to accurately execute what the user asks for — respecting format constraints, length requirements, style specifications, and behavioral instructions. "Write exactly 3 bullet points in French about X" tests instruction following: the response must be bullets (not paragraphs), exactly 3 (not 2 or 5), in French (not English), and about X (not Y).
Why it matters: Instruction following is the most practically important LLM capability. Users care less about whether a model "knows" more facts and more about whether it does what they actually asked. A model that writes beautiful prose but ignores your format requirements is less useful than one that reliably follows instructions. This is why IFEval and other instruction-following benchmarks have become central to model evaluation.
Instruction Tuning
Ajuste Fino de Instrucciones, IFT, SFT
Entrenamiento
Ajustar un modelo de lenguaje preentrenado con un dataset de pares (instrucción, respuesta) para enseñarle a seguir instrucciones. Un modelo base que solo predice texto se convierte en un modelo que responde preguntas, sigue indicaciones y se comporta como un asistente. Este es el paso que convierte GPT en ChatGPT, o un Llama base en Llama-Chat.
Por qué importa: El instruction tuning es el puente entre un modelo de lenguaje crudo (que solo puede completar texto) y un asistente útil (que puede seguir instrucciones). Sin él, incluso el modelo base más capaz simplemente genera texto que suena plausible en lugar de hacer realmente lo que le pides. Es posiblemente el paso de post-entrenamiento más importante.
Fundamentos
Un período de reducción de financiamiento, interés y progreso en la investigación de IA que sigue a un ciclo de hype y expectativas no cumplidas. Ha habido dos grandes inviernos de la IA: el primero de mediados de los 1970s a principios de los 1980s (después de que los sistemas expertos fallaron en escalar), y el segundo de finales de los 1980s a mediados de los 1990s (después de que las redes ...
Por qué importa: Entender los inviernos de la IA proporciona contexto esencial para evaluar las afirmaciones actuales sobre IA. El patrón — avance, hype, promesas excesivas, incumplimiento, colapso de financiamiento — se ha repetido dos veces. Si el boom actual del deep learning seguirá el mismo patrón o lo romperá es la pregunta más importante en IA. La mejor defensa contra otro invierno es una evaluación honesta de lo que los sistemas actuales pueden y no pueden hacer.
A specific two-attention-head circuit discovered in Transformers that implements in-context learning by pattern matching. If the model has seen the pattern "A B" earlier in the context and now sees "A" again, the induction head predicts "B" will follow. This simple mechanism is believed to be a fundamental building block of how LLMs learn from examples in their context.
Why it matters: Induction heads are the best-understood circuit in mechanistic interpretability — a concrete example of how Transformers implement a useful algorithm from learned weights. They explain why few-shot prompting works: when you give examples, induction heads detect the pattern and apply it. Understanding induction heads provides a foundation for understanding more complex learned behaviors.
Image Segmentation
Semantic Segmentation, SAM, Instance Segmentation
Classifying every pixel in an image into a category. Semantic segmentation labels pixels by class (road, sidewalk, building, sky). Instance segmentation distinguishes individual objects (person 1, person 2). Panoptic segmentation does both. Meta's SAM (Segment Anything Model) can segment any object from a point click or text prompt, without task-specific training.
Why it matters: Segmentation provides the most precise understanding of image content. Self-driving cars need pixel-level road boundaries, not just bounding boxes. Medical imaging needs exact tumor boundaries. Photo editing needs precise object masks for background removal. SAM's ability to segment any object with zero training made this previously specialized capability accessible to everyone.
Inpainting
Image Inpainting, Outpainting
Filling in a selected region of an image with AI-generated content that matches the surrounding context. You mask an area (painting over it), describe what should replace it, and the model generates new content that blends seamlessly with the existing image. Outpainting extends an image beyond its original borders. Both use the same underlying diffusion process, conditioned on the unmasked regions.
Why it matters: Inpainting is the most practical image editing tool AI provides. Remove unwanted objects, replace backgrounds, fix defects, add elements, or modify specific parts of an image while keeping everything else intact. It's the AI equivalent of Photoshop's content-aware fill, but guided by natural language and dramatically more capable.
Inicialización de Pesos
Xavier Init, Kaiming Init, He Init
Entrenamiento
Cómo se establecen los pesos de una red neuronal antes de que comience el entrenamiento. Una mala inicialización puede hacer que el entrenamiento falle antes de empezar (activaciones que se desvanecen o explotan). Una buena inicialización asegura que las activaciones y gradientes mantengan magnitudes razonables a través de las capas. La inicialización Xavier (para tanh/sigmoid) y la inicialización Kaiming/He (para ReLU) son los estándares, cada una calibrada para la función de activación.
Por qué importa: La inicialización parece un detalle menor pero es crítica para entrenar redes profundas. Una red con pesos iniciales aleatorios (demasiado grandes) produce activaciones que explotan. Una con pesos demasiado pequeños produce activaciones que se desvanecen. La inicialización adecuada coloca la red en una "zona ideal" donde las señales fluyen sin explotar o desvanecerse — un prerrequisito para que el descenso de gradiente funcione en absoluto.
Image-to-Image
img2img, Condicionamiento por Imagen
Generar una nueva imagen basada en una imagen existente más un prompt de texto. En lugar de partir de ruido puro (text-to-image), el proceso de difusión comienza desde una versión ruidosa de la imagen de entrada, preservando su estructura mientras la modifica según el prompt. "Una versión cyberpunk de esta foto" mantiene la composición pero transforma el estilo y los detalles.
Por qué importa: Image-to-image es el puente entre la fotografía y el arte con IA. Te permite usar bocetos, fotos o arte existente como punto de partida, manteniendo el diseño y la composición mientras la IA transforma el estilo, agrega detalles o reimagina el contenido. Es más controlable que text-to-image porque estás guiando el resultado con estructura visual, no solo con palabras.
J
Jina AI
Embeddings, API Reader, rerankers
Empresas
Empresa de IA con sede en Berlín especializada en búsqueda y embeddings. Sus modelos jina-embeddings y su Reader API (que convierte cualquier URL en texto listo para LLMs) se han convertido en infraestructura esencial para pipelines de RAG en todo el mundo.
Por qué importa: Jina AI construyó la infraestructura de embeddings y retrieval de la que dependen miles de sistemas RAG, demostrando que herramientas de búsqueda enfocadas pueden ser más valiosas que intentar hacer de todo. Sus modelos de embeddings de contexto largo y su Reader API resuelven dos de los problemas prácticos más difíciles en búsqueda impulsada por IA — representar documentos largos fielmente y extraer texto limpio de páginas web desordenadas — y lo hicieron manteniendo los modelos centrales como open source. En un ecosistema dominado por laboratorios generalistas, Jina demuestra que hay un negocio real en hacer una sola cosa excepcionalmente bien y hacerla fácil de usar para los desarrolladores.
Techniques that trick an AI model into bypassing its safety training and generating content it was designed to refuse — instructions for dangerous activities, harmful content, or behaviors that violate the model's usage policies. Jailbreaks exploit the gap between what the model was trained to refuse and what clever prompting can elicit.
Why it matters: Jailbreaking is the adversarial testing ground for AI safety. Every model ships with safety guardrails, and every major model has been jailbroken. The cat-and-mouse game between jailbreak techniques and safety measures drives improvement in alignment. Understanding jailbreaks helps you evaluate how robust a model's safety actually is, rather than taking marketing claims at face value.
Jailbreak
Jailbreaking, Prompt Adversarial
Seguridad
Técnicas que engañan a un modelo de IA para eludir su entrenamiento de seguridad y generar contenido que fue diseñado para rechazar — instrucciones para actividades peligrosas, contenido dañino o comportamientos que violan las políticas de uso del modelo. Los jailbreaks explotan la brecha entre lo que el modelo fue entrenado para rechazar y lo que un prompting inteligente puede provocar.
Por qué importa: El jailbreaking es el campo de pruebas adversarial de la seguridad en IA. Cada modelo se lanza con barandillas de seguridad, y cada modelo importante ha sido vulnerado. El juego del gato y el ratón entre técnicas de jailbreak y medidas de seguridad impulsa la mejora en la alineación. Entender los jailbreaks te ayuda a evaluar cuán robusta es realmente la seguridad de un modelo, en vez de aceptar las afirmaciones de marketing sin más.
K
Kling AI
Generación de vídeo Kling, vídeo de larga duración
Empresas
Plataforma de video con IA de Kuaishou (la segunda plataforma de videos cortos más grande de China). Ganó rápida atención internacional por producir algunos de los videos generados por IA con mayor coherencia física y consistencia temporal.
Por qué importa: Kling AI demostró que los laboratorios de IA chinos podían igualar a los competidores occidentales en la frontera de la generación de video, produciendo resultados con coherencia física y consistencia temporal que establecieron un nuevo estándar en el campo. Respaldado por la plataforma de miles de millones de videos diarios de Kuaishou y ofrecido a precios agresivos a nivel global, Kling se ha convertido en un motor principal de competencia en el espacio de video con IA, empujando la calidad hacia arriba y los precios hacia abajo para todo el mercado.
KV Cache
Caché de clave-valor
Almacena los tensores de atención key/value previamente computados para que no necesiten recalcularse para cada nuevo token. Intercambia memoria por velocidad.
Por qué importa: La KV cache es la razón por la que la inferencia de LLMs está limitada por la memoria. Un contexto de 100K en un modelo de 70B puede necesitar ~256 GB de caché — más que los propios pesos del modelo.
The date after which a model has no training data, meaning it lacks knowledge of events, discoveries, or changes that occurred after that date. If a model's cutoff is April 2024, it doesn't know about anything that happened in May 2024 or later — new products, news events, scientific papers, or updated facts.
Why it matters: The knowledge cutoff is the most common source of frustration with AI assistants. "Why doesn't it know about X?" Because X happened after training. This limitation drives the adoption of RAG (giving the model access to current information) and tool use (letting the model search the web). Understanding the cutoff helps you know when to trust the model and when to verify.
A structured representation of knowledge as a network of entities (nodes) connected by relationships (edges). "Paris (entity) is the capital of (relationship) France (entity)." Knowledge graphs encode facts in a way that supports reasoning, querying, and discovery. Google's Knowledge Graph, Wikidata, and enterprise knowledge graphs power search, recommendations, and data integration.
Why it matters: Knowledge graphs complement LLMs by providing structured, verifiable facts that LLMs can query rather than hallucinate. While LLMs store knowledge implicitly in weights (and sometimes get it wrong), knowledge graphs store it explicitly in triples that can be verified and updated. The combination of LLMs (for understanding natural language) and KGs (for grounding in facts) is a powerful pattern for enterprise AI.
Knowledge Editing
Model Editing, Fact Editing
Techniques for modifying specific facts in a trained model without retraining it. If a model incorrectly states "The president of France is Macron" after a new election, knowledge editing can update this specific fact by modifying targeted weights, without affecting the model's other knowledge or capabilities. The goal is surgical precision: change one fact, leave everything else intact.
Why it matters: Knowledge editing addresses a practical problem: models become outdated, and retraining is expensive. If you could update specific facts cheaply, models could stay current between major training runs. It also has safety implications: could you edit out dangerous knowledge? The field is promising but immature — edits often have unintended side effects on related knowledge.
L
Leonardo.ai
Generación de imágenes creativas, creación de assets para juegos
Empresas
Plataforma australiana de imagenes con IA que se hizo un nicho entre Midjourney y Stable Diffusion. Popular entre desarrolladores de videojuegos y artistas digitales por sus modelos afinados, su canvas en tiempo real y su enfoque en assets creativos listos para produccion.
Por qué importa: Leonardo.ai demostro que la generacion de imagenes con IA podia empaquetarse como una plataforma creativa profesional, no solo como una caja de prompts novedosa, y que hacerlo podia atraer decenas de millones de usuarios. Su enfoque en flujos de trabajo para desarrollo de videojuegos y arte digital abrio casos de uso que herramientas mas amplias como Midjourney y DALL-E no estaban disenadas especificamente para cubrir. La adquisicion por Canva valido toda la categoria de generacion de imagenes con IA como un activo estrategico para grandes plataformas de diseno, sentando el modelo de como las herramientas de IA independientes son absorbidas por ecosistemas creativos mas grandes.
Liquid AI
Liquid Foundation Models, redes neuronales líquidas
Empresas
Spinout del MIT que explora arquitecturas de redes neuronales fundamentalmente diferentes, inspiradas en circuitos neuronales biologicos. Sus Liquid Foundation Models usan dinamicas de tiempo continuo en lugar de transformers de pesos fijos, prometiendo mejor eficiencia y adaptabilidad.
Por qué importa: Liquid AI representa el desafio financiado mas serio a la suposicion de que los transformers son la unica arquitectura que importa. Al construir modelos fundacionales de grado produccion sobre dinamicas de tiempo continuo inspiradas en la biologia, estan probando si la apuesta total de la industria de IA por los mecanismos de atencion fue prematura. Incluso si los LFMs no destronan a los transformers directamente, sus ventajas de eficiencia para despliegue en el edge y procesamiento de secuencias largas podrian abrir nichos criticos en robotica, IA movil y sistemas embebidos — mercados donde ejecutar un transformer de 70B simplemente no es una opcion.
Luma AI
Dream Machine, Ray2
Empresas
Empresa de IA enfocada en generacion de video y 3D. Su Dream Machine fue uno de los primeros generadores de video con IA accesibles y de alta calidad, y Ray2 impulso significativamente la calidad y coherencia del video.
Por qué importa: Luma AI democratizo la generacion de video con IA de la misma forma en que Stable Diffusion democratizo las imagenes — haciendola gratuita, rapida y accesible para cualquiera con un navegador. Su evolucion de startup de captura 3D a lider en generacion de video, combinada con una profundidad tecnica unica en comprension espacial, los posiciona como una de las pocas empresas que podria genuinamente cerrar la brecha entre video con IA, contenido 3D y los formatos de medios inmersivos que vienen despues.
Latencia
Time to First Token (TTFT)
Infraestructura
El retraso entre enviar una solicitud y obtener la primera respuesta. En IA, esto se mide frecuentemente como Time to First Token (TTFT) — cuanto tarda el modelo en empezar a transmitir su respuesta. Se ve afectado por el tamano del modelo, la carga del servidor, la distancia de red y la longitud del prompt.
Por qué importa: Los usuarios perciben cualquier cosa por encima de ~2 segundos como lento. La baja latencia es la razon por la que modelos mas pequenos a menudo ganan para aplicaciones en tiempo real, incluso cuando modelos mas grandes son "mas inteligentes". Es un diferenciador clave entre proveedores.
Fundamentos
Una red neuronal entrenada con cantidades masivas de texto para comprender y generar lenguaje humano. "Grande" se refiere al numero de parametros (miles de millones) y al tamano de los datos de entrenamiento (billones de tokens). Claude, GPT, Gemini, Llama y Mistral son todos LLMs.
Por qué importa: Los LLMs son la tecnologia detras de cada chat de IA, asistente de codigo y generador de texto que usas. Entender lo que son (coincidencias de patrones estadisticos, no seres sintientes) te ayuda a usarlos de forma efectiva y reconocer sus limites.
LoRA
Adaptación de bajo rango
Entrenamiento
Una tecnica que hace que el fine-tuning sea dramaticamente mas barato al entrenar solo una pequena cantidad de parametros adicionales en lugar de modificar el modelo entero. Los "adaptadores" LoRA son complementos livianos (a menudo solo megabytes) que modifican el comportamiento de un modelo sin reentrenar sus miles de millones de parametros.
Por qué importa: LoRA democratizo el fine-tuning. Antes de el, personalizar un modelo de 7B requeria recursos serios de GPU. Ahora puedes hacer fine-tuning en una sola GPU de consumo en horas y compartir el diminuto archivo de adaptador. Es la razon por la que hay miles de modelos especializados en HuggingFace.
Función de pérdida
Función objetivo
Mide cuán equivocadas están las predicciones. Para LLMs: pérdida de entropía cruzada = cuán sorprendido está el modelo por el token real que viene. El entrenamiento minimiza esta métrica.
Por qué importa: La brújula del entrenamiento. Entender la pérdida ayuda a interpretar curvas de entrenamiento y diagnosticar problemas.
Llamada de Funciones
Tool Calling, Tool Use API
Usar IA
Una forma estructurada para que los modelos de IA soliciten la ejecución de funciones externas durante una conversación. Tú defines funciones con nombres, descripciones y esquemas de parámetros. Cuando el modelo determina que una función ayudaría a responder una consulta, produce una llamada de función estructurada (con argumentos) en lugar de texto. Tu código ejecuta la función y devuelve el resultado para que el modelo lo incorpore.
Por qué importa: La llamada de funciones es lo que convierte a un chatbot en un agente. Sin ella, un modelo solo puede generar texto. Con ella, un modelo puede buscar en bases de datos, llamar APIs, ejecutar cálculos, reservar citas, enviar correos — cualquier cosa que puedas exponer como una función. Es el mecanismo detrás de cada asistente de IA que realmente hace cosas en lugar de solo hablar de ellas.
An open-source C/C++ library for running LLM inference on consumer hardware, created by Georgi Gerganov. llama.cpp performs quantized inference without requiring CUDA, PyTorch, or Python — it runs on CPUs, Apple Silicon, and consumer GPUs. It was the first tool to make running large language models locally accessible to normal developers and enthusiasts.
Why it matters: llama.cpp started the local AI revolution. Before it, running a language model required expensive NVIDIA GPUs and complex Python setups. llama.cpp showed that quantized models could run on a MacBook or even a Raspberry Pi with acceptable quality. It spawned an entire ecosystem (Ollama, LM Studio, kobold.cpp) and made "self-hosted AI" a real option.
A popular open-source framework for building applications with language models. LangChain provides abstractions for common patterns: connecting LLMs to data sources (RAG), building multi-step chains of LLM calls, managing conversation memory, using tools, and orchestrating agents. It supports multiple providers (Anthropic, OpenAI, local models) through a unified interface.
Why it matters: LangChain is the most widely-used LLM application framework, which means you'll encounter it in tutorials, job descriptions, and existing codebases. It's also controversial — critics argue it adds unnecessary abstraction over simple API calls. Understanding what LangChain does (and when to use it vs. direct API calls) helps you make informed architectural decisions.
The raw, unnormalized scores that a model outputs before they're converted into probabilities by the softmax function. For a language model, the logits are a vector with one value per token in the vocabulary — higher values indicate tokens the model considers more likely. Logits are the most informative output a model produces, containing more information than the final probability distribution.
Why it matters: Understanding logits helps you understand how models "think." Temperature, top-p, and top-k sampling all operate on logits. Classifier-free guidance in image generation manipulates logits. Logit bias (adding offsets to specific tokens) lets you steer model behavior. If you're building AI applications beyond basic chat, you'll eventually need to work with logits directly.
Herramientas
Una biblioteca de código abierto en C/C++ para ejecutar inferencia de LLM en hardware de consumo, creada por Georgi Gerganov. llama.cpp realiza inferencia cuantizada sin requerir CUDA, PyTorch o Python — funciona en CPUs, Apple Silicon y GPUs de consumo. Fue la primera herramienta que hizo accesible la ejecución de grandes modelos de lenguaje localmente para desarrolladores y entusiastas ...
Por qué importa: llama.cpp inició la revolución de la IA local. Antes, ejecutar un modelo de lenguaje requería GPUs NVIDIA costosas y configuraciones complejas de Python. llama.cpp demostró que los modelos cuantizados podían ejecutarse en un MacBook o incluso una Raspberry Pi con calidad aceptable. Generó todo un ecosistema (Ollama, LM Studio, kobold.cpp) e hizo que la "IA autoalojada" fuera una opción real.
Herramientas
Un framework popular de código abierto para construir aplicaciones con modelos de lenguaje. LangChain proporciona abstracciones para patrones comunes: conectar LLMs a fuentes de datos (RAG), construir cadenas de múltiples pasos de llamadas al LLM, gestionar memoria de conversación, usar herramientas y orquestar agentes. Soporta múltiples proveedores (Anthropic, OpenAI, modelos locales) a través...
Por qué importa: LangChain es el framework de aplicaciones LLM más ampliamente usado, lo que significa que lo encontrarás en tutoriales, descripciones de trabajo y bases de código existentes. También es controversial — los críticos argumentan que añade abstracción innecesaria sobre llamadas simples a la API. Entender qué hace LangChain (y cuándo usarlo vs. llamadas directas a la API) te ayuda a tomar decisiones arquitectónicas informadas.
Logits
Puntuaciones Crudas, Salidas Pre-Softmax
Fundamentos
Las puntuaciones crudas y no normalizadas que un modelo produce antes de ser convertidas en probabilidades por la función softmax. Para un modelo de lenguaje, los logits son un vector con un valor por cada token en el vocabulario — valores más altos indican tokens que el modelo considera más probables. Los logits son la salida más informativa que un modelo produce, conteniendo más informa...
Por qué importa: Entender los logits te ayuda a comprender cómo "piensan" los modelos. La temperatura, top-p y top-k sampling operan todos sobre logits. La guía sin clasificador en la generación de imágenes manipula logits. El logit bias (añadir offsets a tokens específicos) te permite dirigir el comportamiento del modelo. Si estás construyendo aplicaciones de IA más allá del chat básico, eventualmente necesitarás trabajar con logits directamente.
LSTM
Long Short-Term Memory, Memoria a largo-corto plazo
Modelos
Un tipo de red neuronal recurrente (RNN) diseñado para aprender dependencias de largo alcance en datos secuenciales. LSTM introduce un "estado de celda" — una autopista de memoria que puede transportar información sin cambios a lo largo de muchos pasos temporales — controlada por tres compuertas: una compuerta de entrada (qué agregar), una compuerta de olvido (qué eliminar) y una compuerta de salida (qué exponer). Inventado en 1997, LSTM dominó el modelado de secuencias hasta que emergieron los Transformers.
Por qué importa: LSTM fue la columna vertebral del NLP durante una década (2010s): traducción automática, reconocimiento de voz, generación de texto y análisis de sentimiento, todos funcionaban con LSTMs. Entender LSTM te ayuda a comprender por qué los Transformers lo reemplazaron (paralelismo y atención de largo alcance vs. procesamiento secuencial y estado comprimido) y por qué los SSMs como Mamba son interesantes (revisitan la idea de estado con compuertas con mejoras modernas).
Learning Rate Schedule
LR Schedule, Warmup, Cosine Annealing
A strategy for changing the learning rate during training rather than keeping it constant. Most modern training uses warmup (gradually increase from near-zero to peak) followed by decay (gradually decrease toward zero). Cosine annealing is the most common decay schedule. The learning rate controls how large each gradient update step is — arguably the most important hyperparameter in training.
Why it matters: Getting the learning rate schedule right can make or break a training run. Too high and the model diverges (loss spikes, training fails). Too low and it trains too slowly or gets stuck. The schedule interacts with batch size, model size, and data — there's no universal setting. Understanding learning rate schedules helps you interpret training curves and diagnose training issues.
Lambda Labs
Lambda, Lambda Cloud
Empresas
Un proveedor de nube GPU enfocado específicamente en cargas de trabajo de IA y machine learning. Lambda ofrece instancias GPU NVIDIA (A100, H100, H200) bajo demanda y reservadas para entrenamiento e inferencia a precios competitivos o inferiores a AWS, GCP y Azure. También venden estaciones de trabajo y servidores GPU. Fundada en 2012, Lambda se ha convertido en un proveedor de referencia para investigadores de IA y startups.
Por qué importa: Lambda representa la capa de nube GPU que permite el desarrollo de IA para equipos que no pueden permitirse construir sus propios centros de datos pero necesitan más control y mejores precios que los proveedores de nube hyperscaler. Para startups entrenando modelos, la disponibilidad de GPU y los precios de Lambda pueden hacer la diferencia entre un entrenamiento factible e infactible.
M
Modelo
Modelo de IA, modelo ML
Fundamentos
Un sistema matemático entrenado que toma entradas y produce salidas basado en patrones aprendidos de datos. En IA, "modelo" es el término general para la cosa que estás usando — ya sea GPT-4 generando texto, Stable Diffusion generando imágenes o Whisper transcribiendo habla. Un modelo está definido por su arquitectura (cómo está estructurado), sus parámetros (lo que aprendió) y sus datos de entrenamiento (de qué aprendió). Cuando alguien pregunta "¿cuál modelo debo usar?", se está refiriendo a esto.
Por qué importa: Modelo es la palabra más utilizada en IA, y tiene diferentes significados en distintos contextos. Un "modelo" puede referirse a la arquitectura (Transformer), a una instancia específica entrenada (Claude Opus 4.6), a un archivo en el disco (un archivo .gguf) o a un punto final de API. Entender qué es realmente un modelo — y qué no es — es la base para todo lo demás.
Fundamentos
El amplio campo de la ciencia de la computación donde los sistemas aprenden patrones a partir de datos en lugar de seguir reglas explícitas. En lugar de programar una computadora para reconocer un gato listando características (cuatro patas, orejas puntiagudas, bigotes), se le muestran miles de fotos de gatos y se le deja que descubra el patrón por sí mismo. El aprendizaje automático abarca desde la regresión lineal simple hasta las redes neuronales profundas que impulsan la IA actual — el aprendizaje supervisado (ejemplos etiquetados), el aprendizaje no supervisado (encontrar estructura) y el aprendizaje por refuerzo (ensayo y error).
Por qué importa: El aprendizaje automático es la base de todo lo que llamamos "IA" hoy en día. Cada LLM, cada generador de imágenes, cada algoritmo de recomendación, cada filtro de spam — todo es aprendizaje automático. Entender el ML como la disciplina más amplia te permite ver dónde encaja el aprendizaje profundo, dónde los métodos clásicos aún ganan y por qué "IA" es simplemente "ML que se volvió muy buena".
Memoria
Memoria de IA, contexto persistente
Usar AI
Mecanismos que permiten a los modelos de IA retener y recordar información más allá de una sola conversación. Esto incluye memoria en contexto (usando la ventana de contexto), memoria externa (RAG, bases de datos vectoriales), memoria de conversación persistente (recordar preferencias del usuario entre sesiones) y memoria de trabajo (mantener estado durante tareas de agente de múltiples pasos). La memoria es lo que hace que la IA se sienta como un colaborador en lugar de una herramienta sin estado.
Por qué importa: Sin memoria, cada conversación con IA empieza desde cero. Repites tus preferencias, re-explicas tu codebase, re-describes tu proyecto. La memoria es lo que convierte un chatbot en un asistente — y es uno de los problemas más difíciles de resolver bien, equilibrando relevancia, privacidad, obsolescencia y costos de almacenamiento.
Moonshot AI
Kimi, modelos de contexto ultra-largo
Empresas
Empresa china de IA que causó sensación al lanzar Kimi, un chatbot con una ventana de contexto de 2 millones de tokens. Fundada por Yang Zhilin, un exinvestigador detrás de innovaciones clave en modelado de contexto largo.
Por qué importa: Moonshot AI forzó a toda la industria a tomarse en serio la longitud de contexto. Antes de Kimi, el soporte de contexto largo era algo deseable; después de que Kimi se hiciera viral en China, cada laboratorio importante se apresuró a extender sus ventanas de contexto. La apuesta de Yang Zhilin de que los usuarios cambiarían fundamentalmente cómo interactúan con la IA cuando se les da suficiente contexto ha sido validada por el crecimiento explosivo de Kimi, y las técnicas que Moonshot desarrolló para inferencia eficiente de secuencias largas están influyendo en cómo la próxima generación de modelos maneja documentos, codebases y razonamiento complejo de múltiples pasos.
Meta AI
Llama, FAIR, PyTorch
Empresas
La división de investigación en IA de Meta, sede de FAIR (Fundamental AI Research). Responsable de la familia de modelos open-weights Llama y de PyTorch, el framework de deep learning utilizado por la mayor parte de la industria de IA.
Por qué importa: Meta AI cambió fundamentalmente la economía de la IA al demostrar que los modelos de clase frontera podían liberarse como open weights. Llama y sus derivados impulsan miles de aplicaciones, startups y proyectos de investigación que nunca habrían tenido acceso a modelos de ese calibre. PyTorch sustenta la mayoría de los sistemas de investigación y producción de IA en todo el mundo. Y con más de 3 mil millones de usuarios en sus apps, Meta tiene una distribución que ningún otro laboratorio de IA puede igualar — cuando lanzan una función de IA, llega a un tercio de la humanidad de la noche a la mañana.
Mistral AI
Mistral, Mixtral, Codestral, Le Chat
Empresas
Potencia europea de IA fundada por exinvestigadores de DeepMind y Meta. Conocida por superar expectativas con modelos eficientes y por defender la distribución open-weights junto con ofertas comerciales.
Por qué importa: Mistral demostró que no necesitas presupuestos de hyperscalers americanos para construir modelos de IA de frontera. Sus arquitecturas eficientes — particularmente su trabajo temprano en sparse Mixture of Experts — influyeron en el enfoque de toda la industria hacia el diseño de modelos, y sus lanzamientos open-weights dieron a desarrolladores en todo el mundo acceso a modelos de alta calidad sin dependencias de APIs. Como la primera empresa europea de IA en alcanzar una competencia genuina de frontera, Mistral también tiene significado estratégico: su éxito (o fracaso) determinará si Europa puede ser un jugador en IA, o meramente un regulador de ella.
MiniMax
Modelos MiniMax, Hailuo AI, generación de vídeo
Empresas
Empresa china de IA que construye modelos a gran escala en texto, voz y video. Conocida por su plataforma de consumo Hailuo y modelos multimodales cada vez más competitivos.
Por qué importa: MiniMax ha emergido como una de las empresas de IA más versátiles de China, construyendo modelos competitivos en texto, voz y video desde un único stack integrado. Su plataforma Hailuo AI trajo generación de video con IA de alta calidad a una audiencia global de forma gratuita, demostrando que los laboratorios chinos de IA pueden construir productos de consumo con alcance internacional genuino — no solo APIs empresariales o papers de investigación.
MCP
Protocolo de contexto de modelo
Herramientas
Un protocolo abierto (creado por Anthropic) que estandariza como los modelos de IA se conectan a herramientas externas y fuentes de datos. Piensa en el como USB-C para IA — una interfaz estandar en lugar de integraciones personalizadas para cada herramienta. Los servidores MCP exponen capacidades; los clientes MCP (como Claude) las consumen.
Por qué importa: Antes de MCP, cada integracion entre IA y herramientas era a medida. MCP significa que una herramienta construida una vez funciona con cualquier IA compatible. Ya es soportado por Claude, Cursor y otros. Asi es como la IA pasa de ser un chatbot a ser un asistente real.
Modelos
Una arquitectura donde el modelo contiene múltiples sub-redes “expertas”, pero solo activa unas pocas de ellas para cada entrada. Una red de enrutamiento decide qué expertos son relevantes para un token dado. Esto significa que un modelo puede tener más de 100B parámetros totales pero solo usar 20B en cualquier pasada hacia adelante.
Por qué importa: MoE es cómo modelos como Mixtral y (supuestamente) GPT-4 obtienen la calidad de un modelo enorme con la velocidad de uno más pequeño. El trade-off es mayor uso de memoria (todos los expertos deben estar cargados) aunque el cómputo es más barato.
Fundamentos
Un modelo que puede entender y/o generar múltiples tipos de datos: texto, imágenes, audio, video, código. Claude puede leer imágenes y texto; algunos modelos también pueden producir imágenes o voz. “Multimodal” contrasta con modelos “unimodales” que solo manejan un tipo.
Por qué importa: Las tareas del mundo real son multimodales. Quieres mostrarle a una IA una captura de pantalla y preguntar “¿qué está mal aquí?” o darle un diagrama y decir “implementa esto”. Los modelos multimodales hacen eso posible.
Mamba
SSM selectivo
Modelo de espacio de estados selectivo de Gu y Dao. Escalado lineal en longitud de secuencia vs el cuadrático del Transformer. Estado oculto comprimido que se actualiza selectivamente.
Por qué importa: El desafío más creíble a la dominancia del Transformer. Si se logra tiempo lineal con calidad equivalente, las implicaciones son enormes. Arquitecturas híbridas (Jamba, Zamba) ya se están desplegando.
Ingeniería inversa de lo que sucede dentro de las redes neuronales a nivel de neuronas, circuitos y features. No solo qué produce el modelo, sino cómo lo computa.
Por qué importa: Central para la seguridad de IA. Los investigadores han encontrado circuitos específicos (cabezas de inducción, etc.) dentro de los Transformers. Área de investigación clave en Anthropic.
Generación de imágenes con IA conocida por su refinamiento estético. Opera vía Discord y web. Equipo pequeño, rentable, enfocado en calidad.
Por qué importa: El más popular para uso creativo y artístico. Demuestra que la curación y la UX importan tanto como la arquitectura.
The degradation that occurs when AI models are trained on data generated by previous AI models, creating a feedback loop where errors and biases accumulate across generations. Each generation loses some diversity and amplifies some artifacts from the previous one, eventually producing models that generate repetitive, generic, or distorted outputs.
Why it matters: Model collapse is the ticking time bomb of the AI-generated content era. As the internet fills with AI-generated text (estimated at 10–50% of new web content), future models trained on web scrapes will inevitably ingest AI outputs. If this isn't carefully managed, model quality could plateau or degrade. It's why data curation and provenance tracking are becoming critical infrastructure.
Architectures where multiple AI agents collaborate, debate, or specialize to solve problems that a single agent can't handle alone. Each agent might have a different role (researcher, coder, reviewer), different tools, or different models. They communicate through structured messages, shared memory, or direct handoffs.
Why it matters: Multi-agent systems are the emerging paradigm for complex AI tasks. A single LLM call handles a question. An agent handles a multi-step task. A multi-agent system handles tasks that require different expertise, parallel work, or quality assurance through review. As AI moves from chatbots to autonomous workflows, multi-agent architectures become the natural scaling pattern.
Modelo de Recompensa
RM, Modelo de Preferencias
Entrenamiento
Un modelo entrenado para predecir las preferencias humanas entre respuestas de IA. Dado un prompt y dos respuestas candidatas, el modelo de recompensa puntúa cuál preferirían los humanos. En el pipeline de RLHF, el modelo de recompensa proporciona la señal que entrena al modelo de lenguaje para producir mejores respuestas — es el proxy aprendido del juicio humano.
Por qué importa: El modelo de recompensa es el componente clave que hace funcionar el RLHF. No puedes tener a un humano evaluando cada respuesta durante el entrenamiento (demasiado lento, demasiado caro), así que entrenas un modelo para aproximar las preferencias humanas y usas eso como señal de entrenamiento. La calidad del modelo de recompensa determina directamente la calidad de la alineación — un mal modelo de recompensa produce un modelo que optimiza las cosas equivocadas.
Muestreo
Estrategia de Decodificación, Top-p, Top-k
Fundamentos
El proceso de seleccionar qué token generar a continuación de la distribución de probabilidad predicha por el modelo. La decodificación greedy siempre elige el token más probable. El muestreo aleatorio elige proporcionalmente a las probabilidades. La temperatura, top-p (nucleus) y top-k son controles que ajustan la aleatoriedad y diversidad de la selección. La estrategia de muestreo afecta dram...
Por qué importa: Los parámetros de muestreo son las perillas más accesibles para controlar el comportamiento del LLM. Temperatura 0 para generación de código determinista. Temperatura 0.7 para escritura creativa. Top-p 0.9 para un buen equilibrio. Estos no son números mágicos — controlan directamente qué tokens considera el modelo en cada paso. Entender el muestreo te ayuda a ajustar las salidas para tu caso de uso específico.
Modelo del mundo
Modelo interno del mundo, Simulador aprendido
Modelos
Un modelo que construye una representación interna de cómo funciona el mundo — no solo correlaciones estadísticas sino relaciones causales, leyes físicas y razonamiento espacial. El debate sobre si los LLMs tienen modelos del mundo es uno de los más controvertidos en IA: ¿realmente entienden que los objetos caen cuando se sueltan, o solo saben que "cae" a menudo sigue a "soltó" en el texto?
Por qué importa: Los modelos del mundo están en el centro de la pregunta más importante de la IA: ¿la comprensión requiere más que la coincidencia de patrones? Si los LLMs construyen genuinos modelos del mundo, están más cerca de la comprensión de lo que pensábamos. Si no, hay una brecha fundamental de capacidad que el escalado por sí solo no cerrará. La respuesta tiene implicaciones masivas para la seguridad de la IA, las capacidades y el camino hacia una inteligencia más general.
Running multiple attention operations in parallel, each with its own learned projection of the queries, keys, and values. Instead of one attention function looking at the full model dimension, multi-head attention splits the dimension into multiple "heads" (e.g., 32 heads of 128 dimensions each for a 4096-dimension model). Each head can focus on different types of relationships simultaneously.
Why it matters: Multi-head attention is why Transformers are so expressive. One head might focus on syntactic relationships (subject-verb), another on positional patterns (nearby words), another on semantic similarity. This parallel specialization lets the model capture many types of dependencies simultaneously, which a single attention head can't do as effectively.
Masked Language Modeling
MLM, Masked LM, Cloze Task
A self-supervised training objective where random tokens in the input are replaced with a [MASK] token, and the model must predict the original tokens from context. BERT popularized MLM: mask 15% of tokens, use bidirectional attention to look at both left and right context, and predict the masked words. This creates powerful text understanding models (as opposed to text generation models).
Why it matters: MLM is the training objective that created BERT and the entire family of encoder models that still power most production search, classification, and embedding systems. Understanding MLM vs. causal language modeling (next-token prediction) explains the fundamental split between understanding models (BERT) and generation models (GPT) — and why each excels at different tasks.
Model Merging
TIES, DARE, SLERP, Frankenmerge
Combining the weights of multiple fine-tuned models into a single model without any additional training. If model A is great at coding and model B is great at creative writing, merging them can produce a model that's good at both. Popular merging methods include SLERP (spherical interpolation), TIES (resolving sign conflicts), and DARE (randomly dropping parameters before merging).
Why it matters: Model merging is the open-source community's secret weapon. It costs zero compute (just math on weight tensors) and can produce models that outperform their components. Many top models on the Open LLM Leaderboard are merges. It's also how practitioners combine multiple LoRA fine-tunes into a single versatile model. Understanding merging unlocks a powerful, free capability for anyone working with open models.
Modelado de lenguaje enmascarado
Masked Language Modeling, MLM, Tarea Cloze
Entrenamiento
Un objetivo de entrenamiento auto-supervisado donde tokens aleatorios en la entrada se reemplazan con un token [MASK], y el modelo debe predecir los tokens originales a partir del contexto. BERT popularizó MLM: enmascarar el 15% de los tokens, usar atención bidireccional para mirar tanto el contexto izquierdo como derecho, y predecir las palabras enmascaradas. Esto crea modelos potentes de comprensión de texto (a diferencia de modelos de generación de texto).
Por qué importa: MLM es el objetivo de entrenamiento que creó BERT y toda la familia de modelos codificadores que aún alimentan la mayoría de los sistemas de búsqueda, clasificación y embedding en producción. Entender MLM vs. modelado de lenguaje causal (predicción del siguiente token) explica la división fundamental entre modelos de comprensión (BERT) y modelos de generación (GPT) — y por qué cada uno destaca en diferentes tareas.
Machine Translation
MT, Neural Machine Translation, NMT
Automatically translating text from one language to another. Modern neural machine translation (NMT) uses encoder-decoder Transformers trained on parallel corpora (texts and their translations). Google Translate, DeepL, and LLM-based translation all use variants of this approach. Quality has improved dramatically — for common language pairs, MT approaches professional human translation for routine content.
Why it matters: Machine translation breaks language barriers at scale. It enables global commerce, cross-language search, real-time communication, and access to information across languages. For AI specifically, MT is how models trained primarily on English can serve users in 100+ languages — and it's why multilingual tokenizer efficiency matters for cost.
Model Registry
Model Store, Model Catalog
A centralized system for versioning, tracking, and managing trained machine learning models throughout their lifecycle. Like a package registry (npm, PyPI) but for ML models: each model version is stored with its metadata (training data, hyperparameters, performance metrics, lineage), making it possible to reproduce results, compare versions, and deploy specific models to production.
Why it matters: Without a model registry, ML development becomes chaos: which version of the model is in production? What data was it trained on? When did we last update it? Who trained it? A model registry answers all of these questions and provides the foundation for reproducible, auditable, and reliable ML deployment. It's essential infrastructure for any team running models in production.
Fundamentos
La operación matemática fundamental que subyace a todas las redes neuronales. Multiplicar una matriz de pesos por un vector (o matriz) de entrada produce un vector de salida. Cada capa lineal, cada cálculo de atención y cada búsqueda de embedding es en última instancia una multiplicación de matrices. El rendimiento del hardware de IA (GPUs, TPUs) se mide en qué tan rápido puede hacer multiplicaciones de matrices.
Por qué importa: Entender que las redes neuronales son simplemente secuencias de multiplicaciones de matrices (con no-linealidades entre ellas) desmitifica todo el campo. Explica por qué las GPUs son esenciales (son máquinas de multiplicación de matrices en paralelo), por qué el tamaño del modelo se mide en parámetros (la cantidad de valores en las matrices de pesos), y por qué los FLOPs son la unidad de cómputo (cuenta las operaciones de multiplicación-suma en estas multiplicaciones de matrices).
N
La rama de la IA enfocada en permitir que las máquinas comprendan, interpreten y generen lenguaje humano. El NLP abarca desde el procesamiento básico de texto (tokenización, raíz de palabras, etiquetado de partes del discurso) hasta tareas complejas como análisis de sentimientos, traducción automática, resumen y respuesta a preguntas. Antes de los Transformers, el NLP era un conjunto de técnicas especializadas. Ahora, los LLMs han unificado la mayoría del NLP bajo un paradigma — pero las bases del campo aún son importantes para entender cómo y por qué funcionan estos modelos.
Por qué importa: NLP es la razón por la que puedes hablar con la IA en inglés claro y recibir respuestas útiles. Cada chatbot, cada motor de búsqueda, cada servicio de traducción, cada herramienta de escritura de IA es NLP. Incluso si nunca construyes un sistema de NLP desde cero, entender los fundamentos — tokenización, atención, embeddings, contexto — te hace un mejor usuario de cada herramienta de IA que maneja texto.
NVIDIA
GPU, CUDA, H100/H200, NeMo
Empresas
La empresa cuyos GPUs impulsan virtualmente todo el entrenamiento de IA y la mayoría de la inferencia a nivel mundial. Lo que comenzó como una empresa de tarjetas gráficas se convirtió en el proveedor de hardware más crítico de la industria de IA, haciendo brevemente de NVIDIA la empresa más valiosa del planeta.
Por qué importa: NVIDIA es la empresa sin la cual la revolución de IA simplemente no sucede — sus GPUs y el ecosistema de software CUDA son la base sobre la que virtualmente todo modelo importante de IA ha sido entrenado. La combinación de hardware de IA construido a propósito, un foso de software de una década de profundidad y control sobre la red que conecta GPUs les ha dado una posición casi monopólica en la cadena de suministro más crítica del siglo XXI. Cuando gobiernos, corporaciones y laboratorios de investigación compiten por cómputo de IA, están compitiendo por hardware NVIDIA, y ese solo hecho ha convertido a la antigua empresa de tarjetas gráficas de Jensen Huang en la empresa tecnológica más estratégicamente importante del planeta.
Fundamentos
Un sistema de computación vagamente inspirado en cerebros biológicos, hecho de capas de “neuronas” interconectadas (funciones matemáticas) que aprenden patrones de los datos. La información fluye a través de las capas, siendo progresivamente transformada hasta que la red produce una salida. Todo modelo de IA moderno es una red neuronal de algún tipo.
Por qué importa: Las redes neuronales son el “cómo” detrás de toda la IA. Entender que son matemáticas (no magia, no cerebros) ayuda a desmitificar lo que la IA puede y no puede hacer. Son reconocedores de patrones — extraordinariamente poderosos, pero reconocedores de patrones al fin.
Normalización
LayerNorm, RMSNorm, BatchNorm
Entrenamiento
Técnicas que estabilizan el entrenamiento de redes neuronales normalizando los valores que fluyen a través de la red para que tengan una escala consistente. Layer Normalization (LayerNorm) normaliza a través de las características dentro de cada ejemplo. RMSNorm es una variante simplificada. Batch Normalization (BatchNorm) normaliza a través del batch. Cada Transformer usa alguna forma de normalización entre capas.
Por qué importa: Sin normalización, las redes profundas son extremadamente difíciles de entrenar — las activaciones pueden explotar o desvanecerse entre capas, haciendo el descenso de gradiente inestable. La normalización es una de esas técnicas poco glamorosas que es absolutamente esencial: quita la normalización de cualquier arquitectura moderna y el entrenamiento colapsa.
Neurona
Neurona artificial, Perceptrón, Nodo
Fundamentos
La unidad computacional básica de una red neuronal. Una neurona artificial recibe entradas, multiplica cada una por un peso, las suma, añade un sesgo y pasa el resultado a través de una función de activación para producir una salida. Miles a miles de millones de estas neuronas, organizadas en capas y conectadas por pesos aprendidos, forman las redes neuronales que impulsan toda la IA moderna.
Por qué importa: Las neuronas son los átomos del deep learning. Entender una sola neurona — suma ponderada más activación — hace que el resto de la arquitectura de redes neuronales sea intuitivo. Una capa es un grupo de neuronas. Una red es una pila de capas. El entrenamiento es ajustar los pesos. Todo lo demás son detalles (detalles importantes, pero detalles).
Named Entity Recognition
NER, Entity Extraction
Identifying and categorizing named entities in text — people, organizations, locations, dates, monetary amounts, and other proper nouns. In "Apple announced a $3B investment in Munich on Tuesday," NER identifies Apple (Organization), $3B (Money), Munich (Location), and Tuesday (Date). It's a foundational NLP task used in information extraction, search, and knowledge graph construction.
Why it matters: NER is the backbone of structured information extraction from unstructured text. Every search engine, news aggregator, and intelligence system uses NER to understand what a document is about. It's also the first step in building knowledge graphs from text — you can't build relationships between entities you haven't identified.
Negative Prompt
Negative Conditioning
A text description of what you don't want in a generated image, used alongside the main prompt. Prompt: "a beautiful landscape." Negative prompt: "blurry, low quality, text, watermark, people." The model actively steers away from concepts in the negative prompt during generation. Negative prompts are primarily used with Stable Diffusion and other open image generation models.
Why it matters: Negative prompts are one of the most effective tools for improving image generation quality. Without them, models tend to produce artifacts (blurry areas, extra fingers, text watermarks) because these appear frequently in training data. A well-crafted negative prompt eliminates common failure modes and gives you more control over the output without changing the positive prompt.
O
Optimización
Optimización de modelos, optimización de inferencia
Entrenamiento
El amplio conjunto de técnicas usadas para hacer modelos de IA más rápidos, más pequeños, más baratos o más precisos. Esto incluye optimizaciones de entrenamiento (precisión mixta, gradient checkpointing, paralelismo de datos), optimizaciones de inferencia (cuantización, poda, destilación, decodificación especulativa) y optimizaciones de servicio (batching, caching, balanceo de carga). La optimización es la razón por la que puedes correr un modelo de 14B parámetros en una laptop.
Por qué importa: La capacidad bruta no significa nada si no puedes costear ejecutarla. La optimización es la diferencia entre un demo de investigación y un producto en producción. Es por lo que los modelos open-weights pueden competir con proveedores de API, por lo que la IA móvil existe, y por lo que los costos de inferencia siguen cayendo.
OpenAI
GPT, ChatGPT, DALL-E, Sora
Empresas
La empresa detrás de ChatGPT y la serie de modelos GPT. Originalmente un laboratorio de investigación sin fines de lucro, OpenAI se convirtió en la cara pública de la revolución de IA cuando ChatGPT se lanzó en noviembre de 2022.
Por qué importa: OpenAI hizo más que cualquier otra organización para llevar la IA del laboratorio de investigación a la conciencia mainstream. ChatGPT fue el momento iPhone de la IA generativa — el producto que hizo que cientos de millones de personas entendieran, visceralmente, lo que los modelos de lenguaje grandes podían hacer. Su API creó la capa de infraestructura sobre la que se construyeron miles de startups de IA, y la serie GPT estableció el escalamiento como el paradigma dominante en investigación de IA durante años. Incluso las controversias de OpenAI — la crisis de gobernanza, la conversión de sin fines de lucro a con fines de lucro, las salidas de investigadores enfocados en seguridad — han moldeado la conversación más amplia sobre cómo deberían estructurarse y gobernarse las empresas de IA.
Pesos abiertos
Código abierto (en contexto de IA)
Seguridad
Cuando una empresa libera los parámetros entrenados de un modelo para que cualquiera los descargue y ejecute. “Open weights” es más preciso que “código abierto” porque la mayoría de los modelos liberados no incluyen datos de entrenamiento ni código de entrenamiento — obtienes el modelo terminado pero no la receta. Llama, Mistral y Qwen son modelos open-weights.
Por qué importa: Los open weights significan que puedes ejecutar IA en tu propio hardware con privacidad total — sin llamadas a API, sin datos saliendo de tu red. El trade-off es que necesitas los recursos de GPU para ejecutarlos y eres responsable de la seguridad.
Entrenamiento
Cuando un modelo memoriza sus datos de entrenamiento demasiado bien y pierde la capacidad de generalizar a nuevas entradas. Como un estudiante que memoriza las respuestas de exámenes de práctica pero no puede resolver problemas nuevos. El modelo rinde genial en datos de entrenamiento pero mal en cualquier cosa que no haya visto antes.
Por qué importa: El overfitting es el modo de fallo más común en el entrenamiento de modelos. Es por eso que la evaluación usa conjuntos de prueba separados, y por qué entrenar demasiado tiempo (demasiados epochs) puede realmente empeorar un modelo.
Olvido Catastrófico
Interferencia Catastrófica
Entrenamiento
Cuando una red neuronal entrenada en una nueva tarea pierde su capacidad de realizar tareas previamente aprendidas. Hacer fine-tuning de un modelo con datos de soporte al cliente podría hacerlo excelente en soporte pero terrible en programación. El nuevo aprendizaje sobreescribe los pesos que codificaban las capacidades anteriores, "olvidándolas".
Por qué importa: El olvido catastrófico es el desafío central del fine-tuning y el aprendizaje continuo. Es la razón por la que no puedes simplemente seguir haciendo fine-tuning de un modelo tarea tras tarea y esperar que haga todo bien. También es la razón por la que técnicas como LoRA (que solo modifican un pequeño subconjunto de parámetros) y la selección cuidadosa del learning rate son críticas para preservar las capacidades del modelo base.
A user-friendly tool for running language models locally with a single command. Ollama wraps llama.cpp in a Docker-like experience: ollama run llama3 downloads and runs Llama 3, automatically selecting the right quantization for your hardware. It manages model downloads, provides an API server, and handles hardware detection.
Why it matters: Ollama is to local AI what Docker is to containerization: it removed the friction. Before Ollama, running a local model meant choosing quantization levels, downloading GGUF files, configuring llama.cpp flags, and managing GPU offloading. Ollama handles all of this automatically. It's the fastest path from "I want to try running AI locally" to actually doing it.
Herramientas
Una herramienta fácil de usar para ejecutar modelos de lenguaje localmente con un solo comando. Ollama envuelve llama.cpp en una experiencia similar a Docker: ollama run llama3 descarga y ejecuta Llama 3, seleccionando automáticamente la cuantización correcta para tu hardware. Gestiona descargas de modelos, proporciona un servidor de API y maneja la detección de hardware.
Por qué importa: Ollama es a la IA local lo que Docker es a la contenedorización: eliminó la fricción. Antes de Ollama, ejecutar un modelo local significaba elegir niveles de cuantización, descargar archivos GGUF, configurar flags de llama.cpp y gestionar la descarga a GPU. Ollama maneja todo esto automáticamente. Es el camino más rápido desde "quiero probar ejecutar IA localmente" hasta realmente hacerlo.
ONNX
Open Neural Network Exchange
Infraestructura
Un formato abierto para representar modelos de machine learning que permite la interoperabilidad entre frameworks. Un modelo entrenado en PyTorch puede exportarse a ONNX y luego ejecutarse usando ONNX Runtime, TensorRT u otros motores de inferencia optimizados para hardware específico. ONNX actúa como un lenguaje común entre el mundo del entrenamiento (PyTorch, TensorFlow) y el mundo del despliegue (runtimes optimizados).
Por qué importa: ONNX resuelve un problema real de producción: entrenas en PyTorch (el estándar de investigación) pero despliegas en hardware que funciona mejor con un runtime diferente. Convertir a ONNX te permite usar motores de inferencia optimizados sin reescribir tu modelo. Es especialmente importante para el despliegue en el borde donde necesitas el máximo rendimiento en hardware limitado.
OCR
Optical Character Recognition, Text Recognition
Extracting text from images — photographs of documents, screenshots, signs, handwritten notes, or any image containing text. Modern OCR combines text detection (finding where text appears in the image) with text recognition (reading what the text says). Deep learning OCR handles curved text, multiple languages, varied fonts, and poor image quality far better than older rule-based approaches.
Why it matters: OCR digitizes the physical world. Scanning receipts for expense tracking, reading documents for archival, extracting data from forms, translating signs in real-time, and making image-based PDFs searchable all depend on OCR. Combined with LLMs, OCR enables sophisticated document understanding — not just reading text but understanding invoices, contracts, and reports.
P
Parámetros
Pesos, parámetros del modelo
Fundamentos
Los valores internos que una red neuronal aprende durante el entrenamiento — esencialmente el "conocimiento" del modelo codificado como números. Cuando alguien dice que un modelo tiene "7 mil millones de parámetros", se refiere a 7 mil millones de valores numéricos individuales que se ajustaron durante el entrenamiento para capturar patrones en los datos. Más parámetros generalmente significa mayor capacidad para aprender patrones complejos, pero también más memoria para almacenar y más potencia de cálculo para ejecutar.
Por qué importa: El recuento de parámetros es la abreviatura más común para el tamaño del modelo, y determina directamente cuánta memoria de la GPU necesitas. Un modelo de 7B con precisión de 16 bits necesita ~14 GB de VRAM solo para los pesos. Entender los parámetros te ayuda a estimar costos, elegir hardware y comprender por qué la cuantización (reducir la precisión por parámetro) es tan importante para hacer los modelos accesibles.
PixVerse
Generación de vídeo PixVerse
Empresas
Empresa china de generación de video que construye herramientas de video con IA accesibles. Conocida por velocidades rápidas de generación y un nivel gratuito que les ayudó a construir una gran base de usuarios rápidamente en mercados internacionales.
Por qué importa: PixVerse demostró que la generación de video con IA podía ser un producto para el mercado masivo, no solo una herramienta para profesionales y early adopters. Su agresivo nivel gratuito y rápido ciclo de iteración forzaron a toda la categoría a repensar precios y accesibilidad. Al construir una de las mayores bases de usuarios en video con IA en un solo año, demostraron que la distribución y la velocidad de ejecución pueden importar tanto como la calidad del modelo puro para determinar quién gana este mercado.
Perplexity
Motor de búsqueda con IA, API Sonar
Empresas
Motor de búsqueda con IA que combina búsqueda web en tiempo real con razonamiento de modelos de lenguaje para dar respuestas directas y con fuentes en lugar de una lista de enlaces. El desafío más visible al dominio de búsqueda de Google en una generación.
Por qué importa: Perplexity es el desafío más creíble al dominio de búsqueda de Google en más de una década, demostrando que un motor de respuestas nativo de IA puede ofrecer una experiencia fundamentalmente mejor para consultas de búsqueda de información. Popularizaron el paradigma de generación aumentada por recuperación como producto de consumo, mostrando que combinar búsqueda web en tiempo real con razonamiento de LLM produce resultados que son más útiles y más confiables que cualquiera de las dos tecnologías por separado. Su rápido crecimiento ha forzado a Google, Microsoft y a cada otro jugador de búsqueda a repensar cómo debería verse un motor de búsqueda en la era de los modelos de lenguaje grandes.
Entrenamiento
La fase de entrenamiento inicial y masiva donde un modelo aprende lenguaje (u otras modalidades) de un corpus enorme. Esta es la parte costosa — miles de GPUs corriendo durante semanas o meses, costando millones de dólares. El resultado es un modelo fundacional que entiende lenguaje pero aún no ha sido especializado para ninguna tarea.
Por qué importa: El pre-entrenamiento es lo que hace posibles los modelos fundacionales. También es la razón por la que solo un puñado de empresas puede crear modelos de frontera — los costos de cómputo son astronómicos. Todo lo demás (fine-tuning, RLHF, prompting) se construye sobre esta base.
La práctica de elaborar entradas para obtener mejores salidas de modelos de IA. Esto va desde técnicas simples (ser específico, proporcionar ejemplos) hasta métodos avanzados (chain of thought, few-shot prompting, asignación de roles). A pesar del nombre sofisticado, se trata fundamentalmente de comunicarse claramente con un sistema estadístico.
Por qué importa: El mismo modelo puede dar resultados salvajemente diferentes dependiendo de cómo preguntes. Un buen prompt engineering es la forma más barata de mejorar la calidad de salida de IA — sin entrenamiento, sin fine-tuning, solo mejor comunicación.
Mide qué tan bien un modelo predice texto. exp(pérdida promedio de entropía cruzada). Representa “entre cuántos tokens está eligiendo el modelo.” Menor = mejor.
Por qué importa: La métrica más fundamental para comparar la capacidad bruta de modelado de texto. Pero no mide utilidad ni seguridad.
El texto que le das a un modelo de IA para obtener una respuesta. Un prompt puede ser una pregunta, una instrucción, un brief creativo o un bloque de código que quieres que te expliquen. Todo lo que hace el modelo comienza con lo que tú escribes.
Por qué importa: El prompt es la interfaz. Es la única palanca que la mayoría de la gente usa al interactuar con IA, y es sorprendentemente poderosa. Un prompt vago produce una respuesta vaga; un prompt específico y bien estructurado puede extraer resultados de nivel experto del mismo modelo.
A technique that saves and reuses the processed version of a prompt prefix across multiple API calls, avoiding redundant computation. If you send the same system prompt and document context with every request (which is common), prompt caching processes it once and reuses the cached computation for subsequent requests. This reduces both latency and cost.
Why it matters: Most AI applications send the same system prompt, few-shot examples, or reference documents with every request. Without caching, the provider processes this identical prefix every single time. Prompt caching can cut input token costs by 50–90% and reduce time-to-first-token significantly. For high-volume applications, this translates to thousands of dollars saved per month.
An attack where malicious instructions are embedded in content that an AI model processes, causing the model to follow the attacker's instructions instead of the user's or developer's. Direct injection: the user types malicious instructions. Indirect injection: malicious instructions are hidden in a website, document, or email that the model reads as part of its task.
Why it matters: Prompt injection is the most critical security vulnerability in AI applications. Any app that lets an LLM process untrusted content (emails, web pages, uploaded documents) is potentially vulnerable. There is currently no complete solution — only mitigations. If you're building AI-powered applications, understanding prompt injection is as important as understanding SQL injection was for web development.
Two complementary metrics for evaluating classifiers. Precision answers "of the items the model flagged as positive, how many actually are?" Recall answers "of all the actual positives, how many did the model find?" A spam filter with high precision rarely marks real email as spam. One with high recall catches most spam. The F1 score is their harmonic mean — a single number that balances both.
Why it matters: Accuracy alone is misleading. A model that never predicts "fraud" achieves 99.9% accuracy if only 0.1% of transactions are fraudulent — but it's completely useless. Precision and recall reveal the trade-offs: catching more fraud (higher recall) means more false alarms (lower precision), and vice versa. Every classification system in production is tuned based on this trade-off.
Prompt Caching
Caché de Contexto, Caché de Prefijo
Usar AI
Una técnica que guarda y reutiliza la versión procesada de un prefijo de prompt entre múltiples llamadas a la API, evitando cálculos redundantes. Si envías el mismo system prompt y contexto de documentos con cada solicitud (lo cual es común), el prompt caching lo procesa una vez y reutiliza el cálculo en caché para solicitudes posteriores. Esto reduce tanto la latencia como el costo.
Por qué importa: La mayoría de las aplicaciones de IA envían el mismo system prompt, ejemplos few-shot o documentos de referencia con cada solicitud. Sin caché, el proveedor procesa este prefijo idéntico cada vez. El prompt caching puede reducir los costos de tokens de entrada entre un 50–90% y reducir significativamente el tiempo al primer token. Para aplicaciones de alto volumen, esto se traduce en miles de dólares ahorrados por mes.
Prompt Injection
Inyección Indirecta de Prompt
Seguridad
Un ataque donde instrucciones maliciosas se insertan en contenido que un modelo de IA procesa, haciendo que el modelo siga las instrucciones del atacante en lugar de las del usuario o desarrollador. Inyección directa: el usuario escribe instrucciones maliciosas. Inyección indirecta: instrucciones maliciosas se ocultan en un sitio web, documento o correo electrónico que el modelo lee como parte ...
Por qué importa: La inyección de prompt es la vulnerabilidad de seguridad más crítica en las aplicaciones de IA. Cualquier aplicación que permita a un LLM procesar contenido no confiable (correos electrónicos, páginas web, documentos subidos) es potencialmente vulnerable. Actualmente no existe una solución completa — solo mitigaciones. Si estás construyendo aplicaciones impulsadas por IA, entender la inyección de prompt es tan importante como entender la inyección SQL lo fue para el desarrollo web.
Precisión y Recall
F1 Score, Matriz de Confusión
Fundamentos
Dos métricas complementarias para evaluar clasificadores. La precisión responde "de los ítems que el modelo marcó como positivos, ¿cuántos realmente lo son?" El recall responde "de todos los positivos reales, ¿cuántos encontró el modelo?" Un filtro de spam con alta precisión raramente marca correo real como spam. Uno con alto recall atrapa la mayoría del spam. El F1 score es su media armónica &...
Por qué importa: La exactitud sola es engañosa. Un modelo que nunca predice "fraude" logra 99.9% de exactitud si solo el 0.1% de las transacciones son fraudulentas — pero es completamente inútil. Precisión y recall revelan los compromisos: atrapar más fraude (mayor recall) significa más falsas alarmas (menor precisión), y viceversa. Cada sistema de clasificación en producción se ajusta basándose en este compromiso.
Poda
Poda de modelos, Poda de pesos
Entrenamiento
Eliminar parámetros innecesarios (pesos, neuronas o capas enteras) de un modelo entrenado para hacerlo más pequeño y rápido sin pérdida significativa de calidad. Como podar un árbol: cortas las ramas que menos contribuyen y el árbol se mantiene saludable. La poda estructurada elimina neuronas o cabezas de atención enteras. La poda no estructurada pone a cero pesos individuales.
Por qué importa: La poda es una técnica de compresión de modelos junto con la cuantización y la destilación. La idea clave: la mayoría de las redes neuronales están sobreparametrizadas — muchos pesos contribuyen poco a la salida. La "hipótesis del billete de lotería" sugiere que dentro de una red grande, existe una subred mucho más pequeña que puede igualar el rendimiento del original. La poda encuentra y conserva esa subred.
Plantilla de prompt
Template, Patrón de prompt
Usar AI
Una estructura de prompt reutilizable con marcadores de variables que se llenan con datos específicos en tiempo de ejecución. En lugar de escribir un nuevo prompt desde cero para cada solicitud del usuario, defines una plantilla una vez — "Resume el siguiente {tipo_de_documento} en {idioma}, enfocándote en {tema}" — y llenas las variables. Las plantillas de prompts son los bloques de construcción de las aplicaciones de IA en producción.
Por qué importa: Toda aplicación de IA en producción usa plantillas de prompts. Garantizan consistencia, permiten testing y separan la lógica del prompt (escrita por un desarrollador) del contenido dinámico (proporcionado por usuarios o datos). Las buenas plantillas se testean, versionan e iteran — son código, no texto improvisado. Entender el diseño de plantillas de prompts es esencial para construir aplicaciones de IA confiables.
Seguridad
Un framework matemático que garantiza la privacidad individual en el análisis de datos agregados y el entrenamiento de modelos. Con privacidad diferencial, agregar o eliminar los datos de cualquier individuo cambia el resultado como máximo en una cantidad pequeña y acotada. Esto significa que puedes aprender patrones útiles de un dataset sin revelar información sobre ninguna persona específica en él.
Por qué importa: A medida que la IA se entrena con datos cada vez más personales (registros de salud, transacciones financieras, mensajes), la privacidad diferencial proporciona la garantía más fuerte conocida de que los datos individuales no pueden extraerse del modelo. Es usada por Apple (predicciones del teclado), Google (analíticas de uso de Chrome) y la Oficina del Censo de EE.UU. Para la IA, aborda la preocupación de que los LLMs podrían memorizar y reproducir datos de entrenamiento privados.
A memory management technique for KV cache that borrows from operating system virtual memory. Instead of allocating a contiguous block of GPU memory for each request's KV cache (which wastes memory through fragmentation), PagedAttention stores cache in non-contiguous blocks ("pages") that are allocated on demand and can be shared across requests with common prefixes.
Why it matters: PagedAttention is the innovation behind vLLM and is now adopted by most LLM serving frameworks. It increased serving throughput by 2–4x compared to naive implementations by eliminating memory waste from fragmentation. Without it, serving long-context models to many concurrent users would be dramatically more expensive.
Pooling
Max Pooling, Average Pooling
An operation that reduces the spatial dimensions of data by summarizing a region into a single value. Max pooling takes the maximum value in each region. Average pooling takes the mean. In CNNs, pooling layers downsample feature maps between convolutional layers. In Transformers, pooling combines token representations into a single vector (e.g., for classification).
Why it matters: Pooling is how neural networks go from local features to global understanding. A CNN might start with 224×224 feature maps and pool down to 7×7 by the final layer, progressively summarizing spatial information. In NLP, mean pooling over token embeddings is the standard way to create a single sentence embedding from a sequence of token representations.
Infraestructura
Una técnica de gestión de memoria para el KV cache que toma prestado de la memoria virtual de los sistemas operativos. En lugar de asignar un bloque contiguo de memoria GPU para el KV cache de cada solicitud (lo que desperdicia memoria por fragmentación), PagedAttention almacena el cache en bloques no contiguos ("páginas") que se asignan bajo demanda y pueden compartirse entre solicitudes con prefijos comunes.
Por qué importa: PagedAttention es la innovación detrás de vLLM y ahora es adoptada por la mayoría de los frameworks de servicio de LLMs. Aumentó el rendimiento de servicio 2–4x comparado con implementaciones ingenuas al eliminar el desperdicio de memoria por fragmentación. Sin ella, servir modelos de contexto largo a muchos usuarios concurrentes sería dramáticamente más caro.
Pooling
Max Pooling, Average Pooling
Fundamentos
Una operación que reduce las dimensiones espaciales de los datos resumiendo una región en un solo valor. Max pooling toma el valor máximo en cada región. Average pooling toma la media. En CNN, las capas de pooling reducen la dimensión de los mapas de características entre capas convolucionales. En Transformers, el pooling combina representaciones de tokens en un solo vector (por ejemplo, para clasificación).
Por qué importa: El pooling es cómo las redes neuronales pasan de características locales a comprensión global. Una CNN podría comenzar con mapas de características de 224×224 y reducirlos a 7×7 en la capa final, resumiendo progresivamente la información espacial. En NLP, el mean pooling sobre embeddings de tokens es la forma estándar de crear un único embedding de oración a partir de una secuencia de representaciones de tokens.
Programa de tasa de aprendizaje
Learning Rate Schedule, LR Schedule, Warmup, Cosine Annealing
Entrenamiento
Una estrategia para cambiar la tasa de aprendizaje durante el entrenamiento en lugar de mantenerla constante. La mayoría del entrenamiento moderno usa warmup (aumentar gradualmente desde cerca de cero hasta el pico) seguido de decay (disminuir gradualmente hacia cero). Cosine annealing es el programa de decay más común. La tasa de aprendizaje controla qué tan grande es cada paso de actualización por gradiente — posiblemente el hiperparámetro más importante del entrenamiento.
Por qué importa: Acertar con el programa de tasa de aprendizaje puede hacer o deshacer un entrenamiento. Demasiado alta y el modelo diverge (picos en la pérdida, falla el entrenamiento). Demasiado baja y entrena demasiado lento o se atasca. El programa interactúa con el tamaño de lote, el tamaño del modelo y los datos — no hay una configuración universal. Entender los programas de tasa de aprendizaje te ayuda a interpretar curvas de entrenamiento y diagnosticar problemas.
Pruebas A/B para IA
Evaluación en Línea, Split Testing
Infraestructura
Comparar dos variantes de un sistema de IA (diferentes modelos, prompts o configuraciones) asignando aleatoriamente usuarios reales a cada variante y midiendo cuál funciona mejor en métricas que importan. A diferencia de la evaluación offline (benchmarks, conjuntos de prueba), las pruebas A/B revelan cómo los cambios afectan el comportamiento real del usuario — engagement, satisfacción, finalización de tareas e ingresos.
Por qué importa: Las métricas offline no siempre predicen el rendimiento en el mundo real. Un modelo con mejor puntuación en benchmarks podría producir respuestas que gustan menos a los usuarios. Un cambio de prompt que mejora la calidad podría aumentar la latencia hasta el punto en que los usuarios abandonan. Las pruebas A/B son la única forma de saber si un cambio realmente mejora la experiencia del usuario. Así es como cada producto de IA importante toma decisiones de despliegue.
Q
Cuantización
GGUF, GPTQ, AWQ
Infraestructura
Reducir la precisión de un modelo para hacerlo más pequeño y rápido. Un modelo entrenado en punto flotante de 32 bits puede cuantizarse a 8 bits, 4 bits o incluso menos — reduciendo su tamaño de 4-8x con una pérdida de calidad sorprendentemente pequeña. GGUF es el formato popular para inferencia local vía llama.cpp.
Por qué importa: La cuantización es lo que hace posible ejecutar un modelo de 14B parámetros en un solo GPU o incluso en una laptop. Sin ella, los modelos open-weights serían inutilizables para la mayoría de las personas. Las variantes Q4_K_M y Q5_K_M dan en el punto óptimo de tamaño vs. calidad.
Question Answering
QA, Reading Comprehension
A system that answers questions posed in natural language. Extractive QA finds the answer span within a given document ("According to paragraph 3, the answer is..."). Generative QA synthesizes an answer from one or more sources. Open-domain QA answers any question without a specific document. RAG-based QA retrieves relevant documents and generates answers from them.
Why it matters: Question answering is the fundamental interaction pattern for AI assistants. Every chatbot, every enterprise knowledge base, every customer support bot is essentially a QA system. Understanding the different QA paradigms (extractive, generative, retrieval-augmented) helps you choose the right architecture for your application and set realistic expectations about accuracy.
R
Entrenamiento
Un paradigma de entrenamiento donde un agente de IA aprende interactuando con un entorno, tomando acciones y recibiendo recompensas o penalizaciones. A diferencia del aprendizaje supervisado (que aprende de ejemplos etiquetados), el RL aprende de la experiencia — a través de prueba y error. El RL entrenó a AlphaGo para vencer a campeones mundiales, enseña a robots a caminar, y es el "RL" en RLHF que hace que los chatbots sean útiles.
Por qué importa: El aprendizaje por refuerzo es cómo la IA aprende a actuar, no solo a predecir. Es el puente entre modelos que pueden responder preguntas y agentes que pueden lograr objetivos. Cada sistema de IA que planifica, estrategiza u optimiza a lo largo del tiempo tiene RL en algún lugar de su linaje.
Razonamiento
Razonamiento IA, razonamiento en cadena de pensamiento
Usar AI
La capacidad de los modelos de IA de pensar paso a paso, descomponer problemas complejos y llegar a conclusiones lógicamente sólidas. Los modelos de razonamiento modernos (como o1/o3 de OpenAI y DeepSeek-R1) son entrenados para generar trazas de razonamiento explícitas antes de responder, mejorando dramáticamente el rendimiento en matemáticas, programación y tareas de lógica. Esto es distinto de la simple coincidencia de patrones — los modelos de razonamiento pueden resolver problemas que nunca han visto antes.
Por qué importa: El razonamiento es la capacidad de frontera que separa "IA que suena inteligente" de "IA que es inteligente". Los modelos que razonan bien pueden depurar código, demostrar teoremas, planificar estrategias de múltiples pasos y detectar sus propios errores. La brecha entre modelos con y sin razonamiento fuerte es el mayor diferenciador de calidad en IA en este momento.
Resemble AI
Clonación de voz, síntesis de voz, marca de agua
Empresas
Empresa canadiense de voz con IA especializada en clonación de voz de alta fidelidad y síntesis de habla en tiempo real. Una de las primeras en implementar marca de agua neural de audio para detección de deepfakes, tomando en serio las implicaciones éticas de la clonación de voz desde el inicio.
Por qué importa: Resemble AI importa porque reconocieron temprano que la clonación de voz sin infraestructura de seguridad es un pasivo, no un producto. Al lanzar detección de deepfakes y marca de agua neural junto con sus herramientas de síntesis, establecieron una plantilla para IA de voz responsable que el resto de la industria ahora se apresura a seguir. A medida que las regulaciones sobre medios sintéticos se endurecen globalmente, la ventaja de Resemble en verificación de procedencia y consentimiento los posiciona como la empresa de voz con IA en la que las empresas realmente pueden confiar.
Reka
Reka Core, Reka Flash
Empresas
Empresa de investigación en IA fundada por exinvestigadores de DeepMind, Google Brain y FAIR. Construyendo modelos nativamente multimodales que pueden procesar texto, imágenes, video y audio desde la base.
Por qué importa: Reka demostró que un equipo pequeño y enfocado en investigación con el pedigrí correcto puede construir modelos multimodales de clase frontera sin miles de millones en financiamiento — y que arquitecturas nativamente multimodales entrenadas desde cero pueden superar el enfoque de “añadir y conectar” usado por la mayoría de los laboratorios más grandes. Su rápida trayectoria desde la fundación hasta la adquisición por Snowflake también reveló la intensa fuerza gravitacional que las plataformas de datos empresariales ahora ejercen sobre el talento de IA, sugiriendo que el futuro de la IA multimodal puede vivir dentro de empresas de infraestructura de datos en lugar de laboratorios de investigación independientes.
Recraft
Recraft V3, generación de gráficos vectoriales
Empresas
Herramienta de diseño con IA enfocada en generación de imágenes y gráficos vectoriales de nivel profesional. Una de las primeras en producir activos de diseño verdaderamente usables — SVGs, estilos consistentes con la marca y salidas listas para producción que los diseñadores realmente quieren usar.
Por qué importa: Recraft es la rara empresa de IA que construyó para diseñadores profesionales en lugar de momentos virales en redes sociales, y demostró que ese enfoque podía producir resultados de vanguardia. Su foco en salidas listas para producción — vectores limpios, consistencia de marca, fondos transparentes — llena un vacío que ninguna otra empresa de generación de imágenes ha abordado seriamente, haciéndolos lo más cercano que tiene la industria a una herramienta de diseño genuina en lugar de un juguete artístico.
Runway
Gen-1, Gen-2, Gen-3 Alpha
Empresas
Empresa pionera de generación de video con IA. Cocreó la arquitectura original de Stable Diffusion y luego giró hacia el video, donde sus modelos de la serie Gen han definido el estado del arte para herramientas de cine con IA.
Por qué importa: Runway es la empresa que llevó la generación de video con IA de curiosidad de investigación a herramienta de cine, lanzando modelo tras modelo a un ritmo que los mantuvo en la frontera incluso cuando competidores con bolsillos profundos entraron al espacio. Su ADN de herramientas creativas — nacido de artistas, no solo de ingenieros — les da una comprensión de flujos de trabajo profesionales que los laboratorios de investigación pura luchan por replicar, y su apuesta por construir una plataforma integral en lugar de solo un modelo puede resultar ser la jugada correcta a largo plazo.
RAG
Generación aumentada por recuperación
Herramientas
Una técnica que da a los modelos de IA acceso a conocimiento externo al recuperar documentos relevantes antes de generar una respuesta. En lugar de depender solo de lo que el modelo aprendió durante el entrenamiento, RAG busca en una base de conocimiento, encuentra fragmentos relevantes y los incluye en el prompt como contexto.
Por qué importa: RAG resuelve dos problemas principales: alucinaciones (el modelo tiene fuentes reales para referencia) y corte de conocimiento (la base de conocimiento puede actualizarse sin reentrenar). Así es como la mayoría de la IA empresarial realmente funciona.
Infraestructura
Restricciones sobre cuántas solicitudes API puedes hacer por minuto/hora/día. Los proveedores imponen límites de tasa para prevenir la sobrecarga del servidor y asegurar acceso justo. Los límites típicamente aplican por clave API y pueden restringir solicitudes por minuto (RPM) y tokens por minuto (TPM).
Por qué importa: Los límites de tasa son el techo invisible que alcanzas al escalar aplicaciones de IA. Son la razón por la que el procesamiento por lotes importa, por qué necesitas lógica de reintentos, y por qué algunos proveedores cobran más por límites de tasa más altos.
Seguridad
La práctica de intentar deliberadamente hacer que un modelo de IA falle, se comporte mal o produzca salidas dañinas. Los red teams buscan vulnerabilidades: jailbreaks, sesgos, generación de desinformación, filtraciones de privacidad. Nombrado por los juegos de guerra militares donde un “equipo rojo” hace de adversario.
Por qué importa: No puedes arreglar lo que no conoces. El red teaming es cómo los proveedores descubren que su modelo explicará cómo forzar cerraduras si le pides “escribir una historia sobre un cerrajero”. Es trabajo de seguridad esencial que ocurre antes de cada lanzamiento importante de modelo.
RLHF
Aprendizaje por refuerzo a partir de retroalimentación humana
Entrenamiento
Una técnica de entrenamiento donde evaluadores humanos clasifican las salidas del modelo por calidad, y esta retroalimentación se usa para entrenar un modelo de recompensa que guía a la IA hacia mejores respuestas. Es lo que convierte un modelo pre-entrenado crudo (que solo predice las siguientes palabras) en un asistente útil e inofensivo.
Por qué importa: RLHF es el ingrediente secreto que hizo que ChatGPT se sintiera diferente de GPT-3. El modelo base ya “sabía” todo, pero RLHF le enseñó a presentar ese conocimiento de una manera que los humanos realmente encuentran útil. También es cómo se refuerzan los comportamientos de seguridad.
RNN
Red Neuronal Recurrente, LSTM, GRU
Modelos
Una red neuronal que procesa secuencias manteniendo un estado oculto que se actualiza en cada paso — "recuerda" lo que ha visto hasta el momento. Los LSTMs y GRUs son variantes mejoradas que resuelven la tendencia del RNN original a olvidar dependencias de largo alcance. Los RNNs dominaron el NLP y el habla antes de que los Transformers los reemplazaran alrededor de 2018–2020.
Por qué importa: Los RNNs son los ancestros de los modelos de lenguaje modernos. Entender por qué fallaron (procesamiento secuencial lento, dificultad con dependencias de largo alcance) explica por qué los Transformers tuvieron éxito (procesamiento paralelo, atención sobre todas las posiciones). La arquitectura SSM/Mamba es, en cierto sentido, un retorno a la idea del RNN con correcciones modernas.
Rendimiento
Tokens Por Segundo, TPS, Throughput
Infraestructura
El número total de tokens que un sistema puede generar por segundo a través de todas las solicitudes concurrentes. Distinto de la latencia (qué tan rápido se sirve una sola solicitud). Un sistema con alto rendimiento sirve a muchos usuarios simultáneamente. Un sistema con baja latencia sirve a cada usuario individual rápidamente. Los dos frecuentemente se compensan entre sí.
Por qué importa: Cuando construyes productos de IA, el rendimiento determina tus costos de servicio y capacidad. Un sistema que genera 100 tokens/segundo por usuario pero solo puede servir a un usuario a la vez tiene bajo rendimiento aunque la latencia individual sea excelente. El rendimiento es lo que optimizas cuando estás pagando facturas de GPU para miles de usuarios concurrentes.
Regulación de la IA
EU AI Act, Política de IA
Seguridad
Leyes y políticas que gobiernan el desarrollo y despliegue de sistemas de IA. El EU AI Act (2024) es el más completo, clasificando sistemas de IA por nivel de riesgo e imponiendo requisitos en consecuencia. EE.UU. ha tomado un enfoque más sectorial con órdenes ejecutivas y directrices de agencias. China tiene regulaciones que apuntan a la IA generativa, deepfakes y algoritmos de recomendación.
Por qué importa: La regulación determina lo que las empresas de IA pueden construir, cómo deben construirlo y qué deben revelar. El EU AI Act afecta a cualquier empresa que sirva a usuarios europeos. Entender el panorama regulatorio es cada vez más necesario para cualquiera que construya o despliegue IA — el incumplimiento puede significar multas, prohibiciones o responsabilidad legal.
A model trained to predict human preferences between AI responses. Given a prompt and two candidate responses, the reward model scores which response humans would prefer. In the RLHF pipeline, the reward model provides the signal that trains the language model to produce better responses — it's the learned proxy for human judgment.
Why it matters: The reward model is the key component that makes RLHF work. You can't have a human rate every response during training (too slow, too expensive), so you train a model to approximate human preferences and use that as the training signal. The quality of the reward model directly determines the quality of alignment — a bad reward model produces a model that optimizes for the wrong things.
The process of finding relevant documents, passages, or data from a large collection in response to a query. In AI, retrieval is the "R" in RAG — the step where relevant context is fetched before being given to a language model. Retrieval can use keyword matching (BM25), semantic similarity (embeddings), or hybrid approaches combining both.
Why it matters: Retrieval is what makes LLMs practical for real-world applications. A model's internal knowledge is static, incomplete, and sometimes wrong. Retrieval gives it access to current, accurate, domain-specific information at inference time. The quality of your retrieval pipeline directly determines the quality of your RAG system — the best LLM can't produce good answers from bad context.
Red Feedforward
FFN, Bloque MLP
Fundamentos
El componente en cada capa del Transformer que procesa cada token de forma independiente a través de dos transformaciones lineales con una función de activación en el medio. Mientras la atención mezcla información entre tokens (qué tokens se relacionan con cuáles), la red feedforward procesa la representación de cada token individualmente, aplicando transformaciones no lineales que codifican co...
Por qué importa: La red feedforward es donde se almacena la mayor parte del conocimiento de un Transformer. La atención se lleva toda la gloria, pero las capas FFN contienen la mayoría de los parámetros del modelo (típicamente 2/3 del total) y es donde residen principalmente las asociaciones factuales, patrones del lenguaje y cálculos aprendidos. Entender esto ayuda a explicar fenómenos como la edición de conocimiento y la poda de modelos.
Riesgo Existencial
X-Risk, Apocalipsis IA
Seguridad
La hipótesis de que los sistemas de IA suficientemente avanzados podrían representar una amenaza para la existencia humana o restringir permanentemente el potencial de la humanidad. Las preocupaciones de riesgo existencial van desde escenarios concretos a corto plazo (bioarmas habilitadas por IA, armas autónomas) hasta escenarios especulativos a largo plazo (una IA superinteligente persiguiendo...
Por qué importa: El riesgo existencial es el debate más trascendente en IA. Si el riesgo es real y significativo, debería dominar la política de IA. Si está sobredimensionado, enfocarse en él desvía la atención de los daños concretos que ocurren hoy (sesgo, desplazamiento laboral, desinformación). Entender los argumentos reales — no las caricaturas — te ayuda a formar una posición informada sobre una de las preguntas más importantes de nuestro tiempo.
Recuperación
Recuperación de Información, IR
Fundamentos
El proceso de encontrar documentos, pasajes o datos relevantes de una colección grande en respuesta a una consulta. En IA, la recuperación es la "R" en RAG — el paso donde se obtiene contexto relevante antes de dárselo a un modelo de lenguaje. La recuperación puede usar coincidencia de palabras clave (BM25), similitud semántica (embeddings) o enfoques híbridos que combinan ambos.
Por qué importa: La recuperación es lo que hace prácticos a los LLMs para aplicaciones del mundo real. El conocimiento interno de un modelo es estático, incompleto y a veces erróneo. La recuperación le da acceso a información actual, precisa y específica del dominio en tiempo de inferencia. La calidad de tu pipeline de recuperación determina directamente la calidad de tu sistema RAG — el mejor LLM no puede producir buenas respuestas con mal contexto.
Reconocimiento de voz
STT, Speech-to-Text, ASR
Usar AI
Convertir audio hablado en texto. El reconocimiento de voz moderno utiliza modelos de deep learning (especialmente Whisper de OpenAI) que pueden transcribir audio en más de 100 idiomas con precisión casi humana. La tecnología impulsa asistentes de voz, transcripción de reuniones, generación de subtítulos y herramientas de accesibilidad.
Por qué importa: El reconocimiento de voz desbloqueó la voz como modalidad de entrada para la IA. Combinado con LLMs y text-to-speech, permite interacciones de IA completamente por voz. La publicación abierta de Whisper democratizó la transcripción de alta calidad — puedes ejecutarlo localmente gratis. Para la accesibilidad, es transformador: hace que el contenido de audio sea buscable, traducible y disponible para personas sordas o con dificultades auditivas.
Regresión
Regresión lineal, Predicción
Fundamentos
Una tarea de machine learning que predice un valor numérico continuo en lugar de una categoría. "¿Cuál será la temperatura mañana?" (regresión: predecir un número) vs. "¿Lloverá mañana?" (clasificación: predecir una categoría). La regresión lineal ajusta una línea recta; la regresión con redes neuronales puede aprender relaciones no lineales arbitrarias entre entradas y salidas.
Por qué importa: La regresión es una de las dos tareas fundamentales de ML (la otra es la clasificación) y subyace a todo, desde la predicción de precios de acciones hasta la valoración de bienes raíces y el modelado científico. También es el punto de entrada más simple para entender el machine learning — ajustar una línea a puntos de datos es algo que la mayoría de la gente puede visualizar, y el salto de la regresión lineal a las redes neuronales es conceptualmente pequeño.
Residual Connection
Skip Connection, Shortcut Connection
A connection that bypasses one or more layers by adding the input directly to the output: output = layer(x) + x. Instead of each layer learning a complete transformation, it only needs to learn the "residual" — the difference from the identity function. Residual connections are in every Transformer layer and are essential for training deep networks.
Why it matters: Without residual connections, deep networks are nearly impossible to train — gradients vanish or explode across many layers. Residual connections provide a gradient highway that lets information (and gradients) flow directly from early layers to late layers, bypassing any number of intermediate transformations. They're why we can train 100+ layer networks at all.
RLAIF
RL from AI Feedback
A variant of RLHF where the preference labels come from an AI model instead of human annotators. A strong AI model compares response pairs and indicates which is better, providing the feedback signal for reinforcement learning. This scales alignment beyond the bottleneck of human labeling while maintaining reasonable quality.
Why it matters: RLAIF is how alignment scales. Human annotation is expensive ($10–50+ per hour), slow, and inconsistent. AI feedback is instant, cheap, and tireless. Constitutional AI (Anthropic) uses RLAIF as a core component — an AI critiques responses against principles, providing preference data at scale. The key question is whether AI feedback is good enough: it bootstraps from human judgment but may inherit and amplify biases.
RLAIF
RL from AI Feedback, Aprendizaje por refuerzo a partir de retroalimentación de IA
Entrenamiento
Una variante de RLHF donde las etiquetas de preferencia provienen de un modelo de IA en lugar de anotadores humanos. Un modelo de IA potente compara pares de respuestas e indica cuál es mejor, proporcionando la señal de retroalimentación para el aprendizaje por refuerzo. Esto escala la alineación más allá del cuello de botella del etiquetado humano mientras mantiene una calidad razonable.
Por qué importa: RLAIF es cómo se escala la alineación. La anotación humana es cara ($10–50+ por hora), lenta e inconsistente. La retroalimentación de IA es instantánea, barata e incansable. Constitutional AI (Anthropic) usa RLAIF como componente central — una IA critica las respuestas contra principios, proporcionando datos de preferencia a escala. La pregunta clave es si la retroalimentación de IA es suficientemente buena: se bootstrappea del juicio humano pero puede heredar y amplificar sesgos.
Retropropagación
Backpropagation, Backprop, Pase hacia atrás
Fundamentos
El algoritmo que calcula cuánto contribuyó cada parámetro en una red neuronal al error, permitiendo que el descenso de gradiente actualice los parámetros eficientemente. La retropropagación aplica la regla de la cadena del cálculo en reversa a través de la red: partiendo de la pérdida en la salida, propaga gradientes hacia atrás a través de cada capa para determinar la parte de culpa de cada peso.
Por qué importa: La retropropagación es el algoritmo que hace posible el entrenamiento de redes neuronales. Sin una forma eficiente de calcular gradientes para miles de millones de parámetros, el descenso de gradiente sería computacionalmente inviable. Cada modelo que usas — desde un pequeño clasificador hasta un LLM de 400B — fue entrenado usando retropropagación. Es el algoritmo más importante del deep learning.
Resumen de Texto
Summarization, TL;DR
Uso de IA
Generar automáticamente una versión más corta de un texto que preserve la información clave. El resumen extractivo selecciona y combina las oraciones existentes más importantes. El resumen abstractivo genera nuevas oraciones que capturan el significado — como lo haría un humano. Los LLMs modernos destacan en resumen abstractivo, produciendo resúmenes fluidos y precisos de documentos, artículos y conversaciones.
Por qué importa: La sobrecarga de información es el desafío definitorio de la era digital. El resumen ayuda: condensar informes largos en resúmenes accionables, generar notas de reuniones a partir de transcripciones, crear resúmenes para papers de investigación y producir versiones TL;DR de artículos extensos. Es una de las capacidades más inmediatamente útiles de los LLMs y una de las más fáciles de integrar en flujos de trabajo existentes.
S
Adulación
Adulación de IA, complacencia excesiva
Seguridad
La tendencia de los modelos de IA a decir a los usuarios lo que quieren escuchar en lugar de lo que es cierto. Un modelo sycófico acepta premisas incorrectas, respalda ideas malas, cambia de posición cuando se le cuestiona incluso si estaba en lo cierto la primera vez, y prioriza ser aceptado en lugar de ser útil. La sycofancia es un efecto secundario directo del entrenamiento RLHF — los modelos aprenden que las respuestas agradables reciben calificaciones más altas de los evaluadores humanos, por lo que optimizan la concordancia sobre la precisión.
Por qué importa: La sycophancy es uno de los modos más insidiosos de falla en la IA porque es invisible para el usuario que está siendo halagado. Si le preguntas a un modelo "¿no es esta una gran idea de negocio?" y siempre responde que sí, estás obteniendo un espejo, no un asesor. Combatir la sycophancy es un área activa de investigación en alineación, y es por eso que los mejores modelos se entrenan para desacordar respetuosamente cuando deben hacerlo.
Seguridad
Una crítica a los modelos de lenguaje grandes que argumenta que son simplemente detectores de patrones sofisticados que unen textos que suenan plausibles sin comprensión del significado. El término fue acuñado por Emily Bender, Timnit Gebru y colegas en su influyente artículo de 2021 “On the Dangers of Stochastic Parrots”, que advirtió que los LLMs codifican sesgos de sus datos de entrenamiento, consumen recursos enormes y generan una ilusión de comprensión que engaña a los usuarios para que confíen en ellos más de lo que deberían.
Por qué importa: El debate del loro estocástico va al corazón de lo que realmente entiende la IA. Si los LLMs están razonando genuinamente o simplemente son muy buenos en la imitación estadística determina cómo los implementamos, hasta qué punto confiamos en sus resultados y cómo los regulamos. También es el lente a través del cual los críticos evalúan cada nueva afirmación de capacidad — ¿es un progreso real o un loro más convincente?
Slop
Bazofia de IA, contenido generado sin valor
Seguridad
Contenido de baja calidad, genérico y no deseado generado por IA que inunda Internet. El término se originó en 2024 como un término peyorativo para describir la ola de texto, imágenes y videos mediocres generados por IA que contaminan los resultados de búsqueda, los feeds de redes sociales y los mercados en línea. El "slop" es el equivalente en IA del spam — técnicamente "contenido" pero que no aporta valor, a menudo indistinguible de otros "slops" y que degrada la calidad de cada plataforma que toca. Piensa en publicaciones de LinkedIn que comienzan con "En el mundo actual acelerado," fotos de stock con manos de seis dedos o artículos de SEO que no dicen nada en 2,000 palabras.
Por qué importa: Slop es el costo ambiental de hacer la generación de contenido gratuita. Cuando cualquiera puede generar 1.000 entradas de blog o 10.000 imágenes de productos en minutos, la economía de la creación de contenido colapsa — y la calidad lo hace también. Slop es por qué las plataformas compiten para desarrollar detección de IA, por qué Google sigue actualizando su algoritmo de búsqueda y por qué "hecho por humanos" se está convirtiendo en un punto de venta. También es el argumento más fuerte contra la narrativa ingenua de que "la IA democratizará la creatividad".
StepFun
Modelos Step, IA multimodal
Empresas
Startup china de IA que construye modelos de lenguaje grandes y multimodales competitivos. Su serie Step ha mostrado un rendimiento solido en benchmarks internacionales, respaldada por una inversion significativa en computo.
Por qué importa: StepFun es prueba de que el ecosistema de IA de China puede producir competidores serios desde cero, no solo de gigantes tecnologicos existentes. Sus modelos Step consistentemente rinden por encima de lo esperado en benchmarks internacionales, y su rapida expansion hacia generacion multimodal y de video muestra que startups bien organizadas pueden cubrir un amplio terreno de capacidades con recursos relativamente modestos. Para el mercado global de IA, StepFun representa el tipo de empresa que hace imposible ignorar la escena independiente de startups de IA de China — tecnicamente fuerte, orientada internacionalmente y moviendose lo suficientemente rapido como para mantener honestos a competidores mucho mas grandes.
SambaNova
Chip SN40L, inferencia ultra-rápida
Empresas
Empresa de hardware de IA que disena chips personalizados (RDUs) construidos especificamente para cargas de trabajo de IA. Su SambaNova Cloud ofrece algunas de las velocidades de inferencia mas rapidas disponibles, compitiendo con Groq en el enfoque de "velocidad primero" para servir IA.
Por qué importa: SambaNova importa porque NVIDIA no deberia ser el unico actor en el mercado de computo para IA, y alguien necesita demostrar que los chips disenados especificamente para IA pueden competir en el mercado real en lugar de solo en articulos de investigacion. Su arquitectura RDU demuestra que son posibles ganancias de rendimiento significativas cuando disenas silicio especificamente para cargas de trabajo de redes neuronales, y su servicio de inferencia en la nube les da a los desarrolladores una muestra de como podria ser la infraestructura de IA post-GPU. Ya sea que SambaNova en si se convierta en la alternativa dominante o no, la presion competitiva que ejercen — junto con Groq, Cerebras y los chips personalizados de los proveedores de nube — es saludable para una industria que no puede permitirse un monocultivo permanente de hardware.
Sarvam AI
Modelos Sarvam, IA para idiomas indios
Empresas
Empresa india de IA que construye modelos especificamente optimizados para la diversidad linguistica de India. Sus modelos manejan hindi, tamil, telugu, bengali y otros idiomas indios con una fluidez que los modelos globales consistentemente no logran.
Por qué importa: Sarvam AI es la respuesta mas creible a una pregunta que la industria global de IA ha ignorado en gran medida: quien construye los modelos fundacionales para los idiomas que una quinta parte de la humanidad realmente habla? Con raices profundas en la comunidad de investigacion en IA de India, alineacion gubernamental y un stack de productos construido especificamente para la diversidad linguistica india, Sarvam representa tanto una oportunidad comercial como un imperativo estrategico. Su exito o fracaso senalara si la revolucion de la IA se globaliza verdaderamente o sigue siendo un fenomeno de ingles primero con traducciones anadidas al final.
Stability AI
Stable Diffusion, SDXL, Stable Audio
Empresas
La empresa que democratizo la generacion de imagenes al liberar Stable Diffusion como codigo abierto en 2022. A pesar de la turbulencia en el liderazgo, sus modelos siguen siendo la columna vertebral del ecosistema de generacion de imagenes de codigo abierto.
Por qué importa: Stability AI encendio la revolucion de generacion de imagenes de codigo abierto al liberar Stable Diffusion, creando un ecosistema de miles de modelos derivados, herramientas y aplicaciones creativas que ninguna plataforma cerrada podria igualar. Incluso a traves de la agitacion de liderazgo y la turbulencia financiera, su apuesta fundacional — que la IA generativa deberia ser accesible para todos, no solo para quienes pueden pagar llamadas de API — reformo toda la industria y sento el modelo de como operan las empresas de IA de codigo abierto.
Suno
Generación musical con IA
Empresas
Empresa de generacion de musica con IA que permite a cualquiera crear canciones completas — voces, instrumentos, produccion — a partir de un prompt de texto. Paso de ser desconocida a millones de usuarios en meses, obligando a la industria musical a confrontar la creatividad de la IA de frente.
Por qué importa: Suno demostro que la IA podia generar canciones completas y escuchables a partir de nada mas que un prompt de texto, creando una categoria completamente nueva de herramienta creativa de la noche a la manana. Estan en el centro de la batalla de derechos de autor mas trascendental en la IA generativa, con el resultado de la demanda de la RIAA probablemente sentando precedente para como funcionan los derechos sobre datos de entrenamiento en todas las modalidades. De manera mas amplia, representan el caso de prueba mas agudo de si democratizar las herramientas creativas expande la expresion humana o socava los cimientos economicos que sustentan a los artistas profesionales.
Modelos
Una alternativa a los Transformers que procesa secuencias manteniendo un "estado" comprimido en lugar de usar atencion sobre todos los tokens. Mamba es la arquitectura SSM mas conocida. Los SSMs escalan linealmente con la longitud de la secuencia (vs. cuadraticamente para la atencion), haciendolos potencialmente mucho mas eficientes para contextos muy largos.
Por qué importa: Los SSMs son el principal retador al dominio de los Transformers. Son mas rapidos para secuencias largas y usan menos memoria, pero la investigacion aun esta madurando. Las arquitecturas hibridas (mezclando capas SSM con atencion) podrian terminar siendo lo mejor de ambos mundos.
Prompt de sistema
Mensaje de sistema
Usar AI
Una instruccion especial dada a un modelo al inicio de una conversacion que establece su comportamiento, personalidad y reglas. A diferencia de los mensajes del usuario, el system prompt esta pensado para ser persistente y autoritativo — define quien es el modelo para esta sesion. "Eres un asistente de programacion util. Siempre usa TypeScript."
Por qué importa: Los system prompts son la herramienta principal para personalizar el comportamiento de la IA sin hacer fine-tuning. Son la forma en que las empresas hacen que Claude actue como agente de soporte al cliente, revisor de codigo o asistente de informacion medica — mismo modelo, diferente system prompt.
Leyes de escala
Chinchilla
Relaciones de ley de potencias que muestran que el rendimiento mejora de forma predecible con el tamaño del modelo, el dataset y el cómputo. Puedes estimar el rendimiento antes de gastar millones.
Por qué importa: Convirtieron el entrenamiento de una apuesta en ingeniería. Explican la carrera armamentista de la IA: los retornos predecibles sobre el cómputo impulsan clusters cada vez más grandes.
Un enfoque de entrenamiento donde el modelo genera su propia señal de supervisión a partir de datos sin etiquetar. Oculta parte de la entrada y entrena para predecir la parte oculta. Para LLMs: enmascara el siguiente token y lo predice.
Por qué importa: El aprendizaje auto-supervisado es el avance que hizo posible la IA moderna. Desbloqueó el entrenamiento con todo internet en lugar de depender de conjuntos de datos etiquetados a mano.
Decodificación especulativa
Generación asistida
Un modelo borrador pequeño genera candidatos, el modelo grande los verifica todos a la vez. Las conjeturas correctas significan múltiples tokens por paso. Aceleración de 2–3x con calidad idéntica.
Por qué importa: Uno de los pocos "almuerzos gratis" en inferencia de IA. Salida matemáticamente idéntica, solo más rápida.
Streaming
Transmisión de tokens
Enviar la salida token por token conforme se genera, vía SSE (Server-Sent Events) sobre HTTP. La razón por la que el texto aparece palabra por palabra en las interfaces de chat.
Por qué importa: 10 segundos de texto apareciendo se sienten bien; 10 segundos de pantalla en blanco se sienten rotos. Además permite a los usuarios interrumpir antes de tiempo.
Hacer que la IA responda en un formato parseable por máquinas (JSON, XML, schema). La mayoría de los proveedores lo soportan nativamente: defines un schema y el modelo garantiza la conformidad.
Por qué importa: Pasar de chatbot a aplicación requiere salida estructurada. Tu código no puede parsear texto libre de forma fiable.
Un enfoque de entrenamiento donde el modelo aprende de ejemplos etiquetados — pares de entrada-salida donde la respuesta correcta se proporciona de antemano. El modelo ajusta sus parámetros para minimizar la diferencia entre sus predicciones y las respuestas correctas conocidas.
Por qué importa: El aprendizaje supervisado es la forma más intuitiva de machine learning y la base de la mayoría de las aplicaciones prácticas: filtros de spam, análisis de imágenes médicas, detección de fraude y la fase de fine-tuning de los LLMs.
Datos sintéticos
Datos de entrenamiento generados por IA
Datos de entrenamiento generados por modelos de IA. Se están convirtiendo en estándar en los pipelines de entrenamiento.
Por qué importa: Los datos etiquetados reales son caros. Los modelos de frontera generan millones de ejemplos de la noche a la mañana. El control de calidad es crítico.
Softmax
Función Softmax, Exponenciales Normalizados
Fundamentos
Una función que convierte un vector de números crudos (logits) en una distribución de probabilidad — todos los valores se vuelven positivos y suman 1. Softmax amplifica las diferencias entre valores: la entrada más grande obtiene la probabilidad más alta, y las entradas más pequeñas obtienen probabilidades exponencialmente menores. Aparece en mecanismos de atención, salidas de clasificación y predicción de tokens.
Por qué importa: Softmax está en todas partes en la IA moderna. Cada vez que un modelo de lenguaje predice el siguiente token, softmax convierte las salidas crudas del modelo en probabilidades. Cada cabeza de atención usa softmax para calcular pesos de atención. Cada clasificador usa softmax para producir probabilidades de clase. Entender softmax te ayuda a entender la temperatura, el muestreo top-p, y por qué los modelos son "confiados" incluso cuando están equivocados.
Servicio de Modelos
vLLM, TGI, TensorRT-LLM, Servidor de Inferencia
Infraestructura
La infraestructura y software que ejecuta modelos de IA entrenados en producción, manejando solicitudes entrantes, gestionando memoria GPU, agrupando para eficiencia y devolviendo respuestas. Frameworks de servicio de modelos como vLLM, TGI (Text Generation Inference) y TensorRT-LLM manejan la ingeniería compleja de hacer la inferencia de LLMs rápida y rentable a escala.
Por qué importa: La brecha entre "tengo un modelo" y "puedo servir a 10,000 usuarios simultáneamente" es enorme. Los frameworks de servicio de modelos resuelven la gestión de memoria GPU, la programación de solicitudes, la optimización del caché KV y el batching continuo — problemas difíciles de resolver desde cero. Elegir el stack de servicio correcto es una de las decisiones de mayor impacto en la IA en producción.
Empresas
La empresa de etiquetado de datos de IA más grande, proporcionando los datos de entrenamiento anotados por humanos de los que dependen la mayoría de los modelos de IA principales. Scale AI etiqueta imágenes, texto, video y datos 3D para conducción autónoma, gobierno y empresas de IA. También ofrecen servicios de evaluación, recolección de datos RLHF y curación de datos para fine-tuning. Los clientes principales incluyen OpenAI, Meta, el Departamento de Defensa de EE.UU. y numerosas empresas de conducción autónoma.
Por qué importa: Scale AI ocupa una posición crítica en la cadena de suministro de IA: entre los datos crudos y los modelos entrenados. La calidad de los datos etiquetados determina directamente la calidad del modelo, y Scale es el proveedor más grande. Sus servicios de recolección de datos RLHF significan que literalmente ayudan a moldear cómo los modelos de IA están alineados — las preferencias humanas que entrenan a Claude, GPT y otros frecuentemente pasan por plataformas de etiquetado como Scale.
Search that finds results based on meaning rather than exact keyword matches. Instead of looking for documents containing the word "fix," semantic search finds documents about "repair," "resolve," "patch," and "debug" because they mean similar things. It works by converting text into embeddings (numerical vectors) and finding the closest matches in vector space.
Why it matters: Semantic search is why modern search feels magical compared to keyword search. It powers RAG systems, documentation search, e-commerce product discovery, and support ticket routing. If you're building any application that needs to find relevant information, semantic search is probably the right approach.
Attention mechanisms that process only a subset of token pairs instead of the full N×N attention matrix. Sliding window attention attends to only nearby tokens (within a fixed window). Sparse patterns (like Longformer's combination of local + global attention) let specific tokens attend to everything while most tokens attend locally. These approaches reduce attention's quadratic cost for long sequences.
Why it matters: Sparse attention is how Mistral, Mixtral, and other efficient models handle long sequences without the full cost of dense attention. It's the practical compromise between "attend to everything" (expensive but thorough) and "attend to nothing distant" (cheap but limited). Understanding sparse attention helps you evaluate claims about context length and predict where quality degradation might occur.
The process of selecting which token to generate next from the model's predicted probability distribution. Greedy decoding always picks the most likely token. Random sampling picks proportionally to probabilities. Temperature, top-p (nucleus), and top-k are controls that adjust the randomness and diversity of the selection. The sampling strategy dramatically affects output quality, creativity, and consistency.
Why it matters: Sampling parameters are the most accessible knobs for controlling LLM behavior. Temperature 0 for deterministic code generation. Temperature 0.7 for creative writing. Top-p 0.9 for a good balance. These aren't magic numbers — they directly control which tokens the model considers at each step. Understanding sampling helps you tune outputs for your specific use case.
Sistemas Multi-Agente
Multi-Agente, Enjambre de Agentes
Usar AI
Arquitecturas donde múltiples agentes de IA colaboran, debaten o se especializan para resolver problemas que un solo agente no puede manejar. Cada agente podría tener un rol diferente (investigador, programador, revisor), diferentes herramientas o diferentes modelos. Se comunican a través de mensajes estructurados, memoria compartida o traspasos directos.
Por qué importa: Los sistemas multi-agente son el paradigma emergente para tareas complejas de IA. Una sola llamada al LLM maneja una pregunta. Un agente maneja una tarea de múltiples pasos. Un sistema multi-agente maneja tareas que requieren diferentes experticia, trabajo paralelo o aseguramiento de calidad a través de revisión. A medida que la IA pasa de chatbots a flujos de trabajo autónomos, las arquitecturas multi-agente se convierten en el patrón natural de escalado.
Seguimiento de Instrucciones
Adherencia a Instrucciones
Usar AI
La capacidad de un modelo para ejecutar con precisión lo que el usuario pide — respetando restricciones de formato, requisitos de longitud, especificaciones de estilo e instrucciones de comportamiento. "Escribe exactamente 3 puntos en francés sobre X" prueba el seguimiento de instrucciones: la respuesta debe ser puntos (no párrafos), exactamente 3 (no 2 ni 5), en francés (no en inglés), y...
Por qué importa: El seguimiento de instrucciones es la capacidad de LLM más prácticamente importante. A los usuarios les importa menos si un modelo "sabe" más datos y más si hace lo que realmente le pidieron. Un modelo que escribe prosa hermosa pero ignora tus requisitos de formato es menos útil que uno que sigue instrucciones de forma confiable. Por eso IFEval y otros benchmarks de seguimiento de instrucciones se han vuelto centrales en la evaluación de modelos.
Superposición
Superposición de características, Polisemántica
Fundamentos
El fenómeno por el cual las redes neuronales codifican muchas más características (conceptos, patrones) de las que tienen neuronas, representando las características como direcciones en el espacio de activaciones en lugar de dedicar neuronas individuales a características individuales. Una sola neurona participa en la codificación de docenas de características simultáneamente, y cada característica se distribuye entre muchas neuronas.
Por qué importa: La superposición es la razón por la cual las redes neuronales son difíciles de interpretar y por qué la interpretabilidad mecanicista es desafiante. Si cada neurona representara un concepto (como "el concepto de perros"), la interpretación sería sencilla. En cambio, los conceptos están dispersos entre neuronas en patrones superpuestos. Entender la superposición es clave para comprender cómo las redes neuronales comprimen información y por qué a veces se comportan de manera inesperada.
Self-Attention
Scaled Dot-Product Attention
An attention mechanism where a sequence attends to itself — every token computes its relevance to every other token in the same sequence. The queries, keys, and values all come from the same input. This lets each token gather information from all other tokens, weighted by relevance. Self-attention is the core operation in every Transformer layer.
Why it matters: Self-attention is what makes Transformers work. It replaced the sequential processing of RNNs with parallel, direct connections between all positions. The word "bank" in "river bank" attends to "river" to resolve its meaning, regardless of how far apart they are. This ability to directly connect any two positions is why Transformers handle long-range dependencies so well.
A neural network trained to reconstruct a model's internal activations through a bottleneck with a sparsity constraint — only a few features can be active at once. The learned features often correspond to interpretable concepts (specific topics, linguistic patterns, reasoning strategies), making SAEs the primary tool for disentangling the superposed features inside large language models.
Why it matters: Sparse autoencoders are the microscope of mechanistic interpretability. LLMs pack thousands of features into each layer through superposition, making individual neurons uninterpretable. SAEs decompose these superposed representations into individual, interpretable features. Anthropic used SAEs to identify millions of features in Claude, including features for deception, specific concepts, and safety-relevant behaviors.
SwiGLU
Gated Linear Unit, GLU Variants
A gated activation function used in the feedforward layers of modern Transformers. SwiGLU combines the SiLU/Swish activation with a gating mechanism: SwiGLU(x) = (x · W1 · SiLU) ⊗ (x · W3), where ⊗ is element-wise multiplication. This lets the network learn what information to pass through, consistently outperforming standard ReLU or GELU feedforward layers.
Why it matters: SwiGLU is the feedforward activation used by LLaMA, Mistral, Qwen, Gemma, and most modern LLMs. Understanding it helps you read model architectures and explains why modern FFN layers have three weight matrices instead of two. It's a small architectural choice with outsized impact on model quality.
Sigmoid
Logistic Function
A mathematical function that squashes any real number into the range (0, 1): σ(x) = 1 / (1 + e^(−x)). Historically the default activation function in neural networks, now largely replaced by ReLU and GELU for hidden layers but still used for binary classification outputs, gating mechanisms (in LSTMs and GLU), and attention-like operations where you need values between 0 and 1.
Why it matters: Sigmoid appears everywhere in AI even though it's no longer the default hidden activation. LSTM gates use sigmoid. The SiLU/Swish activation is x · sigmoid(x). Binary classifiers use sigmoid as the output activation. Understanding sigmoid — and why it was replaced by ReLU for hidden layers — is foundational knowledge for understanding neural network design choices.
Similitud del coseno
Cosine Similarity, Distancia coseno, Similitud vectorial
Fundamentos
Una medida de similitud entre dos vectores basada en el ángulo entre ellos, ignorando su magnitud. La similitud del coseno de 1 significa que los vectores apuntan en la misma dirección (significado idéntico). 0 significa que son perpendiculares (no relacionados). -1 significa direcciones opuestas. Es la métrica de similitud estándar para comparar embeddings de texto en búsqueda semántica, RAG y sistemas de recomendación.
Por qué importa: Cada vez que haces búsqueda semántica, usas RAG o comparas embeddings, la similitud del coseno es (probablemente) la métrica que decide qué es "similar". Entenderla te ayuda a depurar la calidad de recuperación, elegir entre coseno y alternativas (producto punto, distancia euclidiana) y comprender por qué algunas búsquedas no encuentran coincidencias obvias.
SwiGLU
Gated Linear Unit, Variantes GLU
Fundamentos
Una función de activación con compuerta utilizada en las capas feedforward de los Transformers modernos. SwiGLU combina la activación SiLU/Swish con un mecanismo de compuerta: SwiGLU(x) = (x · W1 · SiLU) ⊗ (x · W3), donde ⊗ es multiplicación elemento a elemento. Esto permite que la red aprenda qué información dejar pasar, superando consistentemente a las capas feedforward estándar con ReLU o GELU.
Por qué importa: SwiGLU es la activación feedforward usada por LLaMA, Mistral, Qwen, Gemma y la mayoría de los LLMs modernos. Entenderla te ayuda a leer arquitecturas de modelos y explica por qué las capas FFN modernas tienen tres matrices de pesos en lugar de dos. Es una decisión arquitectónica pequeña con un impacto desproporcionado en la calidad del modelo.
Sigmoid
Función logística
Fundamentos
Una función matemática que comprime cualquier número real al rango (0, 1): σ(x) = 1 / (1 + e^(−x)). Históricamente la función de activación por defecto en redes neuronales, ahora reemplazada en gran medida por ReLU y GELU para capas ocultas, pero aún usada para salidas de clasificación binaria, mecanismos de compuerta (en LSTMs y GLU), y operaciones similares a atención donde necesitas valores entre 0 y 1.
Por qué importa: Sigmoid aparece en todas partes en IA aunque ya no sea la activación oculta por defecto. Las compuertas de LSTM usan sigmoid. La activación SiLU/Swish es x · sigmoid(x). Los clasificadores binarios usan sigmoid como activación de salida. Entender sigmoid — y por qué fue reemplazada por ReLU para capas ocultas — es conocimiento fundamental para comprender las decisiones de diseño de redes neuronales.
Stable Diffusion
SD, SDXL, SD3
The most widely used open-source image generation model, created by Stability AI in collaboration with academic researchers. Stable Diffusion generates images from text prompts using latent diffusion — performing the denoising process in a compressed latent space rather than pixel space, making it fast enough to run on consumer GPUs. SD 1.5, SDXL, and SD3 represent successive generations.
Why it matters: Stable Diffusion democratized AI image generation. Before SD, image generation required expensive API access (DALL-E) or was limited to research. SD's open weights meant anyone could run it locally, fine-tune it, and build on it. This spawned an enormous ecosystem: LoRA fine-tunes, ControlNet, custom models, community-trained checkpoints, and applications from Automatic1111 to ComfyUI.
Super Resolución
Upscaling, Mejora de Imagen, SR
Aumentar la resolución de una imagen generando detalles plausibles que no estaban en la original. Una foto de 256×256 se convierte en una imagen nítida de 1024×1024. La super resolución con IA no solo interpola píxeles (lo que produce borrosidad) — alucina texturas, bordes y detalles finos realistas basándose en lo que aprendió de imágenes de alta resolución durante el entrenamiento.
Por qué importa: La super resolución tiene aplicaciones prácticas inmediatas: mejorar fotos antiguas, escalar texturas de videojuegos, mejorar imágenes de cámaras de seguridad, preparar imágenes de baja resolución para impresión, y como paso de post-procesamiento en pipelines de generación de imágenes con IA. Real-ESRGAN y modelos similares pueden mejorar drásticamente la calidad de imagen con un solo paso de inferencia.
T
Tencent
Hunyuan, WeChat, IA para juegos
Empresas
Gigante tecnologico chino detras de WeChat, una de las empresas de videojuegos mas grandes del mundo y una fuerza creciente en IA generativa. Sus modelos Hunyuan impulsan funcionalidades en todo el enorme ecosistema de Tencent, que atiende a mas de mil millones de usuarios.
Por qué importa: Tencent importa en IA por la misma razon que importa en todo lo demas: escala y distribucion. Con WeChat llegando a 1,300 millones de usuarios y un imperio de videojuegos que abarca todas las plataformas principales, Tencent puede desplegar funcionalidades de IA a mas personas, mas rapido, que casi cualquier empresa del mundo. Sus modelos Hunyuan y especialmente HunyuanVideo han demostrado que el laboratorio de IA de un conglomerado puede producir trabajo genuinamente competitivo, no solo herramientas internas funcionales. Para el ecosistema global de IA, los lanzamientos open source de Tencent de modelos de video y lenguaje han elevado el piso de lo que esta disponible gratuitamente, y sus inversiones en infraestructura aseguran que las capacidades de IA de China sigan siendo formidables independientemente de las restricciones a la exportacion de chips.
Twelve Labs
Búsqueda en vídeo, Pegasus, Marengo
Empresas
Empresa de comprension de video que te permite buscar, analizar y generar contenido a partir de video usando lenguaje natural. Piensa en ella como "RAG para video" — sus modelos entienden lo que sucede en un video de la misma manera que los LLMs entienden texto.
Por qué importa: Twelve Labs esta construyendo la infraestructura fundacional para hacer que el contenido de video del mundo sea legible por maquinas. En una era donde el video domina la comunicacion digital pero sigue siendo en gran medida no buscable por IA, sus modelos de embedding y generacion construidos a proposito resuelven un problema que incluso los laboratorios de frontera mas grandes solo han abordado superficialmente. Si el video es el medio dominante de internet, quien descifre la comprension de video a escala de produccion tendra una posicion estrategica comparable a lo que Google Search tiene para el texto.
Tripo
Texto-a-3D, imagen-a-3D
Empresas
Empresa de IA especializada en generar modelos 3D a partir de texto o imagenes. En un campo donde la mayoria de la generacion 3D produce masas inutilizables, Tripo destaca por generar mallas limpias, listas para produccion, con las que los desarrolladores de videojuegos y disenadores pueden realmente trabajar.
Por qué importa: Tripo representa la vanguardia de hacer que el contenido 3D generado por IA sea realmente utilizable en produccion. Mientras que la mayoria de la generacion 3D con IA todavia produce assets que requieren limpieza manual extensiva, Tripo se ha enfocado incansablemente en la calidad de malla, topologia apropiada e integracion con flujos de trabajo reales — la ingenieria poco glamorosa que separa una demo de investigacion de una herramienta por la que los profesionales pagaran. A medida que la computacion espacial y la demanda de contenido 3D en tiempo real explotan, las empresas que resuelvan primero la generacion de grado de produccion capturaran un mercado enorme.
Usar AI
Un parametro que controla que tan aleatoria o determinista es la salida de un modelo. Temperature 0 hace que el modelo siempre elija el siguiente token mas probable (deterministico, enfocado). Temperature 1+ lo hace mas dispuesto a elegir tokens menos probables (creativo, impredecible). La mayoria de las APIs tienen un valor predeterminado de alrededor de 0.7.
Por qué importa: Temperature es la perilla de creatividad. Escribiendo ficcion? Subela. Generando codigo o respuestas factuales? Bajala. Es uno de los parametros mas impactantes que puedes ajustar, y no cuesta nada experimentar con el.
Fundamentos
La unidad basica de texto que procesan los modelos de IA. Un token es tipicamente una palabra o fragmento de palabra — "understanding" podria ser un token, mientras que "un" + "der" + "standing" podrian ser tres. En promedio, un token equivale aproximadamente a 3/4 de una palabra en ingles. Los modelos leen, procesan y cobran en tokens.
Por qué importa: Los tokens son la moneda de la IA. Las ventanas de contexto se miden en tokens. Los precios de API se cobran por token. Cuando un proveedor dice "1M de contexto" se refiere a 1 millon de tokens, aproximadamente 750K palabras. Entender los tokens te ayuda a estimar costos y optimizar el uso.
Uso de herramientas
Llamada a funciones
Herramientas
La capacidad de un modelo de IA para llamar funciones o herramientas externas durante una conversacion. En lugar de solo generar texto, el modelo puede decidir buscar en la web, ejecutar codigo, consultar una base de datos o llamar a una API — y luego incorporar los resultados en su respuesta. El modelo produce una "llamada de herramienta" estructurada que la aplicacion anfitriona ejecuta.
Por qué importa: El tool use es lo que hace que los modelos de IA sean realmente utiles mas alla de la conversacion. Es el mecanismo detras de los interpretes de codigo, la IA que navega la web y cada agente de IA. Sin el, los modelos estan limitados a lo que hay en sus datos de entrenamiento.
Modelos
La arquitectura de red neuronal detras de practicamente todos los LLMs modernos y muchos modelos de imagen/audio. Introducida por Google en el paper de 2017 "Attention Is All You Need", los Transformers usan self-attention para procesar todas las partes de una entrada simultaneamente en lugar de secuencialmente, habilitando un paralelismo masivo durante el entrenamiento.
Por qué importa: Los Transformers son la arquitectura que hizo posible el boom actual de IA. GPT, Claude, Gemini, Llama, Mistral — todos son Transformers bajo el capo. Entender esta arquitectura te ayuda a comprender por que los modelos tienen las capacidades y limitaciones que tienen.
Tokenizer
Tokenización
El algoritmo que convierte texto crudo en tokens antes de que un modelo pueda procesarlo. Un tokenizer mantiene un vocabulario fijo de tipos de tokens y divide cualquier texto de entrada en una secuencia de esos tokens. Diferentes modelos usan diferentes tokenizers — la misma oración se tokeniza de forma diferente para Claude, GPT y Llama.
Por qué importa: El tokenizer es la capa invisible entre tu texto y el modelo. Determina cuántos tokens cuesta tu prompt, por qué algunos idiomas son más caros que otros, y por qué el código a veces consume contexto más rápido que la prosa.
Tamaño de Batch y Época
Mini-Batch, Época de Entrenamiento
Entrenamiento
El tamaño de batch es cuántos ejemplos de entrenamiento procesa el modelo antes de actualizar sus parámetros. Una época es un pase completo por todo el dataset de entrenamiento. Un modelo entrenado durante 3 épocas con 1 millón de ejemplos y tamaño de batch 1,000 procesa 1,000 ejemplos por actualización, toma 1,000 actualizaciones por época y 3,000 actualizaciones en total.
Por qué importa: El tamaño de batch y las épocas son los controles más fundamentales del entrenamiento. El tamaño de batch afecta la velocidad de entrenamiento, el uso de memoria e incluso lo que el modelo aprende (batches pequeños añaden ruido que puede ayudar a la generalización; batches grandes convergen más rápido pero pueden generalizar peor). El número de épocas determina cuántas veces el modelo ve cada ejemplo — muy pocas y sub-ajusta, demasiadas y sobreajusta.
Empresas
Una plataforma en la nube para ejecutar y entrenar modelos de IA de código abierto. Together AI proporciona APIs de inferencia para modelos open populares (Llama, Mistral, Qwen, etc.) a precios competitivos, más infraestructura de fine-tuning y entrenamiento personalizado. Fundada por investigadores de IA, también contribuyen a la investigación open-source y han lanzado sus propios modelos.
Por qué importa: Together AI es la alternativa líder al self-hosting para equipos que quieren usar modelos abiertos. En lugar de gestionar tus propios servidores GPU e infraestructura de servicio de modelos, llamas a su API y obtienes Llama-70B o Mistral a una fracción de los precios de OpenAI/Anthropic. Representan la capa de "nube de modelos abiertos" del stack de IA que hace que los modelos de pesos abiertos sean prácticos para uso en producción.
Texto a voz
TTS, Síntesis de voz, Voice AI
Usar AI
Convertir texto escrito en audio hablado con sonido natural. Los sistemas modernos de TTS usan redes neuronales para generar voz que es casi indistinguible de las voces humanas, con control sobre emoción, ritmo, énfasis e incluso clonación de voz específica. ElevenLabs, OpenAI TTS y modelos abiertos como Bark y XTTS han hecho que la síntesis de voz de alta calidad sea ampliamente accesible.
Por qué importa: El TTS completa el ciclo de la IA de voz: el reconocimiento de voz convierte la voz en texto, un LLM lo procesa y el TTS convierte la respuesta de vuelta a voz. Esto permite asistentes de voz, narración de audiolibros, herramientas de accesibilidad, localización de contenido y personajes de IA en juegos y medios. La calidad del TTS moderno ha cruzado el valle inquietante — el habla sintetizada ahora suena natural.
Tensor
Multidimensional Array
A multidimensional array of numbers — the fundamental data structure in deep learning. A scalar is a 0D tensor (a single number). A vector is a 1D tensor. A matrix is a 2D tensor. An image is a 3D tensor (height × width × channels). A batch of images is a 4D tensor. Model weights, activations, gradients — everything in a neural network is a tensor.
Why it matters: Tensors are the language of deep learning. PyTorch, TensorFlow, and JAX are fundamentally tensor computation libraries. Understanding tensor shapes and operations is essential for reading model code, debugging shape mismatches (the most common error in ML code), and understanding what happens inside neural networks. If you can follow the tensor shapes, you can follow the architecture.
Transferencia de Estilo
Neural Style Transfer, Transferencia de Estilo Neural
Aplicar el estilo visual de una imagen (una pintura, una fotografía, un diseño) al contenido de otra imagen. "Haz que esta foto se vea como una pintura de Van Gogh" es transferencia de estilo. La transferencia de estilo neural usa redes profundas para separar el contenido (lo que hay en la imagen) del estilo (cómo se ve) y recombinarlos.
Por qué importa: La transferencia de estilo fue una de las primeras aplicaciones virales de arte con IA y sigue siendo ampliamente usada en apps de edición de fotos, filtros de redes sociales y herramientas creativas. Entenderla te ayuda a comprender cómo las redes neuronales representan características visuales en diferentes niveles de abstracción — la misma idea que impulsa la generación moderna de imágenes.
U
Upstage
Modelos Solar, Document AI
Empresas
Empresa de IA coreana conocida por su familia de modelos Solar y productos de Document AI. Demostro que modelos mas pequenos y bien entrenados pueden superar a otros mucho mas grandes — su Solar 10.7B rindio muy por encima de su categoria en benchmarks globales.
Por qué importa: Upstage demostro que no necesitas cien mil millones de parametros para construir un modelo de lenguaje de clase mundial. El exito de Solar 10.7B en la cima de los benchmarks abiertos desafio la narrativa predominante de "la escala es todo lo que necesitas" y mostro que tecnicas de entrenamiento inteligentes podian compensar el tamano bruto. Mas alla de los modelos, el trabajo de Document AI de Upstage aborda una de las brechas mas practicas del ecosistema de IA — convertir documentos desordenados del mundo real en datos estructurados — y su exito desde Seul demuestra que la innovacion significativa en IA esta ocurriendo bastante fuera de los corredores de Silicon Valley y Beijing que dominan los titulares.
Un enfoque de entrenamiento donde el modelo encuentra patrones en los datos sin que le digan qué buscar. Sin etiquetas, sin respuestas correctas — solo datos crudos y un modelo que descubre estructura.
Por qué importa: La mayoría de los datos del mundo real no tienen etiquetas. El aprendizaje no supervisado encuentra patrones imposibles de descubrir manualmente. También es la base de los embeddings, que potencian la búsqueda semántica y RAG.
Uso dual
Tecnología de uso dual
Seguridad
Tecnología que puede usarse tanto para propósitos beneficiosos como perjudiciales. La IA es inherentemente de uso dual: el mismo modelo que ayuda a un médico a diagnosticar enfermedades podría ayudar a un actor malintencionado a sintetizar compuestos peligrosos. El mismo modelo de generación de código que acelera el desarrollo de software podría ayudar a crear malware. Gestionar el riesgo de uso dual es un desafío central de la gobernanza de la IA.
Por qué importa: El uso dual es la tensión fundamental del desarrollo de IA. Hacer los modelos más capaces inevitablemente los hace más capaces de causar daño. No puedes construir un motor de razonamiento poderoso que solo razone sobre cosas buenas. Esta tensión impulsa los debates sobre publicaciones de código abierto, restricciones de API y regulación — ¿cómo maximizas el beneficio minimizando el daño cuando la misma capacidad permite ambos?
V
IA de voz
IA del habla, IA conversacional
Herramientas
Sistemas de IA para generar, comprender y manipular el habla humana. Esto incluye texto a voz (TTS), voz a texto (STT/ASR), clonación de voz, traducción de voz en tiempo real, detección de emociones en el habla y agentes conversacionales de voz. El campo ha avanzado hasta el punto en que el habla generada por IA es frecuentemente indistinguible del habla humana.
Por qué importa: La voz es la interfaz humana más natural, y la IA finalmente la está haciendo programable. Voice AI potencia todo, desde bots de servicio al cliente hasta narración de audiolibros y transcripción de reuniones en tiempo real. Las implicaciones éticas de la clonación de voz — consentimiento, identidad, fraude — hacen de esta una de las áreas más sensibles en IA.
Vidu
Generación de vídeo Vidu, coherencia de larga duración
Empresas
Plataforma de generacion de video de Shengshu Technology, que produce algunos de los videos generados por IA con mayor coherencia fisica. Gano atencion por la fuerte calidad de movimiento y consistencia multi-toma que rivaliza con los competidores occidentales.
Por qué importa: Vidu demostro que los laboratorios de IA chinos podian igualar la calidad de generacion de video occidental en cuestion de meses tras la revelacion de Sora, reformulando las suposiciones sobre donde realmente se encuentra la vanguardia en video con IA. Su enfoque en coherencia fisica y consistencia multi-toma empujo a todo el campo hacia adelante, forzando a los competidores a priorizar el realismo sobre el estilo visual. Para el mercado mas amplio de video con IA, los precios agresivos de Vidu y la disponibilidad de su API tambien ayudaron a reducir costos y aumentar el acceso para desarrolladores en todo el mundo.
Voyage AI
voyage-3, embeddings específicos por dominio
Empresas
Empresa de modelos de embedding que construye vectores especializados para codigo, legal, finanzas y busqueda multilingue. Sus modelos consistentemente se ubican en la cima del leaderboard MTEB, ofreciendo una de las mejores calidades de recuperacion disponibles via API.
Por qué importa: Voyage AI demostro que los embeddings merecen la misma atencion e inversion en ingenieria que los modelos de lenguaje grandes. En un mercado donde la mayoria de los proveedores tratan las representaciones vectoriales como una utilidad de bajo margen, Voyage demostro que los modelos de embedding especificos por dominio pueden mejorar significativamente la precision de recuperacion — la palanca individual mas grande en sistemas RAG en produccion. Su adquisicion por Google valido la tesis de que quien sea dueno de la capa de embedding es dueno de la base de la infraestructura de busqueda con IA.
Base de datos vectorial
Qdrant, Pinecone, Weaviate, ChromaDB
Herramientas
Una base de datos optimizada para almacenar y buscar embeddings (vectores). En lugar de coincidir palabras clave exactas como una base de datos tradicional, las bases de datos vectoriales encuentran los elementos mas semanticamente similares. Preguntas "como arreglar una fuga de memoria" y te devuelve documentos sobre "depuracion de consumo de RAM" porque los embeddings son cercanos.
Por qué importa: Las bases de datos vectoriales son la capa de almacenamiento que hace funcionar RAG. Sin ellas, tendrias que generar embeddings de toda tu base de conocimiento en cada consulta. Tambien son la columna vertebral de los sistemas de recomendacion y la busqueda semantica.
VRAM
Memoria de vídeo, memoria GPU
Infraestructura
La memoria de una GPU, separada de la RAM del sistema. Los modelos de IA deben caber en la VRAM para correr en una GPU. Un modelo de 7B parametros en precision de 16 bits necesita ~14GB de VRAM. Las GPUs de consumo tienen 8-24GB; las GPUs de datacenter (A100, H100) tienen 40-80GB. La VRAM es casi siempre el cuello de botella para IA local.
Por qué importa: La VRAM determina que modelos puedes correr. Es la razon por la que existe la cuantizacion (para encoger modelos para que quepan), por la que los modelos MoE son complicados (todos los expertos deben caber en VRAM) y por la que los precios de GPU escalan tan abruptamente con la memoria. "Cabra en la VRAM?" es la primera pregunta del autoalojamiento de IA.
Creating video from text descriptions, images, or other videos using AI models. Sora (OpenAI), Kling (Kuaishou), Runway Gen-3, Vidu, and others generate videos from prompts like "a drone shot flying over a coral reef." The technology extends image generation to the temporal dimension, adding the challenge of maintaining consistency across frames and generating realistic motion.
Why it matters: Video generation is the frontier of generative AI — the hardest modality and the one with the most commercial potential. It's beginning to transform filmmaking, advertising, social media, and education. The quality gap between AI and professional video is closing rapidly, with current models producing 5–15 second clips that are sometimes indistinguishable from real footage.
Vocabulario
Vocab, Vocabulario de tokens
Fundamentos
El conjunto fijo de tokens que un modelo puede reconocer y producir. Un vocabulario se construye mediante el tokenizer durante el entrenamiento y típicamente contiene de 32K a 128K entradas — palabras comunes, fragmentos de subpalabras, caracteres individuales y tokens especiales. Cualquier texto que el modelo procese debe ser expresable como una secuencia de tokens de este vocabulario. Los tokens que no están en el vocabulario se descomponen en piezas más pequeñas que sí lo están.
Por qué importa: El vocabulario determina lo que el modelo puede "ver". Un vocabulario entrenado principalmente en inglés manejará el inglés eficientemente (un token por palabra) pero puede fragmentar el chino, el árabe o el código en muchos tokens pequeños (más caro, más lento, menos contexto). El diseño del vocabulario es una de las decisiones más consecuentes y menos discutidas en el desarrollo de modelos.
Visión
Visión multimodal, Comprensión de imágenes
Usar AI
La capacidad de un modelo de lenguaje para comprender y razonar sobre imágenes junto con texto. Envías una foto y preguntas "¿qué hay en esta imagen?" o subes un gráfico y pides "resume las tendencias". Los modelos con visión (Claude, GPT-4V, Gemini) codifican las imágenes en tokens que el modelo de lenguaje procesa junto con los tokens de texto, permitiendo razonamiento unificado de texto e imagen.
Por qué importa: La visión transforma lo que los LLMs pueden hacer. En lugar de describir un bug con palabras, lo capturas en pantalla. En lugar de escribir una tabla, la fotografías. En lugar de explicar un diagrama, lo compartes. La visión hace que la IA sea accesible para tareas donde solo el texto es insuficiente — que son la mayoría de las tareas del mundo real. Es la capacidad multimodal más impactante para los usuarios cotidianos.
A Transformer architecture applied to images by splitting an image into fixed-size patches (e.g., 16×16 pixels), treating each patch as a "token," and processing the sequence of patches with standard Transformer attention. ViT (Dosovitskiy et al., 2020) showed that Transformers could match or exceed CNNs on image tasks when trained on enough data, unifying the architectures for language and vision.
Why it matters: ViT proved that the Transformer is a universal architecture — not just for text but for images too. This unification enabled the explosion of multimodal models: if images and text are both sequences of tokens processed by the same architecture, combining them becomes natural. ViT is the image encoder in CLIP, the backbone of DiT, and the foundation of modern computer vision.
An open-source LLM serving engine that achieves high throughput through PagedAttention and continuous batching. vLLM handles the complex engineering of GPU memory management, request scheduling, and KV cache optimization, providing an OpenAI-compatible API that makes it easy to self-host open models (Llama, Mistral, Qwen) in production.
Why it matters: vLLM is the most popular open-source LLM serving solution. If you're self-hosting an open model, you're probably using vLLM (or should be). Its PagedAttention innovation increased serving throughput by 2–24x compared to naive implementations. It's the infrastructure layer that makes open models practical for production use.
Modelos
Una arquitectura Transformer aplicada a imágenes dividiendo una imagen en parches de tamaño fijo (por ejemplo, 16×16 píxeles), tratando cada parche como un "token" y procesando la secuencia de parches con atención estándar de Transformer. ViT (Dosovitskiy et al., 2020) demostró que los Transformers podían igualar o superar a las CNN en tareas de imagen cuando se entrenan con suficientes datos, unificando las arquitecturas para lenguaje y visión.
Por qué importa: ViT demostró que el Transformer es una arquitectura universal — no solo para texto sino también para imágenes. Esta unificación permitió la explosión de modelos multimodales: si tanto imágenes como texto son secuencias de tokens procesados por la misma arquitectura, combinarlos se vuelve natural. ViT es el codificador de imágenes en CLIP, la columna vertebral de DiT y la base de la visión por computadora moderna.
Herramientas
Un motor de servicio de LLMs de código abierto que logra alto rendimiento mediante PagedAttention y batching continuo. vLLM maneja la ingeniería compleja de gestión de memoria GPU, programación de solicitudes y optimización del KV cache, proporcionando una API compatible con OpenAI que facilita alojar modelos abiertos (Llama, Mistral, Qwen) en producción.
Por qué importa: vLLM es la solución de servicio de LLMs de código abierto más popular. Si alojas un modelo abierto por tu cuenta, probablemente estás usando vLLM (o deberías). Su innovación PagedAttention aumentó el rendimiento de servicio 2–24x comparado con implementaciones ingenuas. Es la capa de infraestructura que hace que los modelos abiertos sean prácticos para uso en producción.
Validación Cruzada
K-Fold CV, Leave-One-Out
Entrenamiento
Una técnica para evaluar el rendimiento del modelo cuando no tienes suficientes datos para un conjunto de prueba separado. La validación cruzada K-fold divide los datos en K partes iguales, entrena con K−1 partes y evalúa con la parte restante, rotando K veces para que cada punto de datos se use tanto para entrenamiento como para evaluación. La puntuación promedio de todos los K folds da una estimación de rendimiento más confiable que una sola división entrenamiento/prueba.
Por qué importa: La validación cruzada es esencial cuando los datos son escasos — si solo tienes 500 ejemplos, reservar 100 para pruebas significa entrenar con 20% menos datos. La validación cruzada usa todos los datos tanto para entrenamiento como para evaluación. También te da un intervalo de confianza (varianza entre folds) en lugar de un solo número, diciéndote qué tan estable es el rendimiento de tu modelo.
Visualización de Atención
Mapas de Atención, Heatmap de Atención
Fundamentos
Visualizar a qué "presta atención" un modelo Transformer mostrando los pesos de atención como heatmaps. Para cada token de consulta, el mapa de atención muestra cuánto peso asigna a cada otro token. Pesos altos (puntos brillantes) indican atención fuerte — el modelo considera esos tokens altamente relevantes para el cálculo actual.
Por qué importa: La visualización de atención es la forma más intuitiva de observar dentro de un Transformer y entender su razonamiento. Cuando un modelo traduce "le chat noir" a "the black cat", los mapas de atención muestran que "black" presta mucha atención a "noir" y "cat" a "chat". Esto ayuda a depurar el comportamiento del modelo, entender fallos y construir intuición sobre cómo funciona la atención.
W
Pesos
Pesos del modelo, pesos de red neuronal
Entrenamiento
Los valores numéricos dentro de una red neuronal que se ajustan durante el entrenamiento para minimizar el error. Cada conexión entre neuronas tiene un peso que determina cuánta influencia tiene una neurona sobre la siguiente. Cuando descargas un archivo de modelo — un archivo .safetensors, .gguf o .pt — estás descargando sus pesos. "Releasing the weights" significa publicar estos archivos para que cualquiera pueda ejecutar el modelo. Los pesos SON el modelo; todo lo demás es simplemente la arquitectura que te indica cómo organizarlos.
Por qué importa: Cuando la industria de la IA dice "open weights" vs "open source", la distinción importa. Los pesos solos te permiten ejecutar y ajustar finamente un modelo, pero sin el código de entrenamiento, los datos y la receta, no puedes reproducirlo desde cero. Entender los pesos te ayuda a comprender la distribución del modelo, la cuantización (reducir la precisión de los pesos) y por qué un modelo de 7B necesita ~14 GB de espacio en disco en fp16.
Wan-AI
Modelos de vídeo Wan, generación de vídeo de pesos abiertos
Empresas
La iniciativa dedicada de Alibaba para generacion de video, lanzando modelos de video de alta calidad con pesos abiertos. Parte de la estrategia mas amplia de Alibaba para liderar en IA open source en todas las modalidades.
Por qué importa: Wan-AI cambio fundamentalmente la accesibilidad de la generacion de video de alta calidad al lanzar modelos de pesos abiertos que cualquiera puede ejecutar, afinar y desplegar sin cuotas de licencia. Esto forzo a toda la industria de video con IA a reconsiderar la propuesta de valor de los modelos de codigo cerrado y acelero la innovacion en todo el ecosistema. Como parte de la estrategia mas amplia de IA open source de Alibaba junto con Qwen, Wan representa un argumento creible de que los lanzamientos de pesos abiertos de las grandes tecnologicas pueden igualar o superar lo que las startups bien financiadas producen a puertas cerradas.
Marca de agua
Marca de agua de IA
Señales invisibles en contenido generado por IA para su detección. Texto: sesga la selección de tokens estadísticamente. Imagen: patrones de píxeles invisibles.
Por qué importa: Uno de los pocos enfoques para distinguir contenido de IA a escala. Importa para desinformación, integridad académica y procedencia.
Empresas
La plataforma MLOps dominante para el seguimiento de experimentos de machine learning. W&B te permite registrar métricas, hiperparámetros, salidas de modelos y rendimiento del sistema durante el entrenamiento, y luego comparar ejecuciones visualmente. Se ha convertido en la herramienta estándar para investigadores e ingenieros de ML para rastrear qué intentaron, qué funcionó y por qué — esencialmente control de versiones para experimentos.
Por qué importa: Sin seguimiento de experimentos, el desarrollo de ML es caos: ¿qué hiperparámetros produjeron ese buen resultado? ¿Qué versión del dataset se usó? ¿Por qué divergó el entrenamiento? W&B resolvió este problema tan bien que ahora lo usan la mayoría de los laboratorios de IA, desde investigadores individuales hasta OpenAI. Si estás entrenando modelos, casi con certeza estás usando W&B o algo inspirado en él.
Word Embedding
Word2Vec, GloVe, Word Vectors
Dense vector representations of words where words with similar meanings have similar vectors. Word2Vec (2013) and GloVe (2014) pioneered this: they train on word co-occurrence patterns to produce vectors where "king − man + woman ≈ queen." Word embeddings were the precursor to modern contextual embeddings (BERT, sentence-transformers) and remain foundational to understanding how neural networks represent language.
Why it matters: Word embeddings were the breakthrough that made neural NLP practical. Before them, words were represented as one-hot vectors (no notion of similarity). Word embeddings proved that distributed representations could capture meaning, analogy, and semantic relationships. This insight — represent discrete symbols as learned continuous vectors — is the foundation of all modern language models.
Word Embedding
Word2Vec, GloVe, Vectores de palabras
Fundamentos
Representaciones vectoriales densas de palabras donde palabras con significados similares tienen vectores similares. Word2Vec (2013) y GloVe (2014) fueron pioneros: entrenan sobre patrones de co-ocurrencia de palabras para producir vectores donde "rey − hombre + mujer ≈ reina". Los word embeddings fueron los precursores de los embeddings contextuales modernos (BERT, sentence-transformers) y siguen siendo fundamentales para entender cómo las redes neuronales representan el lenguaje.
Por qué importa: Los word embeddings fueron el avance que hizo práctico el NLP neuronal. Antes de ellos, las palabras se representaban como vectores one-hot (sin noción de similitud). Los word embeddings demostraron que las representaciones distribuidas podían capturar significado, analogía y relaciones semánticas. Esta idea — representar símbolos discretos como vectores continuos aprendidos — es la base de todos los modelos de lenguaje modernos.
Windsurf
Codeium, Windsurf Editor
Empresas
Un editor de código nativo con IA (anteriormente Codeium) que compite con Cursor en el espacio de asistentes de codificación con IA. Como Cursor, Windsurf está construido como un fork de VS Code con integración profunda de IA: edición multi-archivo, sugerencias conscientes del codebase y comandos en lenguaje natural. La empresa enfatiza los "flows" — interacciones de IA más largas y multi-paso que mantienen contexto a través de las ediciones.
Por qué importa: Windsurf representa la creciente competencia en herramientas de codificación con IA, demostrando que el mercado de editores nativos con IA es lo suficientemente grande para múltiples jugadores. Su característica "Cascade" para tareas de codificación multi-paso y su nivel gratuito han atraído una base de usuarios significativa. La competencia Cursor vs. Windsurf vs. Copilot vs. Claude Code está impulsando innovación rápida en cómo los desarrolladores interactúan con la IA.
X
Xiaomi
MiLM, IA para electrónica de consumo
Empresas
Una de las empresas de electronica de consumo mas grandes del mundo, ahora construyendo sus propios modelos de IA. MiLM impulsa funcionalidades en todo el ecosistema de Xiaomi de telefonos, dispositivos de hogar inteligente y vehiculos electricos — IA para los proximos mil millones de usuarios.
Por qué importa: Xiaomi representa el caso mas convincente de como la IA llega a los proximos mil millones de usuarios — no a traves de apps de chatbot independientes o APIs para desarrolladores, sino integrada invisiblemente en los dispositivos que la gente ya posee. Con cientos de millones de dispositivos activos que abarcan telefonos, wearables, electrodomesticos y ahora vehiculos electricos, Xiaomi puede desplegar IA a una escala e intimidad que las empresas de IA puras no pueden igualar. Su enfoque de ecosistema primero es una vista previa de como la IA se convertira en infraestructura ambiental en lugar de un producto que conscientemente eliges usar, y su dominio en mercados emergentes significa que este futuro llegara a poblaciones en las que los laboratorios de IA de frontera rara vez piensan.
xAI
Grok
La empresa de IA de Elon Musk (2023). Modelos Grok, acceso a datos de X, cluster Colossus (100K+ H100s).
Por qué importa: Escala + datos únicos. Si el firehose de X y el cómputo masivo producen modelos de calidad de frontera es la pregunta abierta.
Y
YAML
YAML Ain't Markup Language
Infraestructura
Un formato de serialización de datos legible por humanos utilizado ampliamente en IA y DevOps para archivos de configuración, definiciones de pipelines y metadatos de modelos. YAML utiliza la indentación para representar la estructura (sin corchetes ni llaves), haciéndolo fácil de leer pero notoriamente sensible al espacio en blanco. Lo encontrarás en todas partes en los flujos de trabajo de IA — archivos Docker Compose, manifiestos de Kubernetes, tarjetas de modelos de Hugging Face, pipelines de CI/CD y archivos de configuración de entrenamiento.
Por qué importa: Si estás trabajando con infraestructura de IA, estás escribiendo YAML. Configuraciones de modelos, manifiestos de despliegue, definiciones de pipelines, variables de entorno — es el lenguaje que actúa como pegamento de la pila de IA moderna. Acostumbrarse a YAML no es opcional; es la primera cosa que se rompe cuando malconfiguras una ejecución de entrenamiento o un despliegue.
Z
Zhipu AI
GLM, ChatGLM, CogView, CogVideo
Empresas
Empresa china de IA surgida de la Universidad Tsinghua. Detras de la familia de modelos GLM y una de las plataformas de IA lideres en China, con fortalezas tanto en lenguaje como en generacion visual.
Por qué importa: Zhipu AI cierra la brecha entre la investigacion academica y la IA comercial en China, produciendo modelos open source — especialmente en generacion de video con CogVideoX — que han logrado una adopcion genuinamente global. Su arquitectura GLM y sus raices en Tsinghua les dan una profunda credibilidad tecnica, convirtiendolos en una de las pocas empresas chinas de IA cuyas contribuciones de investigacion son ampliamente citadas y construidas a nivel internacional.
Zero-shot / Few-shot
Aprendizaje en contexto
Usar AI
Zero-shot significa pedirle a un modelo que realice una tarea sin ningun ejemplo — solo la instruccion. Few-shot significa proporcionar un punado de ejemplos de entrada-salida en el prompt antes de la solicitud real. "Aqui hay 3 ejemplos de como formatear estos datos... ahora haz este." El modelo aprende el patron solo del contexto, sin entrenamiento requerido.
Por qué importa: El few-shot prompting es la forma mas rapida de ensenarle a un modelo un nuevo formato o comportamiento. Necesitas salida JSON consistente? Muestrale tres ejemplos. Necesitas un estilo de escritura especifico? Dale muestras. Es gratis, instantaneo y sorprendentemente poderoso.
ESC