Modelos de Lenguaje Basados en Difusión (dLLMs): Arquitectura, Optimización y el Cambio de Paradigma en la Generación de Texto Discreto

La evolución del procesamiento del lenguaje natural ha estado marcada por la hegemonía de los modelos autorregresivos, los cuales han definido la frontera de lo posible a través de la predicción secuencial del siguiente token. Sin embargo, al alcanzar el año 2026, la comunidad científica ha consolidado un cambio de paradigma hacia los Modelos de Lenguaje basados en Difusión (dLLMs o DLMs), una clase de modelos que abandona la generación lineal de izquierda a derecha en favor de un proceso de refinamiento iterativo y global.

Esta transición no es meramente técnica, sino conceptual; mientras que los modelos autorregresivos (AR) asumen que el lenguaje es una cadena unidireccional de probabilidades condicionales, los modelos de difusión tratan el texto como una estructura que puede emerger del ruido mediante una desnaturalización progresiva, permitiendo una visión bidireccional y holística de la secuencia.

El auge de los dLLMs responde a limitaciones estructurales de la autorregresión, como el fenómeno de la propagación de errores, donde una elección incorrecta en un token inicial contamina irrevocablemente el resto de la generación, y la denominada "maldición de la reversión", que impide a los modelos AR razonar sobre información que aparece en un orden distinto al de su entrenamiento.

Fundamentos Teóricos de la Difusión en Espacios Discretos

A diferencia de los modelos de difusión en el dominio continuo, que operan sobre píxeles y ruido gaussiano, los modelos de lenguaje deben enfrentarse a la naturaleza discreta del vocabulario. La formulación matemática de los dLLMs se apoya en procesos de difusión discretos donde la corrupción de los datos se define mediante matrices de transición categóricas.

En un sistema de difusión discreta, un dato limpio \(x_0\) se transforma progresivamente en una variable latente ruidosa \(x_t\) a través de una serie de pasos de tiempo \(t\). Este proceso hacia adelante se puede expresar como \(q(x_t | x_{t-1})\), donde la probabilidad de transición entre estados está gobernada por un kernel de transición que puede ser de absorción, donde los tokens se reemplazan por un símbolo especial ``, o de ruido uniforme, donde los tokens se intercambian aleatoriamente por otros miembros del vocabulario.

El proceso de reversión, que constituye el núcleo del aprendizaje del modelo, busca aproximar la distribución posterior \(p_{\theta}(x_{t-1} | x_t)\) para recuperar la secuencia original. Este entrenamiento se realiza habitualmente optimizando un límite inferior de la verosimilitud (ELBO), lo que garantiza que el modelo aprenda a invertir la corrupción de manera consistente.

Un avance crítico en esta área ha sido el desarrollo de la Difusión Discreta por Entropía de Puntuación (SEDD), la cual, en lugar de modelar probabilidades absolutas, se enfoca en las "puntuaciones concretas" o ratios entre distribuciones de datos. SEDD ha demostrado reducir la perplejidad generativa en órdenes de magnitud comparado con enfoques de difusión previos, logrando resultados que rivalizan con modelos GPT-2 pero con una eficiencia significativamente mayor en términos de evaluaciones de red (NFEs).

Atributo Técnico	Difusión de Absorción (Masking)	Difusión de Ruido Uniforme	Difusión Continua (Latent)
Mecanismo de Corrupción	Sustitución por token	Reemplazo aleatorio en vocabulario	Adición de ruido gaussiano en embeddings
Ventaja Principal	Interpretación clara del progreso	Flexibilidad para edición continua	Facilidad de uso de teoría de difusión estándar
Desafío Clave	Incapacidad de revisar tokens ya fijados	Convergencia más lenta	Necesidad de autoencoders de alta fidelidad
Aplicación Destacada	LLaDA, LLaDA-V	UDLM, MDLM	TEncDM, Diffusion-LM

La elección del scheduler de ruido también desempeña un papel vital. En modelos como TEncDM, se ha observado que los esquemas tradicionales de imagen, como el coseno o la raíz cuadrada, resultan demasiado sencillos para las codificaciones de texto, lo que lleva a una señal de entrenamiento débil.

Como solución, se ha propuesto el uso de schedulers tipo "tan-d", que aplican una tasa de adición de ruido mucho más agresiva para forzar al modelo a aprender características semánticas profundas durante la desnaturalización. Estos fundamentos teóricos han permitido escalar los modelos de difusión desde simples generadores de oraciones cortas hasta sistemas de miles de millones de parámetros capaces de realizar tareas complejas de razonamiento y codificación.

El Hito de LLaDA: Difusión a Escala de Miles de Millones

La introducción de LLaDA (Large Language Diffusion with mAsking) en 2025 marcó un punto de inflexión al demostrar que los modelos de difusión pueden entrenarse desde cero con una escala de 8 mil millones de parámetros, compitiendo directamente con arquitecturas autorregresivas establecidas como LLaMA3. LLaDA se fundamenta en un objetivo de predicción de tokens enmascarados con una tasa de enmascaramiento aleatoria \(t \sim U(0, 1)\), lo que le otorga una capacidad de aprendizaje en contexto que anteriormente se creía exclusiva de los modelos AR.

A diferencia de los modelos de lenguaje enmascarado (MLM) tradicionales tipo BERT, que utilizan una tasa de máscara fija y se enfocan en representaciones, LLaDA es un modelo generativo de pleno derecho que utiliza una arquitectura de Transformer sin máscara causal, permitiendo que cada posición atienda a toda la secuencia durante el refinamiento.

Desde una perspectiva arquitectónica, LLaDA prescinde del almacenamiento en caché de claves y valores (KV caching) tradicional, ya que la naturaleza bidireccional del modelo implica que los estados ocultos de todos los tokens cambian en cada paso de la difusión. Para compensar la carga computacional, se han explorado dimensiones de FFN reducidas y configuraciones de atención multi-cabezal optimizadas.

Durante el ajuste fino supervisado (SFT), LLaDA aplica un esquema de enmascaramiento condicional: el prompt se mantiene visible mientras que la respuesta se enmascara y recupera iterativamente. Este enfoque ha permitido que LLaDA-8B alcance un rendimiento en HumanEval y benchmarks de razonamiento que supera a modelos AR de tamaño similar, demostrando una robustez superior ante tareas que requieren una comprensión global de la estructura del texto.

Benchmark	LLaDA 8B (SFT)	LLaMA3 8B (SFT)	LLaMA2 7B
ARC-C (Reasoning)	88.5	82.4	-
HumanEval (Coding)	Competitivo	Referencia	Inferior
Aprendizaje en Contexto	Emergente	Nativo	Limitado
Manejo de Reversión	Superior	Deficiente	Deficiente

La capacidad de LLaDA para resolver la "maldición de la reversión" es particularmente notable. Mientras que modelos como GPT-4o experimentan dificultades significativas al completar poemas o secuencias lógicas en orden inverso, LLaDA maneja estas tareas con naturalidad debido a su entrenamiento bidireccional. Esto sugiere que la inteligencia de los modelos de lenguaje a gran escala no reside exclusivamente en el mecanismo autorregresivo, sino en la capacidad de aproximar la distribución real del lenguaje a través de modelado generativo de alta fidelidad, ya sea mediante predicción de siguiente token o difusión.

Eficiencia y Velocidad de Inferencia: La Serie Mercury y Gemini Diffusion

Uno de los argumentos más persistentes a favor de los modelos de difusión es su potencial para la generación paralela, lo que se traduce en una latencia de inferencia drásticamente reducida en comparación con los modelos AR, los cuales están limitados por la necesidad de generar un token a la vez.

La serie Mercury, desarrollada por Inception Labs, ha establecido nuevos récords de velocidad al generar más de 1000 tokens por segundo en hardware NVIDIA H100. Esta velocidad representa un incremento de hasta 20 veces respecto a modelos autorregresivos optimizados, permitiendo aplicaciones de alta fidelidad en tiempo real que antes eran computacionalmente prohibitivas.

La arquitectura de Mercury utiliza un proceso de refinamiento de "grueso a fino" (coarse-to-fine), donde se generan bloques enteros de tokens simultáneamente. En cada paso de desnaturalización, el modelo ajusta las probabilidades de todos los tokens en la ventana de generación, corrigiendo errores semánticos y gramaticales de forma dinámica.

Por su parte, Google DeepMind ha presentado Gemini Diffusion, un modelo experimental que alcanza una velocidad de muestreo de 1479 tokens por segundo (excluyendo un overhead inicial de 0.84 segundos). Gemini Diffusion destaca por su coherencia en tareas de codificación y matemáticas, áreas donde el refinamiento iterativo permite al modelo autocorregir errores lógicos antes de finalizar la respuesta.

Modelo	Arquitectura	Throughput (Tokens/seg)	Caso de Uso Principal
Mercury Coder Mini	Difusión Paralela	1109	Autocompletado de código ultra-rápido
Mercury Coder Small	Difusión Paralela	737	Generación de scripts y lógica compleja
Gemini Diffusion	Difusión Experimental	1479	Razonamiento científico y matemático
Gemini 2.0 Flash Lite	Autorregresivo	201	Chat de propósito general optimizado
GPT-4o Mini	Autorregresivo	59	Asistente conversacional estándar

Esta ventaja de velocidad no está exenta de matices técnicos. El rendimiento de los dLLMs brilla especialmente en secuencias largas, donde el paralelismo puede explotarse al máximo. Sin embargo, para respuestas extremadamente cortas, un modelo autorregresivo podría ser más eficiente, ya que los dLLMs siempre requieren un número mínimo de pasos de refinamiento (iteraciones del modelo) independientemente de la longitud de la salida.

Además, la falta de una "caché de claves y valores" estática en los modelos de difusión puros obliga a recalcular las matrices de atención contra todo el contexto en cada paso, lo que aumenta la intensidad de cómputo por token en comparación con la eficiencia de memoria de los modelos AR. A pesar de ello, el desarrollo de técnicas como Fast-dLLM, que introduce cachés de KV aproximadas por bloques, está comenzando a cerrar esta brecha de eficiencia operativa.

El Desafío de la Ventana de Decodificación y la Coherencia Global

A medida que los dLLMs se aplican a la generación de textos extensos, ha surgido un obstáculo crítico denominado el problema de la "ventana de decodificación larga" (LDW). A diferencia de los modelos AR, que se centran en el token inmediatamente adyacente al contexto existente, los dLLMs tratan todas las posiciones de la ventana de generación como objetivos potenciales simultáneos. Esto provoca que los tokens en posiciones alejadas del contexto de entrada inicial tiendan a ser menos coherentes y más aleatorios, degradando la fluidez narrativa a medida que aumenta la distancia.

Para solucionar el LDW, investigadores han propuesto estrategias de decodificación semi-autorregresivas, como Block Diffusion o decodificación convolucional. En estos esquemas, la ventana de generación se divide en bloques más pequeños que se decodifican secuencialmente, permitiendo que el modelo utilice un contexto de "limpio" para anclar el refinamiento de cada bloque.

No obstante, esta segmentación introduce el "problema de expansión del intervalo de tiempo", donde la calidad del texto puede caer drásticamente si se reduce demasiado el número de pasos de desnaturalización por bloque para mantener la velocidad. La búsqueda de un equilibrio entre la velocidad del paralelismo total y la coherencia del enfoque por bloques define gran parte de la investigación actual en dLLMs hacia 2026.

Técnica de Decodificación	Tipo	Ventaja	Desventaja
Paralela Total	Difusión Pura	Máxima velocidad y bidireccionalidad total en la secuencia.	Problema de "Ventana Larga" (LDW); menor fluidez en textos extensos.
Semi-Autorregresiva (Block)	Híbrida	Alta coherencia global y manejo efectivo del problema LDW.	Sacrifica parte del paralelismo; requiere más pasos de red (NFEs).
Confident Decoding	Adaptativa	Optimiza la velocidad ajustando pasos según la confianza del modelo.	Implementación compleja en sistemas de tiempo real.
Causal Distillation	Destilada	Inferencia ultra-rápida en muy pocos pasos (1-4 iteraciones).	Riesgo de pérdida de diversidad en la generación creativa.

Además de la coherencia estructural, la longitud de la respuesta en los modelos de difusión es un reto intrínseco. Al no poseer un token de final de secuencia () que detenga el proceso de forma natural como en los modelos AR, los dLLMs tienden a sufrir de un sesgo de longitud, intentando llenar toda la ventana de máscara predefinida.

El modelo Dimple aborda esto sustituyendo los tokens por un número variable de tokens de relleno (padding) durante el entrenamiento, enseñando al modelo a controlar de forma adaptativa el contenido útil dentro de una ventana de tamaño fijo. Este tipo de innovaciones arquitectónicas son esenciales para que los dLLMs pasen de ser curiosidades académicas a herramientas de producción fiables.

Controlabilidad y Adherencia a Estructuras: Schema Scaffolding

Una de las áreas donde los dLLMs superan con creces a sus contrapartes autorregresivas es en la generación de texto altamente estructurado y bajo restricciones complejas. Debido a su proceso de refinamiento global, estos modelos pueden "mirar hacia adelante" y asegurar que la estructura final cumpla con esquemas específicos como JSON, XML o protocolos de comunicación. El marco "Self-adaptive Schema Scaffolding" permite que el dLLM utilice su capacidad innata de razonamiento inverso para mantener la conciencia global del esquema durante cada paso de la desnaturalización.

En experimentos comparativos, los modelos de difusión equipados con guías estructurales han mostrado una mejora del 65% en la adherencia a esquemas y una reducción del 48% en la fidelidad del contenido en comparación con modelos AR similares.

Esta capacidad de control se extiende al uso de guías con clasificadores (classifier guidance) y guías libres de clasificador (CFG). Al inyectar una señal de control que favorezca, por ejemplo, un sentimiento positivo o una terminología técnica específica, el modelo puede ajustar toda la secuencia en conjunto para satisfacer ese requisito, evitando las "alucinaciones de estilo" comunes en la autorregresión donde el modelo olvida la instrucción inicial a mitad del texto.

Métrica de Control	dLLM con Scaffolding	Modelo AR (Prompting)	Mejora Observada
Adherencia Estructural	92.4%	68.1%	+24.3% absoluto
Tasa de Alucinación	8.2%	25.1%	-17% relativo
Coherencia Global	Alta	Media-Baja	Mejora cualitativa en hilos largos
Edición de Texto (In-filling)	Nativa y Fluida	Requiere técnicas FIM	Integración semántica superior

Esta naturaleza controlable hace que los dLLMs sean la opción preferida para aplicaciones de agentes autónomos y flujos de trabajo de ingeniería de software, donde la precisión del formato es tan importante como el contenido semántico. En el desarrollo de código, por ejemplo, un dLLM puede asegurar que un cambio en la firma de una función se refleje instantáneamente en todas sus llamadas y documentación dentro de un mismo paso de generación, algo que un modelo AR solo podría lograr mediante múltiples pasadas o re-ejecuciones costosas.

Multimodalidad y Arquitecturas Unificadas: MMaDA y Dimple

El éxito de la difusión en la generación de imágenes ha facilitado su integración en modelos multimodales de lenguaje, creando una sinergia que las arquitecturas AR tradicionales encuentran difícil de replicar de manera unificada.

MMaDA (Multimodal Large Diffusion Language Model) representa la vanguardia de este movimiento al proponer una arquitectura agnóstica a la modalidad. En lugar de utilizar un codificador visual separado conectado a un decodificador AR de texto, MMaDA utiliza una formulación probabilística compartida donde tanto los tokens de imagen como los de texto se tratan bajo el mismo proceso de difusión discreta.

Entrenado en tres etapas: pre-entrenamiento multimodal, ajuste fino de cadena de pensamiento mixta y refuerzo mediante UniGRPO. MMaDA-8B ha demostrado superar a modelos como SDXL en generación de imágenes y a Qwen2 en razonamiento textual.

La clave de su rendimiento reside en la interacción bidireccional continua: durante el proceso de desnaturalización, el texto generado puede influir en la composición de la imagen y viceversa en tiempo real, lo que garantiza una alineación semántica cruzada que es mucho más profunda que la simple concatenación de embeddings.

Por otro lado, el modelo Dimple utiliza un enfoque de entrenamiento híbrido "Autoregressive-then-Diffusion" para estabilizar el aprendizaje, logrando superar a LLaVA-NEXT en un 3.9% en tareas de comprensión multimodal.

La multimodalidad basada en difusión no solo mejora la calidad de la salida, sino que simplifica la infraestructura de servicio. Al tener un único modelo que maneja múltiples tipos de datos con el mismo mecanismo de inferencia paralelo, las empresas pueden reducir la complejidad de sus pipelines de IA. No obstante, el entrenamiento de estos modelos sigue siendo computacionalmente costoso, lo que plantea interrogantes sobre si la eficiencia en el servicio justifica la inversión inicial en el entrenamiento de difusión multimodal masiva.

Técnicas de Post-Entrenamiento y Alineación: El Camino en 2026

En el año 2026, la frontera de la investigación en dLLMs se ha desplazado significativamente hacia el post-entrenamiento y la alineación de preferencias. El taller ReALM-GEN en ICLR 2026 subraya este cambio, centrándose en cómo hacer que los modelos de flujo y difusión respeten las restricciones del mundo real y las preferencias del usuario.

A diferencia de los modelos AR, donde el aprendizaje por refuerzo con retroalimentación humana (RLHF) se aplica típicamente sobre la probabilidad del siguiente token, en los dLLMs la alineación se interpreta como un muestreo de una "distribución inclinada" (tilted distribution) que incorpora recompensas por seguridad, estilo y veracidad.

Nuevos algoritmos como UniGRPO (Unified Policy-Gradient-based Reinforcement Learning) han sido diseñados específicamente para modelos de difusión. UniGRPO unifica el post-entrenamiento a través de tareas de razonamiento y generación, asegurando que las mejoras de rendimiento sean consistentes en todas las modalidades.

Además, se están explorando técnicas de "escalado en tiempo de prueba" (test-time scaling), donde se permite que el modelo utilice más computación durante la inferencia ya sea mediante más pasos de desnaturalización o mediante búsqueda en árbol de difusión enmascarada (Masked Diffusion Tree Search) para resolver problemas de optimización de caja negra y diseño complejo.

Técnica de Alineación	Objetivo	Mecanismo	Impacto Esperado
UniGRPO	Alineación de razonamiento profundo.	Gradiente de política aplicado directamente sobre los pasos de difusión.	Mejoras consistentes en Chain-of-Thought (CoT) y generación multimodal.
Distribution Tilting	Cumplimiento estricto de restricciones.	Ajuste de la trayectoria de desnaturalización hacia una "distribución inclinada" con recompensas.	Garantía de seguridad y adherencia a normativas éticas.[3, 4]
DPO para Difusión	Alineación con las preferencias del usuario.	Optimización directa de preferencias sobre pares de trayectorias de desnaturalización.	Interacciones más naturales, personalizadas y reducción de sesgos.[4, 5]
Masked Tree Search	Resolución de problemas de alta complejidad.	Exploración de múltiples rutas de desnaturalización mediante búsqueda en árbol (MDTS).	Superioridad en diseño científico, optimización y tareas de razonamiento.

La seguridad también ha cobrado protagonismo con enfoques de "alineación profunda", que van más allá de los primeros tokens de la respuesta para evitar ataques de inyección y jailbreaking que aprovechan la naturaleza iterativa de la difusión. Al profundizar la alineación de seguridad a lo largo de toda la trayectoria de eliminación de ruido, los investigadores buscan crear modelos que sean inherentemente resistentes a la manipulación, una preocupación crítica a medida que los dLLMs se despliegan en infraestructuras críticas y aplicaciones legales.

Aceleración mediante Destilación: De Múltiples Pasos a Generación Instantánea

A pesar de sus beneficios, la necesidad de realizar múltiples pasadas por la red neuronal para generar un texto puede penalizar la latencia en dispositivos con recursos limitados. Para mitigar esto, se han desarrollado técnicas de destilación de conocimiento que comprimen la trayectoria de difusión.

La Auto-Destilación a través del Tiempo (SDTT) es un ejemplo prominente, donde un modelo "estudiante" aprende a imitar la salida de un modelo "maestro" de 1024 pasos en tan solo 64 pasos o menos. Utilizando la divergencia KL inversa, SDTT ha logrado mantener la calidad de la muestra y la perplejidad generativa, permitiendo que modelos de difusión discreta funcionen con una velocidad competitiva incluso frente a arquitecturas AR muy ligeras.

Otra innovación relevante es la Destilación de Energía Contrastiva (CED), que busca transformar modelos de difusión de múltiples pasos en generadores de un solo paso (one-step generators). CED utiliza un modelo basado en energía (EBM) conjunto para transferir el conocimiento del profesor de forma eficiente, eliminando la necesidad de procedimientos de entrenamiento iterativos complejos.

En el ámbito industrial, bibliotecas como NVIDIA FastGen están unificando estos enfoques de destilación por trayectoria y por distribución, logrando aceleraciones de entre 10x y 100x en modelos de video y lenguaje de gran escala. Esta democratización de la velocidad asegura que los dLLMs no sean solo herramientas para centros de datos masivos, sino que puedan integrarse en aplicaciones móviles y sistemas embebidos de próxima generación.

Consideraciones Finales: Hacia una Inteligencia Colaborativa y Estructural

El análisis detallado del panorama de los dLLMs en 2026 revela un campo en plena maduración que está desafiando los cimientos mismos de la IA generativa tradicional. La transición de la autorregresión a la difusión no es solo un cambio de algoritmo, sino una evolución hacia modelos que comprenden el lenguaje de una manera más estructural y menos lineal.

La capacidad de estos modelos para corregir sus propios errores, manejar contextos bidireccionales de forma nativa y ofrecer un control sin precedentes sobre la estructura del texto los posiciona como los motores ideales para la próxima ola de agentes inteligentes y herramientas de productividad.

Sin embargo, el camino hacia la dominancia total de los dLLMs requiere superar desafíos persistentes en la estabilidad del entrenamiento a escalas superiores a los 100 mil millones de parámetros y en la gestión eficiente de la memoria durante la inferencia de contextos extremadamente largos.

Las recomendaciones para los investigadores y desarrolladores se centran en la exploración de arquitecturas híbridas que combinen la robustez de la autorregresión para el pensamiento secuencial con la flexibilidad y velocidad de la difusión para el refinamiento global. A medida que nos acercamos a finales de la década, es probable que la distinción entre estos paradigmas se desvanezca en favor de sistemas omni-modales y auto-correctores que reflejen con mayor fidelidad la complejidad y la riqueza del pensamiento humano.

TecNovaTop

Tec Nova

Noticias