Modelos de Lenguaje Basados en Difusión (dLLMs): Arquitectura, Optimización y el Cambio de Paradigma en la Generación de Texto Discreto
La evolución del procesamiento del lenguaje natural ha estado marcada por la
hegemonía de los modelos
autorregresivos, los cuales han definido la frontera de lo posible a través de la predicción
secuencial del siguiente token. Sin embargo, al alcanzar el año 2026, la
comunidad científica ha consolidado un cambio de paradigma hacia los Modelos de
Lenguaje basados en Difusión (dLLMs o DLMs), una clase de modelos que abandona
la generación lineal de izquierda a derecha en favor de un proceso de
refinamiento iterativo y global.
Esta transición no es meramente técnica, sino conceptual; mientras que los
modelos autorregresivos (AR) asumen que el lenguaje es una cadena unidireccional
de probabilidades condicionales, los modelos de difusión tratan el texto como
una estructura que puede emerger del ruido mediante una desnaturalización
progresiva, permitiendo una visión bidireccional y holística de la secuencia.
El auge de los dLLMs responde a limitaciones estructurales de la autorregresión,
como el fenómeno de la
propagación de errores, donde una elección incorrecta en un token inicial contamina irrevocablemente
el resto de la generación, y la denominada "maldición de la reversión", que impide a los modelos AR razonar sobre información que aparece en un
orden distinto al de su entrenamiento.
Fundamentos Teóricos de la Difusión en Espacios Discretos
A diferencia de los modelos de difusión en el dominio continuo, que operan sobre
píxeles y ruido gaussiano, los modelos de lenguaje deben enfrentarse a la
naturaleza discreta del vocabulario. La formulación matemática de los dLLMs se
apoya en procesos de difusión discretos donde la corrupción de los datos se
define mediante matrices de transición categóricas.
En un sistema de
difusión discreta, un dato limpio \(x_0\) se transforma progresivamente en una variable latente
ruidosa \(x_t\) a través de una serie de pasos de tiempo \(t\). Este proceso
hacia adelante se puede expresar como \(q(x_t | x_{t-1})\), donde la
probabilidad de transición entre estados está gobernada por un kernel de
transición que puede ser de absorción, donde los tokens se reemplazan por un
símbolo especial ``, o de ruido uniforme, donde los tokens se intercambian
aleatoriamente por otros miembros del vocabulario.
El proceso de reversión, que constituye el núcleo del aprendizaje del modelo,
busca aproximar la distribución posterior \(p_{\theta}(x_{t-1} | x_t)\) para
recuperar la secuencia original. Este entrenamiento se realiza habitualmente
optimizando un límite inferior de la verosimilitud (ELBO), lo que garantiza que
el modelo aprenda a invertir la corrupción de manera consistente.
Un avance crítico en esta área ha sido el desarrollo de la Difusión Discreta por
Entropía de Puntuación (SEDD), la cual, en lugar de modelar probabilidades
absolutas, se enfoca en las "puntuaciones concretas" o ratios entre
distribuciones de datos. SEDD ha demostrado reducir la perplejidad generativa en
órdenes de magnitud comparado con enfoques de difusión previos, logrando
resultados que rivalizan con modelos
GPT-2
pero con una eficiencia significativamente mayor en términos de evaluaciones de
red (NFEs).
| Atributo Técnico | Difusión de Absorción (Masking) | Difusión de Ruido Uniforme | Difusión Continua (Latent) |
|---|---|---|---|
| Mecanismo de Corrupción | Sustitución por token | Reemplazo aleatorio en vocabulario | Adición de ruido gaussiano en embeddings |
| Ventaja Principal | Interpretación clara del progreso | Flexibilidad para edición continua | Facilidad de uso de teoría de difusión estándar |
| Desafío Clave | Incapacidad de revisar tokens ya fijados | Convergencia más lenta | Necesidad de autoencoders de alta fidelidad |
| Aplicación Destacada | LLaDA, LLaDA-V | UDLM, MDLM | TEncDM, Diffusion-LM |
La elección del scheduler de ruido también desempeña un papel vital. En modelos
como TEncDM, se ha observado que los esquemas tradicionales de imagen, como el
coseno o la raíz cuadrada, resultan demasiado sencillos para las codificaciones
de texto, lo que lleva a una señal de entrenamiento débil.
Como solución, se ha propuesto el uso de schedulers tipo "tan-d", que aplican
una tasa de adición de ruido mucho más agresiva para forzar al modelo a aprender
características semánticas profundas durante la desnaturalización. Estos
fundamentos teóricos han permitido escalar los modelos de difusión desde simples
generadores de oraciones cortas hasta sistemas de miles de millones de
parámetros capaces de realizar tareas complejas de razonamiento y codificación.
El Hito de LLaDA: Difusión a Escala de Miles de Millones
La introducción de LLaDA (Large Language Diffusion with mAsking) en 2025 marcó
un punto de inflexión al demostrar que los modelos de difusión pueden entrenarse
desde cero con una escala de 8 mil millones de parámetros, compitiendo
directamente con arquitecturas autorregresivas establecidas como
LLaMA3. LLaDA se fundamenta en un objetivo de predicción de tokens enmascarados con
una tasa de enmascaramiento aleatoria \(t \sim U(0, 1)\), lo que le otorga una
capacidad de aprendizaje en contexto que anteriormente se creía exclusiva de los
modelos AR.
A diferencia de los modelos de lenguaje
enmascarado (MLM) tradicionales tipo BERT, que utilizan una tasa de máscara fija
y se enfocan en representaciones, LLaDA es un modelo generativo de pleno derecho
que utiliza una arquitectura de Transformer sin máscara causal, permitiendo que
cada posición atienda a toda la secuencia durante el refinamiento.
Desde una perspectiva arquitectónica, LLaDA prescinde del almacenamiento en
caché de claves y valores (KV caching) tradicional, ya que la naturaleza
bidireccional del modelo implica que los estados ocultos de todos los tokens
cambian en cada paso de la difusión. Para compensar la carga computacional, se
han explorado dimensiones de FFN reducidas y configuraciones de atención
multi-cabezal optimizadas.
Durante el ajuste fino
supervisado (SFT), LLaDA aplica un esquema de enmascaramiento condicional: el
prompt se mantiene visible mientras que la respuesta se enmascara y recupera
iterativamente. Este enfoque ha permitido que LLaDA-8B alcance un rendimiento en
HumanEval
y benchmarks de razonamiento que supera a modelos AR de tamaño similar,
demostrando una robustez superior ante tareas que requieren una comprensión
global de la estructura del texto.
| Benchmark | LLaDA 8B (SFT) | LLaMA3 8B (SFT) | LLaMA2 7B |
|---|---|---|---|
| ARC-C (Reasoning) | 88.5 | 82.4 | - |
| HumanEval (Coding) | Competitivo | Referencia | Inferior |
| Aprendizaje en Contexto | Emergente | Nativo | Limitado |
| Manejo de Reversión | Superior | Deficiente | Deficiente |
La capacidad de LLaDA para resolver la "maldición de la reversión" es
particularmente notable. Mientras que modelos como GPT-4o experimentan
dificultades significativas al completar poemas o secuencias lógicas en orden
inverso, LLaDA maneja estas tareas con naturalidad debido a su entrenamiento
bidireccional. Esto sugiere que la inteligencia de los modelos de lenguaje a
gran escala no reside exclusivamente en el mecanismo autorregresivo, sino en la
capacidad de aproximar la distribución real del lenguaje a través de modelado
generativo de alta fidelidad, ya sea mediante predicción de siguiente token o
difusión.
Eficiencia y Velocidad de Inferencia: La Serie Mercury y Gemini Diffusion
Uno de los argumentos más persistentes a favor de los modelos de difusión es su
potencial para la generación paralela, lo que se traduce en una latencia de
inferencia drásticamente reducida en comparación con los modelos AR, los cuales
están limitados por la necesidad de generar un token a la vez.
La
serie
Mercury, desarrollada por Inception Labs, ha establecido nuevos récords de velocidad
al generar más de 1000 tokens por segundo en hardware
NVIDIA H100. Esta velocidad representa un incremento de hasta 20 veces respecto a modelos
autorregresivos optimizados, permitiendo aplicaciones de alta fidelidad en
tiempo real que antes eran computacionalmente prohibitivas.
La arquitectura de Mercury utiliza un proceso de refinamiento de "grueso a fino"
(coarse-to-fine), donde se generan bloques enteros de tokens simultáneamente. En
cada paso de desnaturalización, el modelo ajusta las probabilidades de todos los
tokens en la ventana de generación, corrigiendo errores semánticos y
gramaticales de forma dinámica.
Por su parte,
Google DeepMind ha presentado
Gemini Diffusion, un modelo experimental que alcanza una velocidad de muestreo de 1479 tokens
por segundo (excluyendo un overhead inicial de 0.84 segundos). Gemini Diffusion
destaca por su coherencia en tareas de codificación y matemáticas, áreas donde
el refinamiento iterativo permite al modelo autocorregir errores lógicos antes
de finalizar la respuesta.
| Modelo | Arquitectura | Throughput (Tokens/seg) | Caso de Uso Principal |
|---|---|---|---|
| Mercury Coder Mini | Difusión Paralela | 1109 | Autocompletado de código ultra-rápido |
| Mercury Coder Small | Difusión Paralela | 737 | Generación de scripts y lógica compleja |
| Gemini Diffusion | Difusión Experimental | 1479 | Razonamiento científico y matemático |
| Gemini 2.0 Flash Lite | Autorregresivo | 201 | Chat de propósito general optimizado |
| GPT-4o Mini | Autorregresivo | 59 | Asistente conversacional estándar |
Esta ventaja de velocidad no está exenta de matices técnicos. El rendimiento de
los dLLMs brilla especialmente en secuencias largas, donde el paralelismo puede
explotarse al máximo. Sin embargo, para respuestas extremadamente cortas, un
modelo autorregresivo podría ser más eficiente, ya que los dLLMs siempre
requieren un número mínimo de pasos de refinamiento (iteraciones del modelo)
independientemente de la longitud de la salida.
Además,
la falta de una "caché de claves y valores" estática en los modelos de difusión
puros obliga a recalcular las matrices de atención contra todo el contexto en
cada paso, lo que aumenta la intensidad de cómputo por token en comparación con
la eficiencia de memoria de los modelos AR. A pesar de ello, el desarrollo de
técnicas como Fast-dLLM, que introduce cachés de KV aproximadas por bloques,
está comenzando a cerrar esta brecha de eficiencia operativa.
El Desafío de la Ventana de Decodificación y la Coherencia Global
A medida que los dLLMs se aplican a la generación de textos extensos, ha surgido
un obstáculo crítico denominado el problema de la "ventana de decodificación
larga" (LDW). A diferencia de los modelos AR, que se centran en el token
inmediatamente adyacente al contexto existente, los dLLMs tratan todas las
posiciones de la ventana de generación como objetivos potenciales simultáneos.
Esto provoca que los tokens en posiciones alejadas del contexto de entrada
inicial tiendan a ser menos coherentes y más aleatorios, degradando la fluidez
narrativa a medida que aumenta la distancia.
Para solucionar el LDW, investigadores han propuesto estrategias de
decodificación semi-autorregresivas, como Block Diffusion o decodificación
convolucional. En estos esquemas, la ventana de generación se divide en bloques
más pequeños que se decodifican secuencialmente, permitiendo que el modelo
utilice un contexto de "limpio" para anclar el refinamiento de cada bloque.
No
obstante, esta segmentación introduce el "problema de expansión del intervalo de
tiempo", donde la calidad del texto puede caer drásticamente si se reduce
demasiado el número de pasos de desnaturalización por bloque para mantener la
velocidad. La búsqueda de un equilibrio entre la velocidad del paralelismo total
y la coherencia del enfoque por bloques define gran parte de la investigación
actual en dLLMs hacia 2026.
| Técnica de Decodificación | Tipo | Ventaja | Desventaja |
|---|---|---|---|
| Paralela Total | Difusión Pura | Máxima velocidad y bidireccionalidad total en la secuencia. | Problema de "Ventana Larga" (LDW); menor fluidez en textos extensos. |
| Semi-Autorregresiva (Block) | Híbrida | Alta coherencia global y manejo efectivo del problema LDW. | Sacrifica parte del paralelismo; requiere más pasos de red (NFEs). |
| Confident Decoding | Adaptativa | Optimiza la velocidad ajustando pasos según la confianza del modelo. | Implementación compleja en sistemas de tiempo real. |
| Causal Distillation | Destilada | Inferencia ultra-rápida en muy pocos pasos (1-4 iteraciones). | Riesgo de pérdida de diversidad en la generación creativa. |
Además de la coherencia estructural, la longitud de la respuesta en los modelos
de difusión es un reto intrínseco. Al no poseer un token de final de secuencia
() que detenga el proceso de forma natural como en los modelos AR, los dLLMs
tienden a sufrir de un sesgo de longitud, intentando llenar toda la ventana de
máscara predefinida.
El modelo Dimple aborda esto
sustituyendo los tokens por un número variable de tokens de relleno (padding)
durante el entrenamiento, enseñando al modelo a controlar de forma adaptativa el
contenido útil dentro de una ventana de tamaño fijo. Este tipo de innovaciones
arquitectónicas son esenciales para que los dLLMs pasen de ser curiosidades
académicas a herramientas de producción fiables.
Controlabilidad y Adherencia a Estructuras: Schema Scaffolding
Una de las áreas donde los dLLMs superan con creces a sus contrapartes
autorregresivas es en la generación de texto altamente estructurado y bajo
restricciones complejas. Debido a su proceso de refinamiento global, estos
modelos pueden "mirar hacia adelante" y asegurar que la estructura final cumpla
con esquemas específicos como JSON, XML o protocolos de comunicación. El marco
"Self-adaptive Schema Scaffolding" permite que el dLLM utilice su capacidad
innata de razonamiento inverso para mantener la conciencia global del esquema
durante cada paso de la desnaturalización.
En experimentos comparativos, los modelos de difusión equipados con guías
estructurales han mostrado una mejora del 65% en la adherencia a esquemas y una
reducción del 48% en la fidelidad del contenido en comparación con modelos AR
similares.
Esta capacidad de control se extiende al
uso de guías con clasificadores (classifier guidance) y guías libres de
clasificador (CFG). Al inyectar una señal de control que favorezca, por ejemplo,
un sentimiento positivo o una terminología técnica específica, el modelo puede
ajustar toda la secuencia en conjunto para satisfacer ese requisito, evitando
las "alucinaciones de estilo" comunes en la autorregresión donde el modelo
olvida la instrucción inicial a mitad del texto.
| Métrica de Control | dLLM con Scaffolding | Modelo AR (Prompting) | Mejora Observada |
|---|---|---|---|
| Adherencia Estructural | 92.4% | 68.1% | +24.3% absoluto |
| Tasa de Alucinación | 8.2% | 25.1% | -17% relativo |
| Coherencia Global | Alta | Media-Baja | Mejora cualitativa en hilos largos |
| Edición de Texto (In-filling) | Nativa y Fluida | Requiere técnicas FIM | Integración semántica superior |
Esta naturaleza controlable hace que los dLLMs sean la opción preferida para
aplicaciones de agentes autónomos y flujos de trabajo de ingeniería de software,
donde la precisión del formato es tan importante como el contenido semántico. En
el desarrollo de código, por ejemplo, un dLLM puede asegurar que un cambio en la
firma de una función se refleje instantáneamente en todas sus llamadas y
documentación dentro de un mismo paso de generación, algo que un modelo AR solo
podría lograr mediante múltiples pasadas o re-ejecuciones costosas.
Multimodalidad y Arquitecturas Unificadas: MMaDA y Dimple
El éxito de la difusión en la generación de imágenes ha facilitado su
integración en modelos multimodales de lenguaje, creando una sinergia que las
arquitecturas AR tradicionales encuentran difícil de replicar de manera
unificada.
MMaDA (Multimodal Large Diffusion
Language Model) representa la vanguardia de este movimiento al proponer una
arquitectura agnóstica a la modalidad. En lugar de utilizar un codificador
visual separado conectado a un decodificador AR de texto, MMaDA utiliza una
formulación probabilística compartida donde tanto los tokens de imagen como los
de texto se tratan bajo el mismo proceso de difusión discreta.
Entrenado en tres etapas: pre-entrenamiento multimodal, ajuste fino de cadena de
pensamiento mixta y refuerzo mediante UniGRPO. MMaDA-8B ha demostrado superar a
modelos como SDXL en generación de imágenes y a Qwen2 en razonamiento
textual.
La clave de su rendimiento reside en la
interacción bidireccional continua: durante el proceso de desnaturalización, el
texto generado puede influir en la composición de la imagen y viceversa en
tiempo real, lo que garantiza una alineación semántica cruzada que es mucho más
profunda que la simple concatenación de embeddings.
Por
otro lado, el modelo Dimple utiliza un enfoque de entrenamiento híbrido
"Autoregressive-then-Diffusion" para estabilizar el aprendizaje, logrando
superar a LLaVA-NEXT en un 3.9% en tareas de comprensión multimodal.
La multimodalidad basada en difusión no solo mejora la calidad de la salida,
sino que simplifica la infraestructura de servicio. Al tener un único modelo que
maneja múltiples tipos de datos con el mismo mecanismo de inferencia paralelo,
las empresas pueden reducir la complejidad de sus pipelines de IA. No obstante,
el entrenamiento de estos modelos sigue siendo computacionalmente costoso, lo
que plantea interrogantes sobre si la eficiencia en el servicio justifica la
inversión inicial en el entrenamiento de difusión multimodal masiva.
Técnicas de Post-Entrenamiento y Alineación: El Camino en 2026
En el
año 2026, la frontera de la investigación en dLLMs se ha desplazado
significativamente hacia el post-entrenamiento y la alineación de preferencias.
El taller ReALM-GEN en ICLR 2026 subraya este cambio, centrándose en cómo hacer
que los modelos de flujo y difusión respeten las restricciones del mundo real y
las preferencias del usuario.
A diferencia de los
modelos AR, donde el aprendizaje por refuerzo con retroalimentación humana
(RLHF) se aplica típicamente sobre la probabilidad del siguiente token, en los
dLLMs la alineación se interpreta como un muestreo de una "distribución
inclinada" (tilted distribution) que incorpora recompensas por seguridad, estilo
y veracidad.
Nuevos algoritmos como UniGRPO (Unified Policy-Gradient-based Reinforcement
Learning) han sido diseñados específicamente para modelos de difusión. UniGRPO
unifica el post-entrenamiento a través de tareas de razonamiento y generación,
asegurando que las mejoras de rendimiento sean consistentes en todas las
modalidades.
Además, se están explorando técnicas
de "escalado en tiempo de prueba" (test-time scaling), donde se permite que el
modelo utilice más computación durante la inferencia ya sea mediante más pasos
de desnaturalización o mediante búsqueda en árbol de difusión enmascarada
(Masked Diffusion Tree Search) para resolver problemas de optimización de caja
negra y diseño complejo.
| Técnica de Alineación | Objetivo | Mecanismo | Impacto Esperado |
|---|---|---|---|
| UniGRPO | Alineación de razonamiento profundo. | Gradiente de política aplicado directamente sobre los pasos de difusión. | Mejoras consistentes en Chain-of-Thought (CoT) y generación multimodal. |
| Distribution Tilting | Cumplimiento estricto de restricciones. | Ajuste de la trayectoria de desnaturalización hacia una "distribución inclinada" con recompensas. | Garantía de seguridad y adherencia a normativas éticas.[3, 4] |
| DPO para Difusión | Alineación con las preferencias del usuario. | Optimización directa de preferencias sobre pares de trayectorias de desnaturalización. | Interacciones más naturales, personalizadas y reducción de sesgos.[4, 5] |
| Masked Tree Search | Resolución de problemas de alta complejidad. | Exploración de múltiples rutas de desnaturalización mediante búsqueda en árbol (MDTS). | Superioridad en diseño científico, optimización y tareas de razonamiento. |
La seguridad también ha cobrado protagonismo con enfoques de "alineación
profunda", que van más allá de los primeros tokens de la respuesta para evitar
ataques de inyección y jailbreaking que aprovechan la naturaleza iterativa de la
difusión. Al profundizar la alineación de seguridad a lo largo de toda la
trayectoria de eliminación de ruido, los investigadores buscan crear modelos que
sean inherentemente resistentes a la manipulación, una preocupación crítica a
medida que los dLLMs se despliegan en infraestructuras críticas y aplicaciones
legales.
Aceleración mediante Destilación: De Múltiples Pasos a Generación Instantánea
A pesar de sus beneficios, la necesidad de realizar múltiples pasadas por la red
neuronal para generar un texto puede penalizar la latencia en dispositivos con
recursos limitados. Para mitigar esto, se han desarrollado técnicas de
destilación de conocimiento que comprimen la trayectoria de difusión.
La
Auto-Destilación a través del Tiempo (SDTT) es un ejemplo prominente, donde un
modelo "estudiante" aprende a imitar la salida de un modelo "maestro" de 1024
pasos en tan solo 64 pasos o menos. Utilizando la divergencia KL inversa, SDTT
ha logrado mantener la calidad de la muestra y la perplejidad generativa,
permitiendo que modelos de difusión discreta funcionen con una velocidad
competitiva incluso frente a arquitecturas AR muy ligeras.
Otra innovación relevante es la Destilación de Energía Contrastiva (CED), que
busca transformar modelos de difusión de múltiples pasos en generadores de un
solo paso (one-step generators). CED utiliza un modelo basado en energía (EBM)
conjunto para transferir el conocimiento del profesor de forma eficiente,
eliminando la necesidad de procedimientos de entrenamiento iterativos
complejos.
En el ámbito industrial, bibliotecas
como NVIDIA FastGen están unificando estos enfoques de destilación por
trayectoria y por distribución, logrando aceleraciones de entre 10x y 100x en
modelos de video y lenguaje de gran escala. Esta democratización de la velocidad
asegura que los dLLMs no sean solo herramientas para centros de datos masivos,
sino que puedan integrarse en aplicaciones móviles y sistemas embebidos de
próxima generación.
Consideraciones Finales: Hacia una Inteligencia Colaborativa y Estructural
El análisis detallado del panorama de los dLLMs en 2026 revela un campo en plena
maduración que está desafiando los cimientos mismos de la IA generativa
tradicional. La transición de la autorregresión a la difusión no es solo un
cambio de algoritmo, sino una evolución hacia modelos que comprenden el lenguaje
de una manera más estructural y menos lineal.
La
capacidad de estos modelos para corregir sus propios errores, manejar contextos
bidireccionales de forma nativa y ofrecer un control sin precedentes sobre la
estructura del texto los posiciona como los motores ideales para la próxima ola
de agentes inteligentes y herramientas de productividad.
Sin embargo, el camino hacia la dominancia total de los dLLMs requiere superar
desafíos persistentes en la estabilidad del entrenamiento a escalas superiores a
los 100 mil millones de parámetros y en la gestión eficiente de la memoria
durante la inferencia de contextos extremadamente largos.
Las
recomendaciones para los investigadores y desarrolladores se centran en la
exploración de arquitecturas híbridas que combinen la robustez de la
autorregresión para el pensamiento secuencial con la flexibilidad y velocidad de
la difusión para el refinamiento global. A medida que nos acercamos a finales de
la década, es probable que la distinción entre estos paradigmas se desvanezca en
favor de sistemas omni-modales y auto-correctores que reflejen con mayor
fidelidad la complejidad y la riqueza del pensamiento humano.

.jpg)
No hay comentarios
Nuestro objetivo es informar, sensibilizar y generar un debate constructivo sobre temas relevantes de Innovación Tecnológica. Te invitamos a seguirnos y a participar con tus comentarios y sugerencias.