¿Estás interesado en ellos? OFERTAS? Ahorra con nuestros cupones en Whatsapp o TELEGRAMA!

Qué es Mamba, la arquitectura que pretende superar por completo a GPT. ¿Nueva era de la IA?

Enero 18 2024

una serpiente digital representa simbólicamente la arquitectura Mamba en inteligencia artificial

Hoy quiero ir un poco más técnico. Hablamos de inteligencia artificial todos los días pero conviene saber en qué se basa y cómo funciona. En este sentido quiero presentarles a Mamba, una nueva arquitectura que promete cambiarme modelos lingüísticos tal como los conocemos hoy. Las características de Mamba, en comparación con las de GPT, son extremadamente superiores al igual que lo que te permite hacer.

Mamba es un nuevo horizonte para la inteligencia artificial

La arquitectura Transformer, introducida en 2016 a través del artículo “La atención es todo lo que necesitas” de Google, representó un gran avance para los modelos de lenguaje, permitiéndoles mantener el contexto en las interacciones. En resumen: arquitectura Transformer es un modelo de IA utilizado para crear modelos como GPT (Transformador Generativo Preentrenado).

CÓMO FUNCIONA LA ARQUITECTURA TRANSFORMADORA

El corazón de la arquitectura Transformer es el mecanismo de “atención“, lo que permite que el modelo se centre en partes específicas de un texto mientras genera o procesa otro. Este mecanismo hace que Transformers sea particularmente efectivo para comprender el contexto y las relaciones complejas dentro de un texto. En la práctica, los modelos basados en la arquitectura Transformer, como GPT, aprenden a generar y comprender el lenguaje a través de dos etapas principales: entrenamiento (formación) e inferencia (generación de texto).
Durante el la formación, el modelo se entrena en grandes conjuntos de datos de texto para comprender estructuras lingüísticas, relaciones entre palabras, contexto, etc. en fase de inferencia, el modelo utiliza lo que ha aprendido para generar texto nuevo, responder preguntas, traducir idiomas y otras tareas de procesamiento del lenguaje.

Sin embargo, la aparición de Mamba podría marcar el comienzo de una nueva era. Esta arquitectura promete ser más eficiente, capaz de superar algunos desafíos clave que enfrentan los modelos actuales como GPT. En concreto, tres aspectos clave hacen de Mamba una arquitectura prometedora:

costos de inferencia reducidos: Un aspecto clave de Mamba es la reducción significativa de los costos de inferencia. Como dije antes, la inferencia es el proceso por el cual un modelo de IA, luego de ser entrenado, aplica lo aprendido a nuevos datos, generando texto o imágenes. En modelos complejos como GPT-3 o GPT-4, este proceso puede resultar costoso en términos de recursos computacionales. Mamba promete reducir estos costos hasta cinco veces en comparación con los modelos basados en Transformer, que podrían tener un impacto significativo, especialmente para aplicaciones que requieren una generación de respuesta rápida o trabajan con enormes conjuntos de datos;
costo de cálculo de atención lineal: La segunda ventaja de Mamba se refiere a la eficiencia en el cálculo de la atención. En los modelos de transformador, el costo crece prácticamente (precisamente a nivel de potencia, no es una figura retórica) a medida que aumenta la longitud del texto. Esto significa que cuanto más largo sea el texto, más recursos se necesitarán para procesarlo, lo que limitará la practicidad de los modelos en algunas aplicaciones. Mamba propone una solución donde el costo crece linealmente en comparación con el tamaño de la ventana de atención, haciendo que el procesamiento de textos largos sea más manejable y menos oneroso en términos computacionales;
entrada extremadamente mayor: Mamba podría manejar una ventana de entrada máxima hasta 1 millón de tokensn, mucho más de lo que es posible con la arquitectura Transformer. Esto significa que Mamba podría, teóricamente, Analizar y comprender textos extremadamente largos, como libros completos., manteniendo coherencia y detalles en contexto. Por ejemplo, podría analizar una novela completa manteniendo una comprensión clara de los personajes, la trama y los temas de principio a fin.

A pesar de las promesas de Mamba, el aumentos dudas sobre su escalabilidad, particularmente en comparación con modelos masivos como GPT-4, que tiene 175 mil millones de parámetros. La escalabilidad, en términos muy simples, se refiere a La capacidad de un sistema para manejar un aumento en el trabajo o crecer en tamaño sin perder efectividad.. Imagine un pequeño restaurante al que le va bien con pocos clientes. Si el restaurante se vuelve popular y comienza a tener muchos más clientes, debería poder manejar este aumento sin comprometer la calidad del servicio o la comida. Si tiene éxito, entonces será “escalable”.

Mamba, en su estado actual, ha sido probada sólo con 3 mil millones de parámetros. Por lo tanto, sigue siendo incierto si su rendimiento y eficiencia se pueden mantener o mejorar cuando se amplía a tamaños más grandes.