¿Por qué son tan revolucionarios los Transformers?

Porque su diseño les permite manejar secuencias de datos de manera mucho más eficiente y precisa que las arquitecturas anteriores, como las redes neuronales convolucionales (CNNs) y las redes neuronales recurrentes (RNNs), que antes eran el estándar. Los Transformers no solo han elevado el listón, sino que han redefinido lo que es posible en IA. A continuación sus componentes principales:

Codificador y decodificador

Los Transformers se organizan en una arquitectura de codificador-decodificador. El codificador toma la secuencia de entrada y genera una representación interna, mientras que el decodificador utiliza esa representación para producir la salida (como texto traducido o una continuación del texto). Este sistema de dos partes permite que el modelo no solo comprenda el contenido, sino también lo transforme en resultados útiles, como resúmenes, respuestas a preguntas o incluso creación de contenido original.
El tamaño de GPT-4, el modelo detrás de ChatGPT, representa un avance significativo en comparación con versiones anteriores. Aunque OpenAI no ha confirmado públicamente el número exacto de parámetros de GPT-4, se estima que contiene alrededor de 1,8 billones de parámetros. Esto lo hace más de 10 veces más grande que GPT-3, que tenía 175 mil millones de parámetros. GPT-4 utiliza una arquitectura llamada Mixture of Experts (MoE), que le permite enrutar dinámicamente las tareas a diferentes "expertos", cada uno especializado en tipos específicos de tareas, mejorando su eficiencia y rendimiento...

Capas de atención

Esta es la joya de la corona del Transformer. El mecanismo de autoatención permite que el modelo "preste atención" a diferentes partes de una secuencia simultáneamente, asignando pesos variables a cada palabra según su importancia en el contexto. Por ejemplo, en una oración como "El gato saltó sobre la mesa", el modelo puede determinar que "gato" y "saltó" están más relacionados que "mesa".
Esta capacidad de enfocar la atención en los elementos más relevantes, sin importar su distancia en la secuencia, es lo que le da a los Transformers su impresionante comprensión contextual.
El costo de cálculo de la autoatención es cuadrático en relación con la longitud de la secuencia. Esto significa que si una secuencia tiene 1,000 palabras, el modelo necesita realizar aproximadamente 1 millón de operaciones para calcular la autoatención. Por eso, el manejo de secuencias largas puede volverse muy costoso en términos de recursos computacionales.

Embeddings de entrada

A diferencia de otros modelos que procesan la información de forma secuencial, los Transformers necesitan una forma de entender el orden de las palabras en una secuencia. Para solucionar esto, utilizan embeddings posicionales, que añaden información sobre la posición de cada palabra en la oración. De esta forma, el modelo no solo comprende qué palabras están presentes, sino también en qué orden aparecen, algo crucial para el significado.
Los embeddings posicionales se generan usando funciones trigonométricas, como seno y coseno, que varían de acuerdo con la posición en la secuencia. Estas funciones permiten que el modelo entienda las relaciones posicionales en la secuencia, lo que le otorga la capacidad de procesar tanto la ubicación como el contenido de las palabras. Las funciones trigonométricas permiten captar relaciones de largo plazo incluso en secuencias muy largas con alta precisión.