TRANSFORMER, La Red Neuronal que lo cambió todo

Read Time:2 Minute, 43 Second

En la carrera por competir con tecnologías que surgieron durante la segunda década de los años dos mil, como lo fue «Siri» asistente virtual desarrollado por Apple, Google creó grupos de investigación para acelerar su carrera en este mercado. De uno de estos grupos surge un «paper» llamado «Attention Is All You Need», «La atención es todo lo que necesitas» y esto lo cambio todo, el artículo fue escrito por ocho personas, ellos construyeron lo que hoy en día conocemos como Inteligencia Artificial Moderna.

Literalmente estas ocho personas de distintas nacionalidades y partes del mundo, incluyendo un latino son los responsables de la revolución que estamos viviendo en la Inteligencias Artificial y surge dentro de Google.

Para esa fecha los más novedoso era, Long short-term memory: La red de memoria a largo plazo, que es una red neuronal recurrente. Estas son una clase de redes neuronales profundas diseñadas para trabajar con secuencias de datos. Cuando surge este paper propone una nueva forma, un nuevo modelo llamado Transformer: Un transformador es un modelo de aprendizaje profundo que usa el mecanismo de autoatención.

Transformadores, arquitectura del modelo.

La técnica de «atención» en inteligencia artificial es como cuando leemos un libro y subrayamos las partes más importantes para recordarlas mejor. En el caso de los transformers, esta técnica permite que el modelo de IA «subraye» o ponga más foco en ciertas palabras o partes de la información que son más relevantes para entender el mensaje completo. Y esto que puede parecer simple es la clave de su popularidad y poder para resolver problemas.

Veámoslo con u ejemplo simple, imagina que eres un detective tratando de resolver un misterio, pero en lugar de seguir pistas en orden cronológico, puedes mirar todas las pistas al mismo tiempo y decidir cuáles son más importantes para resolver el caso. Un «Transformer» en términos de inteligencia artificial funciona de manera similar cuando procesa texto o cualquier tipo de información.

Los transformers, introducidos en 2017, ofrecen ventajas significativas sobre modelos anteriores de inteligencia artificial, especialmente en tareas de procesamiento de lenguaje. A diferencia de modelos más antiguos que procesan información paso a paso, los transformers pueden examinar un texto completo de una vez, lo que les permite entender mejor las conexiones y el contexto entre las partes del texto. Esto les permite ser más rápidos y precisos, especialmente en comprender y generar lenguaje. Además, su capacidad para enfocarse en las partes más relevantes del texto (gracias a la técnica de «atención») hace que sean más efectivos en tareas complejas como la traducción automática y la generación de respuestas coherentes y contextuales.

Un dato curioso es que en el momento del surgimiento de este modelo Google no aprovecho esta tecnología, no le dieron la importancia necesaria y poco a poco estos ocho miembros que escribieron el artículo se fueron a crear sus propios emprendimientos usando precisamente «Transformer», el más conocido por todos es OpenIA de donde surge ChatGPT que todos conocemos hoy y que usa el modelo descrito en el paper ya mencionado.

Mira el paper completo desde este link Attention Is All You Need

Esto ha sido todo por ahora, espero que sea de buen provecho este artículo, no vemos en otra entrega de «Inteligencia Artificial Para Todos».