El transformer fue introducido en 2017 en "Attention Is All You Need" y se convirtió en la base de GPT, BERT y prácticamente todos los modelos de lenguaje modernos.
El problema con las RNN
Antes de los transformers, los modelos de secuencia procesaban el texto de izquierda a derecha, un token a la vez.
La atención
Para cada token, la atención calcula una suma ponderada de todos los demás tokens.