Foro: Transformers y Mecanismo de Atención

Como actividad inicial del curso, organizaremos una tertulia en nuestra primera sesión. Para participar activamente, debes ver la serie sobre Transformers del canal 3Blue1Brown y estar listo para discutir el funcionamiento de los Modelos de Lenguaje de Gran Escala (LLM) y participar en debates sobre esta arquitectura de red neuronal.

Desarrollo o ruta metodológica

A continuación, se detallan los temas clave que deberías comprender:

Embeddings: Comprende qué son los embeddings y su papel en la representación de datos en transformers.
Tokens: Familiarízate con el concepto de tokens y su importancia en el procesamiento de datos secuenciales.
Búsquedas por Similitud: Investiga cómo las búsquedas por similitud están relacionadas con la distancia euclidiana y la función coseno, y cómo se aplican en transformers.
Mecanismo de Atención y Autoatención: Entiende el funcionamiento del mecanismo de atención, incluyendo la autoatención.
Capas de Perceptrones en un Transformer: Aprende cómo funcionan las capas de perceptrones dentro de la arquitectura de un transformer.
Softmax: Asegúrate de comprender qué es la función softmax y su aplicación en la normalización de las salidas de los transformers.

Cómo entregar la actividad

No hay entrega formal; debes asistir al encuentro sincrónico y estar preparado para responder preguntas del profesor y tus compañeros. Prepárate para participar activamente en la discusión, aportando tus ideas y preguntas sobre estos temas.

¡Mucha suerte!