¿Cómo aprende una IA? El entrenamiento explicado sin una sola fórmula

Este artículo forma parte de la serie «¿Cómo funciona la IA?» cuyo objetivo principal es alfabetizarte en este increíble mundo, y acercarte la tecnología que está cambiando el mundo, la vida, el trabajo, todo.

Si no has leído los anteriores, empieza por el primero.

Índice

Lo que nadie te dice sobre cómo una IA «estudia»
El combustible: de dónde viene todo lo que sabe
El mecanismo: cómo cambia el modelo cuando se equivoca
Las tres fases: de la enciclopedia al asistente
¿Cuánto cuesta entrenar un modelo? Los números que asustan
2024-2025: cuando la IA empieza a aprender de sí misma
Glosario del artículo

1. Lo que nadie te dice sobre cómo una IA «estudia»

Cuando un niño aprende a andar en bici, cae.

Se levanta.

Vuelve a intentarlo.

Cada caída le enseña algo: cómo no inclinarse tanto hacia la derecha, cuánta velocidad necesita, cómo usar el freno sin perder el equilibrio.

Su cuerpo ajusta miles de pequeñas cosas después de cada error.

Y con el tiempo, sin que nadie le explique la física del movimiento, aprende a pedalear.

Un LLM aprende de una forma parecida.

No en el parque.

No con rodilleras.

Pero el principio es el mismo: equivocarse, ajustar, repetir.

Miles de millones de veces.

Lo que cambia es la escala.

Y entender esa escala es entender por qué estos modelos hacen lo que hacen.

2. El combustible: de dónde viene todo lo que sabe

Antes de aprender, el modelo necesita material de estudio.

Y la cantidad de material que consume es difícil de imaginar.

El principal ingrediente se llama Common Crawl: una organización sin ánimo de lucro que lleva años rastreando internet y guardando copias de miles de millones de páginas web.

GPT-3 se entrenó con más de 570 GB de texto solo de Common Crawl.

Después venían los libros.

Wikipedia en todos los idiomas.

Repositorios de código de GitHub.

Artículos científicos.

Foros como Reddit o StackOverflow.

Noticias de décadas.

Sentencias judiciales.

Conversaciones de todo tipo.

Juntando todo, los modelos más grandes se han entrenado con lo que se conoce como billones de tokens.

Recuerda del artículo anterior que un token son unas 4 letras.

Multiplica eso por un billón.

Es más texto del que podría leer la humanidad entera en miles de años.

¿Y por qué tanto?

Porque cuanto más texto ve el modelo, más patrones aprende.

Más matices del lenguaje.

Más conocimiento del mundo.

Más formas de razonar.

El tamaño del dataset es tan importante como el tamaño del modelo.

Algo que demostró de forma definitiva el paper «Training Compute-Optimal Large Language Models» —conocido como el paper de Chinchilla— publicado por investigadores de DeepMind en 2022.

Su conclusión: los modelos de la época estaban sobreentrenados en potencia de cálculo pero hambrientos de datos.

La receta óptima no era solo hacer modelos más grandes.

Era alimentarlos mejor.

3. El mecanismo: ¿cómo cambia el modelo cuando se equivoca?

Imagina que estás ciego en una montaña.

Tu objetivo es llegar al valle más bajo.

No puedes ver nada.

Pero puedes sentir la inclinación del suelo bajo tus pies.

Así que haces lo siguiente: tientas el terreno, notas hacia dónde baja la pendiente y das un pequeño paso en esa dirección.

Paras.

Vuelves a sentir.

Das otro pequeño paso hacia abajo.

Repites esto miles de veces.

Poco a poco, llegas al fondo del valle.

Eso es, en esencia, el descenso de gradiente.

El algoritmo con el que aprenden casi todos los modelos de IA del mundo.

Ahora cambia la metáfora ligeramente.

El modelo no es una persona en una montaña.

Es una red de millones —o miles de millones— de diales numéricos.

Al principio del entrenamiento, todos esos diales están puestos en valores aleatorios.

El modelo intenta predecir la siguiente palabra de un texto.

Falla.

Mucho.

Se calcula cuánto ha fallado.

Y los diales se ajustan ligeramente para que la próxima vez falle menos.

Esto se repite con el siguiente texto.

Y con el siguiente.

Y con billones más.

Cada ajuste es pequeñísimo.

Pero billones de ajustes pequeñísimos en la dirección correcta producen un modelo que parece entender el mundo.

Los diales son lo que los investigadores llaman parámetros o pesos.

GPT-3 tiene 175.000 millones.

GPT-4 tiene más, aunque OpenAI no ha publicado la cifra exacta.

175.000 millones de diales, todos ajustados simultáneamente, miles de millones de veces.

Eso es el entrenamiento.

4. Las tres fases: de la enciclopedia al asistente

El entrenamiento de un LLM moderno no ocurre de una sola vez.

Hay tres fases, y cada una produce algo diferente.

Fase 1: Pre-entrenamiento

El modelo lee todo el texto disponible y aprende a predecir la siguiente palabra.

Al final de esta fase, el modelo es extraordinariamente culto.

Sabe de física, de derecho, de cocina, de historia, de programación.

Pero es inútil como asistente.

Si le preguntas «¿Cómo puedo redactar un contrato?», es capaz de responderte con otro texto sobre contratos en lugar de ayudarte con el tuyo.

Ha aprendido a completar texto, no a responder preguntas.

Fase 2: Ajuste fino (Fine-tuning)

Aquí los ingenieros cogen el modelo y lo refinan con ejemplos de conversaciones reales y útiles.

«Pregunta: ¿Cómo calculo una indemnización por despido? Respuesta: Para calcular...»

Miles de estos pares pregunta-respuesta de alta calidad.

El modelo aprende a comportarse como un asistente, no como una enciclopedia.

Fase 3: RLHF

Esta es la que convirtió GPT-3 en ChatGPT.

Su nombre completo es Reinforcement Learning from Human Feedback.

Aprendizaje por refuerzo a partir de retroalimentación humana.

¿Cómo funciona?

El modelo genera varias respuestas posibles para la misma pregunta.

Personas reales —evaluadores humanos— las puntúan: esta es mejor, esta es peor, esta es inaceptable.

El modelo aprende a imitar las respuestas que los humanos consideraron mejores.

Es como un empleado nuevo que aprende observando qué comportamientos reciben aprobación y cuáles generan problemas.

El paper que formalizó este proceso fue «Training language models to follow instructions with human feedback», publicado por OpenAI en 2022.

Sus autores incluyen a Paul Christiano, uno de los investigadores más influyentes en el campo de la alineación de IA —la disciplina que se ocupa de que los modelos hagan lo que queremos que hagan, no otra cosa.

El resultado de las tres fases juntas: un modelo que sabe muchísimo y sabe cómo compartirlo de forma útil.

5. ¿Cuánto cuesta entrenar un modelo? Los números que asustan

Entrenar un modelo grande no es barato.

No es caro.

Es astronómico.

Se estima que entrenar GPT-4 costó más de 100 millones de dólares solo en potencia de cálculo.

Para entrenar modelos de la siguiente generación, las empresas hablan de inversiones de 1.000 millones de dólares o más.

¿Por qué tanto?

Porque el entrenamiento necesita miles de chips especializados —llamados GPUs— funcionando en paralelo durante semanas o meses.

Una sola GPU de alta gama de Nvidia —la empresa que fabrica los chips que mueven prácticamente toda la IA del mundo— cuesta entre 30.000 y 40.000 dólares.

Los grandes centros de datos tienen miles de ellas.

Funcionando sin parar.

Consumiendo electricidad como una ciudad pequeña.

Por eso el CEO de Nvidia, Jensen Huang, se ha convertido en uno de los hombres más ricos del planeta en los últimos tres años.

Cada vez que una empresa decide entrenar un modelo grande, compra chips.

Y los chips los hace casi en exclusiva Nvidia.

Ahora entiendes por qué cuando DeepSeek demostró que podía entrenar un modelo competitivo con mucho menos presupuesto, las acciones de Nvidia cayeron un 17% en un día.

El negocio de vender palas en la fiebre del oro depende de que la fiebre no encuentre un método más barato de extraer el oro.

6. 2024-2025: cuando la IA empieza a aprender de sí misma

Hay una tendencia emergente en el entrenamiento de IA que parece sacada de ciencia ficción.

Y que sin embargo ya es una práctica habitual en los laboratorios más avanzados.

Se llama datos sintéticos.

La idea: usar modelos de IA para generar los datos con los que se entrenará la siguiente generación de modelos de IA.

Dicho de otra forma: la IA aprende de texto escrito por otra IA.

¿Por qué?

Porque el texto humano de calidad es finito.

Ya hemos usado prácticamente todo el texto disponible en internet.

Los modelos más avanzados han consumido casi todo el conocimiento escrito por la humanidad.

Para seguir mejorando, necesitan más material.

Y ese material lo generan ellos mismos.

Meta lo hizo con Llama 3: parte de sus datos de entrenamiento los generó el propio Llama 2.

Anthropic desarrolló una técnica llamada Constitutional AI —documentada en un paper de 2022— en la que el modelo aprende a evaluarse a sí mismo según un conjunto de principios, reduciendo la dependencia de evaluadores humanos.

Y en 2023, investigadores de Stanford publicaron Direct Preference Optimization (DPO): una forma más sencilla y barata de conseguir los resultados del RLHF sin necesitar tanto feedback humano.

Lo que esto significa: el entrenamiento de modelos se está volviendo más eficiente, más barato y más autónomo.

Lo que antes requería un equipo de evaluadores humanos puntuando respuestas durante meses, ahora se puede hacer con más automatización y menos coste.

Las barreras de entrada para construir buenos modelos están bajando.

Y eso abre el juego a más actores.

No solo a los gigantes con presupuestos de mil millones.

También a empresas medianas, a universidades, a equipos pequeños con buenas ideas.

El entrenamiento de IA está pasando de ser un privilegio de pocos a convertirse en una capacidad más accesible.

Despacio.

Pero avanza.

Glosario del artículo

Parámetros (pesos) — Los valores numéricos internos del modelo que se ajustan durante el entrenamiento. Son los «diales» que determinan cómo el modelo procesa la información. Un modelo grande tiene cientos de miles de millones de parámetros.

Descenso de gradiente — El algoritmo que ajusta los parámetros del modelo para reducir los errores de predicción. En cada paso, los parámetros se mueven ligeramente en la dirección que minimiza el error.

Pre-entrenamiento — Primera fase del entrenamiento. El modelo lee enormes cantidades de texto y aprende a predecir la siguiente palabra. Adquiere conocimiento general del mundo, pero aún no sabe comportarse como un asistente.

Ajuste fino (Fine-tuning) — Segunda fase. El modelo pre-entrenado se refina con ejemplos de conversaciones útiles para convertirlo en un asistente funcional.

RLHF (Reinforcement Learning from Human Feedback) — Tercera fase. Evaluadores humanos puntúan las respuestas del modelo. El modelo aprende a imitar las respuestas mejor valoradas. Es la clave que convirtió GPT-3 en ChatGPT.

GPU — Chip especializado en realizar muchos cálculos en paralelo. Son el hardware fundamental para entrenar modelos de IA. Nvidia domina su fabricación.

Datos sintéticos — Datos de entrenamiento generados por modelos de IA en lugar de producidos directamente por humanos. Tendencia creciente para superar la escasez de texto humano de calidad.

Constitutional AI — Técnica desarrollada por Anthropic en la que el modelo aprende a evaluar y corregir sus propias respuestas según un conjunto de principios, reduciendo la necesidad de evaluadores humanos.

DPO (Direct Preference Optimization) — Alternativa al RLHF, más sencilla y barata de implementar, que consigue resultados similares en el ajuste de comportamiento del modelo.

Common Crawl — Organización sin ánimo de lucro que rastrea y archiva miles de millones de páginas web. Es la principal fuente de datos de entrenamiento para la mayoría de los grandes LLMs.

Ya sabes cómo aprende una IA.

Come texto.

Se equivoca.

Ajusta miles de millones de diales.

Repite hasta que funciona.

Sencillo de entender.

Brutalmente complejo de ejecutar.

En el próximo artículo vamos a lo más concreto de toda la serie:

escribes una pregunta y aparece una respuesta.

¿Qué ha pasado entre medias?

Token a token. Paso a paso.

No te lo pierdas.

¿Te ha resultado útil?

Compártelo con alguien que use IA todos los días sin saber qué hay detrás.

Ahora ya tiene el manual.