¿Qué es un LLM? El motor que mueve ChatGPT, Claude y Gemini

Este artículo forma parte de una serie de artículos en el que te explico «¿Cómo funciona la IA? — de una manera amena, divertida, para que empieces a entenderla».

Si no has leído el primero, empieza por ahí.

Índice

La pregunta que nadie hace pero todos deberían hacerse
Cómo aprende un LLM: de leer todo internet a responder tus preguntas
Del GPT-1 al GPT-4: la carrera que nadie vio venir
¿Por qué cuanto más grande, mejor? Las leyes de escala
ChatGPT, Claude, Gemini: los tres que tienes que conocer
Lo que un LLM hace bien y lo que hace fatal
El mapa ha cambiado: lo que está pasando ahora mismo
Glosario del artículo

1. La pregunta que nadie hace pero todos deberían hacerse

Llevas meses usando ChatGPT.

O quizás solo lo has probado una vez y te quedaste flipando.

O a lo mejor eres de los que dicen «yo de IA no sé nada» mientras usas el corrector automático del móvil, las recomendaciones de Netflix y el asistente de tu banco.

Da igual el punto de partida.

La pregunta importante es: ¿sabes qué está pasando dentro cuando le escribes algo y te responde?

Casi nadie lo sabe.

Y no pasa nada.

Pero si lo entiendes aunque sea a grandes rasgos, todo cambia.

Usas mejor la herramienta.

Detectas cuándo te está inventando cosas.

Sabes cuándo pedirle más y cuándo no fiarte.

Así que vamos a ello.

LLM significa Large Language Model.

En español: Modelo de Lenguaje Grande.

Es el motor que hay dentro de ChatGPT, de Claude, de Gemini y de prácticamente cualquier IA con la que puedas mantener una conversación hoy.

¿Y qué es exactamente?

Es un sistema que ha aprendido a predecir qué palabra viene después de otra.

Con una precisión y a una escala que no tiene precedente en la historia.

Parece simple.

No lo es.

2. ¿Cómo aprende un LLM?: de leer todo internet a responder tus preguntas

Imagina un estudiante.

Un estudiante que, en lugar de estudiar una carrera, se pasa años leyendo absolutamente todo lo que existe escrito en el mundo.

Libros.

Artículos científicos.

Noticias.

Foros de internet.

Wikipedia.

Código de programación.

Sentencias judiciales.

Recetas de cocina.

Letras de canciones.

Conversaciones de WhatsApp.

Todo.

Y mientras lee, hace un ejercicio constante: tapar la última palabra de cada frase e intentar adivinarla.

Una y otra vez.

Millones de veces.

Billones de veces.

Cada vez que falla, aprende algo.

Ajusta su comprensión.

Lo vuelve a intentar.

Eso es, en esencia, cómo se entrena un LLM.

Se llama pre-entrenamiento, y es la fase en la que el modelo consume cantidades brutales de texto y aprende a predecir qué viene después.

¿Y por qué funciona?

Porque para predecir bien la siguiente palabra en la frase «El corazón del contrato de trabajo es...» tienes que entender derecho laboral.

Para predecir qué viene después de «Alan Turing nació en...» tienes que saber historia.

Para completar «La mejor forma de consolar a alguien que llora es...» tienes que tener algo parecido a inteligencia emocional.

El modelo no aprende estas cosas directamente.

Las aprende de forma implícita, como efecto secundario de aprender a predecir texto.

Y ese detalle es lo que hace que todo esto sea tan sorprendente.

Pero eso no es todo.

Después del pre-entrenamiento viene el ajuste fino (fine-tuning): los ingenieros cogen el modelo y lo refinan con conversaciones específicas, instrucciones y correcciones.

Y luego viene la fase que convirtió GPT-3 en ChatGPT: el RLHF, que explicamos en el glosario al final.

El resultado de todo ese proceso es lo que abres en el navegador y con lo que hablas todos los días.

3. Del GPT-1 al GPT-4: la carrera que nadie vio venir

Para entender dónde estamos, hay que ver lo rápido que llegamos aquí.

En 2018, OpenAI publicó un paper con un título modesto: «Improving Language Understanding by Generative Pre-Training».

Era el nacimiento del GPT-1.

Tenía 117 millones de parámetros —ya explicaremos qué es eso— y era impresionante para los expertos, invisible para el resto del mundo.

Un año después, en 2019, llegó GPT-2.

Con 1.500 millones de parámetros.

Aquí pasó algo curioso: OpenAI decidió no publicarlo completamente porque lo consideraba «demasiado peligroso».

Generaba textos tan convincentes que tenían miedo de que se usara para crear desinformación masiva.

Hoy eso nos parece ingenuo.

Pero en ese momento fue la primera señal de que algo muy serio estaba ocurriendo.

En 2020 llegó el que cambió todo: GPT-3.

El paper se llamaba «Language Models are Few-Shot Learners».

175.000 millones de parámetros.

Y la capacidad de hacer cosas que nadie le había enseñado explícitamente: traducir idiomas, escribir código, resumir textos, resolver puzzles matemáticos.

Solo con haberlo visto una o dos veces en sus datos de entrenamiento.

Los investigadores se quedaron con la boca abierta.

Pero GPT-3 seguía siendo una herramienta para expertos.

Hasta que en 2022 OpenAI añadió una capa nueva por encima —el RLHF, el aprendizaje desde feedback humano— y lanzó ChatGPT.

Y ahí fue cuando el mundo entero se enteró de que algo había cambiado.

En 2023 llegó GPT-4. Multimodal: puede ver imágenes además de leer texto.

Y sus capacidades en razonamiento, en medicina, en derecho, en ciencia, dejaron a los investigadores con nuevas preguntas que aún no tienen respuesta.

De 2018 a 2023.

Cinco años.

Del papel de laboratorio a la herramienta que usa tu vecino para redactar correos.

¿Quién condujo esa carrera?

Ilya Sutskever, cofundador de OpenAI y uno de los investigadores más brillantes del campo, fue la mente técnica detrás de buena parte de esos avances.

En 2024 fundó su propia empresa, SSI (Safe Superintelligence), con el foco puesto en construir IA que no nos destroce por el camino.

4. ¿Por qué cuanto más grande, mejor? Las leyes de escala

Aquí viene uno de los descubrimientos más extraños de toda la historia de la IA.

En 2020, un equipo de investigadores de OpenAI —entre ellos Jared Kaplan— publicó un paper que se llama «Scaling Laws for Neural Language Models». Las leyes de escala para modelos de lenguaje.

¿Qué decía?

Que hay una relación matemática predecible y consistente entre tres cosas: el tamaño del modelo, la cantidad de datos con que se entrena y la cantidad de potencia de cálculo que se usa.

Y que si aumentas cualquiera de esas tres cosas, el modelo mejora.

Siempre.

De forma predecible.

Esto fue una revolución.

Porque antes de ese paper, nadie sabía si doblar el tamaño de un modelo lo haría el doble de bueno, o un poco mejor, o quizás peor.

Era todo intuición y prueba-error.

Después del paper, las empresas tenían una hoja de ruta: construye más grande, entrena con más datos, usa más potencia de cálculo.

Y el modelo mejorará.

¿El resultado?

Una carrera armamentística en la que Google, Meta, Microsoft, Amazon y decenas de startups llevan años invirtiendo miles de millones para construir modelos cada vez más grandes.

Y los modelos, como prometía el paper, siguen mejorando.

Hasta cuándo.

Eso nadie lo sabe.

5. ChatGPT, Claude, Gemini: los tres que tienes que conocer

Hoy hay muchos LLMs en el mercado.

Pero hay tres que aparecen en todas las conversaciones.

Te los presento right now.

ChatGPT (OpenAI)

El que puso la IA en el mapa del gran público.

Detrás está Sam Altman y el equipo de OpenAI.

Es el más conocido, el que más usuarios tiene y el que ha marcado el ritmo de la industria.

Su punto fuerte: versatilidad.

Puedes pedirle casi cualquier cosa.

Su punto débil: a veces inventa con demasiada confianza.

Hay que verificar.

Claude (Anthropic)

El que construyó Dario Amodei después de irse de OpenAI.

La filosofía de Anthropic es que la seguridad y la capacidad no son incompatibles.

Claude suele ser más cuidadoso, más reflexivo y más honesto cuando no sabe algo.

Su punto fuerte: muy bueno con textos largos y con razonamiento matizado.

Su punto débil: a veces es demasiado cauto donde no hace falta.

Gemini (Google DeepMind)

El de Google, liderado por Demis Hassabis desde DeepMind.

Integrado directamente con la búsqueda de Google y con todo el ecosistema de aplicaciones de la empresa.

Su punto fuerte: conexión con información en tiempo real y con las herramientas de Google.

Su punto débil: su lanzamiento fue accidentado y aún lucha por ganarse la confianza que tienen los otros dos.

¿Cuál usar?

Depende de lo que necesites.

En los próximos artículos de la serie vemos esto con más detalle.

6. Lo que un LLM hace bien y lo que hace fatal

Aquí va algo que nadie te dice en los anuncios.

Un LLM no entiende el mundo como lo entiendes tú.

No tiene experiencias.

No ha vivido nada.

Ha leído descripciones de experiencias escritas por personas que sí las vivieron.

Y eso, que parece un matiz, tiene consecuencias prácticas enormes.

Lo que hace muy bien:

Escribir, resumir, reformular y traducir textos.
Explicar conceptos complejos de formas distintas hasta que lo entiendes.
Analizar documentos largos y extraer lo relevante.
Generar primeras versiones de casi cualquier cosa escrita.
Responder preguntas generales con una profundidad razonable.

Lo que hace fatal:

Citar fuentes con precisión. Tiende a inventarlas.
Hacer cálculos matemáticos complejos. No es una calculadora.
Saber qué pasó después de su fecha de corte de entrenamiento.
Distinguir cuándo sabe algo de verdad y cuándo está adivinando.
Tener sentido común sobre el mundo físico. Le cuesta.

En 2021, la investigadora Emily Bender y sus colegas publicaron un paper que hizo mucho ruido: «On the Dangers of Stochastic Parrots». Los loros estocásticos.

Su argumento: un LLM es, en el fondo, un sistema estadístico que combina patrones de texto sin entender realmente nada.

Un loro muy sofisticado.

La industria no estuvo de acuerdo.

El debate sigue abierto.

Pero lo útil para ti es esto: úsalo como una herramienta muy potente con limitaciones conocidas, no como un oráculo infalible.

Y si te inventa algo con total convicción, no te sientas tonto por haberle creído.

Le pasa a todo el mundo.

7. El mapa ha cambiado: lo que está pasando ahora mismo

Todo lo que has leído hasta aquí explica cómo funcionan los LLMs.

Pero hay un detalle importante: el campo está evolucionando tan rápido que algunas de las reglas que parecían fijas hace dos años ya no lo son tanto.

La primera: que para tener el mejor modelo necesitas el mayor presupuesto.

En enero de 2025, una empresa china llamada DeepSeek publicó un modelo —DeepSeek R1— que sacudió a toda la industria.

¿Por qué?

Porque era tan bueno como GPT-4 en muchas tareas y lo habían entrenado gastando una fracción de lo que invierte OpenAI (o al menos eso dijeron ellos).

Las acciones de Nvidia cayeron un 17% en un día.

Wall Street entendió el mensaje: quizás no hacía falta gastar miles de millones para estar en la primera línea.

La segunda regla que está cambiando: que más grande siempre significa mejor.

Hay un paper de DeepMind de 2022 —llamado Chinchilla— que demostró algo contraintuitivo: muchos de los grandes modelos estaban sobreentrenados en potencia de cálculo pero infraentrenados en datos.

La receta óptima no era solo «más grande».

Era «más equilibrado».

Y la tercera: que la única forma de mejorar un modelo es durante el entrenamiento.

Los nuevos modelos de razonamiento —o1 y o3 de OpenAI, el propio DeepSeek R1— han demostrado que también puedes mejorar el resultado dejando que el modelo piense más tiempo antes de responder.

No solo un modelo más grande.

Un modelo que se toma su tiempo.

Que revisa.

Que duda.

Que recalcula.

Es un cambio de paradigma.

Y encima, Meta ha publicado su familia de modelos Llama de forma abierta: cualquiera puede descargarlos, usarlos y modificarlos sin pagar un euro.

Lo que hace dos años solo podían hacer cuatro empresas con presupuestos astronómicos, hoy lo puede hacer cualquier desarrollador desde su ordenador.

¿Adónde va todo esto?

Nadie lo sabe con certeza.

Pero lo que sí sabemos es que las reglas del juego se están reescribiendo en tiempo real.

Y si entiendes los fundamentos —lo que has leído hoy— puedes seguir el partido aunque el marcador cambie cada semana.

Glosario de este artículo

LLM (Large Language Model) — Modelo de Lenguaje Grande. Sistema de IA entrenado con enormes cantidades de texto para generar, analizar y transformar lenguaje de forma coherente.

Pre-entrenamiento — La fase inicial de aprendizaje de un LLM. El modelo lee cantidades enormes de texto y aprende a predecir la siguiente palabra. Aquí adquiere la mayor parte de su «conocimiento».

Ajuste fino (Fine-tuning) — Segunda fase: el modelo ya entrenado se refina con datos más específicos y ejemplos de conversaciones útiles. Es lo que hace que un modelo académico se convierta en un asistente conversacional.

RLHF (Reinforcement Learning from Human Feedback) — Aprendizaje por refuerzo a partir de retroalimentación humana. Personas reales puntuaron respuestas del modelo: las buenas subían, las malas bajaban. Así el modelo aprendió a ser más útil y menos peligroso. Es la clave que convirtió GPT-3 en ChatGPT.

Parámetros — Los «ajustes internos» del modelo. Son números que se calibran durante el entrenamiento. GPT-3 tiene 175.000 millones. GPT-4 tiene más, aunque OpenAI no ha publicado la cifra exacta. Más parámetros no significa siempre mejor, pero suele ayudar.

Pre-entrenamiento vs Inferencia — El entrenamiento es cuando el modelo aprende (muy caro, se hace una vez). La inferencia es cuando el modelo responde tus preguntas (más barato, se hace millones de veces al día).

Leyes de escala (Scaling Laws) — El descubrimiento de que el rendimiento de un LLM mejora de forma predecible al aumentar el tamaño del modelo, los datos de entrenamiento y la potencia de cálculo. Publicadas por Kaplan et al. en 2020.

Chinchilla — Paper de DeepMind (2022) que demostró que el entrenamiento óptimo no es solo «más grande», sino equilibrar tamaño del modelo y cantidad de datos. Cambió la forma en que la industria diseña sus modelos.

Modelos de razonamiento — Una nueva generación de LLMs que, antes de responder, dedican tiempo a pensar: generan cadenas de razonamiento internas, revisan su propio trabajo y reconsideran. o1, o3 de OpenAI y DeepSeek R1 son los ejemplos más conocidos.

Fecha de corte (Knowledge cutoff) — El momento hasta el que el modelo tiene información. Si le preguntas por algo que ocurrió después de esa fecha, no lo sabe. O peor: lo inventa.

Alucinación — Cuando el modelo genera información falsa con total seguridad. No es malicia: es una limitación estructural del sistema. El modelo predice lo que «suena bien», no lo que es verdad.

Ahora ya sabes qué hay dentro.

Un LLM no es magia.

No es Terminator.

Es un sistema que ha leído más texto del que leerías en mil vidas y ha aprendido a predecir qué viene después con una precisión extraordinaria.

¿Es suficiente para hacer lo que hace?

Aparentemente sí.

Y eso es lo que tiene a todo el mundo —físicos, filósofos, ingenieros, abogados— con la cabeza dando vueltas.

En el próximo artículo bajamos un nivel más: los tokens.

La unidad mínima con la que trabaja un LLM.

Por qué no son palabras exactamente, por qué importan para tu bolsillo y qué tiene que ver todo esto con el límite de longitud de tus conversaciones.

No te lo pierdas.

¿Conoces a alguien que use ChatGPT todos los días sin tener ni idea de cómo funciona?

Comparte con el/ella este artículo.

Le va a cambiar la forma de usarlo.