¿Qué son los tokens? La unidad mínima con la que piensa una IA

Este artículo forma parte de la serie «¿Cómo funciona la IA?».

Si no has leído los anteriores, lee el primero o luego el segundo.

Índice

La unidad mínima que nadie te explica
¿Qué es exactamente un token? Con ejemplos reales
Por qué los tokens importan para tu bolsillo
La ventana de contexto: la «memoria» que tiene la IA contigo
Por qué la IA falla con los números (y tiene que ver con los tokens)
De 4.000 a un millón: la explosión silenciosa
Glosario del artículo

1. La unidad mínima que nadie te explica

Cuando hablas con ChatGPT, escribes palabras.

Pero ChatGPT no lee palabras.

Lee tokens.

Y eso no es un detalle técnico sin importancia.

Es la clave para entender por qué la IA tiene límites de longitud en las conversaciones, por qué a veces falla de formas que parecen inexplicables, por qué usar IA en español puede costarte más que en inglés y por qué los precios de estas herramientas se miden en miles de tokens en lugar de en páginas o palabras.

Un token es la unidad mínima de información con la que trabaja un LLM.

No es una palabra.

No es una letra.

Es algo intermedio.

Y entenderlo cambia la forma en que usas estas herramientas.

2. ¿Qué es exactamente un token? Con ejemplos reales

Imagina que coges un texto y lo cortas en trozos.

A veces un trozo es una palabra entera.

A veces es solo una parte de una palabra.

A veces es un signo de puntuación.

A veces es un espacio.

Esos trozos son los tokens.

¿Por qué se corta así y no de otra manera?

Porque en 2016, unos investigadores llamados Sennrich, Haddow y Birch publicaron un paper —«Neural Machine Translation of Rare Words with Subword Units»— que proponía un método llamado Byte Pair Encoding.

La idea era elegante: en lugar de tener un vocabulario de todas las palabras posibles del mundo —que serían millones— mejor dividir el texto en fragmentos frecuentes.

Los trozos más comunes se quedan enteros.

Los menos comunes se dividen en partes más pequeñas.

Con unos ejemplos lo entiendes al instante:

La palabra «casa» → 1 token.

La palabra «trabajo» → 1 token.

La palabra «indemnización» → probablemente 4 o 5 tokens: «indem», «niz», «aci», «ón».

La palabra «ChatGPT» → 3 tokens: «Chat», «G», «PT».

Un número como «2024» → 1 token.

Un número largo como «1.847.392» → varios tokens, uno por cada grupo de dígitos.

Como regla general, en inglés una palabra es aproximadamente 0,75 tokens.

O dicho al revés: 1 token equivale a unas 4 letras en inglés.

En español la cosa cambia.

Nuestro idioma tiene palabras más largas, más morfología, más conjugaciones.

Resultado: el mismo texto en español suele consumir entre un 20% y un 30% más de tokens que en inglés.

Lo que significa que si usas la API de OpenAI para procesar documentos en español, pagas más por el mismo contenido.

Injusto, sí.

Pero así funciona.

3. ¿Por qué los tokens importan para tu bolsillo? 💸

Cuando usas ChatGPT, Claude o Gemini a través de sus aplicaciones web, pagas una suscripción mensual y listo.

Pero cuando accedes a estos modelos a través de la API —que es como los desarrolladores y las empresas los integran en sus propias herramientas— el precio no es por mes.

Es por token.

OpenAI cobra por cada mil tokens que entran en el modelo (los que tú escribes) y por cada mil tokens que salen (los que el modelo genera).

Lo mismo hacen Anthropic con Claude y Google con Gemini.

¿Cuánto?

Los precios han bajado de forma espectacular en los últimos dos años.

En 2023, procesar un millón de tokens con GPT-4 costaba alrededor de 30 dólares.

En 2025, modelos equivalentes o superiores cuestan menos de un dólar por millón de tokens.

Una caída del 97% en menos de dos años.

Esto no es un detalle menor.

Significa que herramientas que hace dos años eran económicamente inviables para una empresa pequeña, hoy son accesibles para cualquiera.

Y significa que saber cuántos tokens consume tu caso de uso es la diferencia entre un proyecto rentable y uno que te arruina.

4. La ventana de contexto: la «memoria» que tiene la IA contigo

Aquí viene el concepto que más confunde a los usuarios nuevos.

Un LLM no tiene memoria permanente.

No recuerda lo que hablasteis ayer.

No recuerda nada de conversaciones anteriores.

Cada vez que abres una conversación nueva, empieza desde cero.

Pero dentro de una misma conversación, sí recuerda todo lo que ha pasado.

¿Cómo?

Porque todo lo que has escrito —y todo lo que el modelo ha respondido— se incluye en lo que se llama la ventana de contexto.

Es como una hoja de papel en la que se va escribiendo toda la conversación.

Cada mensaje que mandas añade tokens a esa hoja.

Cada respuesta que recibes también añade tokens.

Y esa hoja tiene un tamaño máximo.

Cuando se llena, la IA empieza a «olvidar» lo que había al principio.

Por eso en conversaciones muy largas la IA puede perder el hilo de lo que dijiste al principio.

No es que sea tonta.

Es que su hoja se ha llenado y ha tenido que tirar los apuntes más antiguos para hacer sitio a los nuevos.

En 2023, la investigadora Nelson Liu y su equipo de Stanford publicaron un paper llamado «Lost in the Middle» con un hallazgo desconcertante: incluso cuando el modelo tiene toda la información dentro de su ventana de contexto, tiende a recordar mejor lo que está al principio y al final.

Lo que está en el medio se pierde.

Como cuando estudias para un examen: recuerdas bien la primera y la última lección, pero las del centro se difuminan.

La IA tiene el mismo problema.

Así que si le das un documento largo y quieres que recuerde algo importante, ponlo al principio o al final.

No en la página 34 de 60.

5. ¿Por qué la IA falla con los números? (y tiene que ver con los tokens)

Hay algo que descoloca a mucha gente cuando empieza a usar IA.

Un sistema que puede escribir un ensayo filosófico, redactar un contrato o explicar la teoría de la relatividad... a veces falla sumando números de tres cifras.

¿Cómo es posible?

Tiene que ver con los tokens.

Recuerda: un LLM no calcula.

Predice.

Predice qué token viene después del anterior.

Cuando le pides que sume 847 más 293, no hace la operación aritmética como haría una calculadora.

Intenta predecir cuál es el resultado que más veces ha visto asociado a esa suma en sus datos de entrenamiento.

La mayoría de las veces acierta porque ha visto suficientes ejemplos.

Pero con números grandes, con operaciones poco frecuentes o con formatos extraños, puede fallar.

Y lo hace con total convicción.

Además, los números se tokenizan de forma irregular.

«123» puede ser un token. «1234» puede ser dos. «12345» puede ser tres.

Y cuando el modelo trabaja con números muy largos, no los «ve» como un número entero sino como una secuencia de fragmentos.

Es como si a ti te pidieran sumar dos números en los que cada dígito estuviera escrito en un papel diferente y en desorden.

Podrías hacerlo.

Pero te costaría más.

La solución práctica: si necesitas cálculos precisos, no confíes solo en el LLM.

Usa una calculadora, una hoja de cálculo, o dale al modelo acceso a herramientas externas que sí saben calcular.

Los modelos más modernos ya integran esto por defecto.

Pero conviene saberlo.

6. De 4.000 a un millón: la explosión silenciosa

Hay una evolución en el mundo de la IA que casi nadie menciona porque no sale en los titulares.

Pero es tan importante como el salto de GPT-3 a GPT-4.

Es la explosión del tamaño de la ventana de contexto.

Cuando GPT-3 salió en 2020, su ventana de contexto era de 4.096 tokens.

Unas 3.000 palabras.

Tres páginas de Word, aproximadamente.

Con eso trabajabas.

En 2023, GPT-4 llegó con versiones de 32.000 tokens.

Ya podías meter un informe largo.

Ese mismo año, Anthropic lanzó Claude con 100.000 tokens.

Una novela entera.

En 2024, Google presentó Gemini 1.5 Pro con un millón de tokens.

Más de 700.000 palabras.

El Quijote tiene unas 380.000.

O sea: dos Quijotes dentro del contexto de la IA, con margen.

¿Qué cambia esto en la práctica?

Mucho.

Con una ventana de contexto grande puedes meter un contrato de 200 páginas y preguntarle sobre cualquier cláusula.

Puedes darle todo el historial de un expediente y pedirle que lo analice en conjunto.

Puedes subir el código completo de un programa y pedirle que encuentre el error.

Cosas que hace dos años eran imposibles, hoy son una instrucción y dos segundos.

Pero hay una trampa.

Más contexto no siempre significa mejor comprensión.

Recuerda el paper «Lost in the Middle»: cuanto más llenas la ventana, más probable es que el modelo pierda información en el centro.

La ventana de contexto ha crecido de forma espectacular.

La capacidad de aprovecharla bien también ha mejorado, pero más despacio.

Úsala con criterio.

Glosario del artículo

Token — La unidad mínima de texto con la que trabaja un LLM. No es una palabra ni una letra, sino un fragmento de texto que puede ser una palabra completa, parte de una palabra o un signo de puntuación. En inglés, 1 token equivale aproximadamente a 4 caracteres o 0,75 palabras.

Tokenización — El proceso de convertir un texto en una secuencia de tokens antes de que el modelo lo procese. Es el primer paso en cualquier interacción con un LLM.

Byte Pair Encoding (BPE) — El algoritmo de tokenización más usado en los LLMs modernos. Divide el texto en fragmentos frecuentes de forma que las palabras comunes quedan enteras y las raras se dividen en partes más pequeñas. Propuesto por Sennrich et al. en 2016.

Ventana de contexto (Context window) — La cantidad máxima de tokens que un LLM puede «ver» al mismo tiempo. Todo lo que está dentro de la ventana de contexto forma parte de la conversación activa. Lo que queda fuera, el modelo no lo recuerda.

Tokens de entrada (Input tokens) — Los tokens que tú envías al modelo: tu pregunta, las instrucciones, los documentos que adjuntas.

Tokens de salida (Output tokens) — Los tokens que genera el modelo en su respuesta. En general cuestan más que los de entrada en las tarifas de API.

Lost in the Middle — Fenómeno documentado en el paper homónimo de Liu et al. (Stanford, 2023): los modelos tienden a recordar mejor la información al principio y al final del contexto, y a perder la que está en el medio.

API — Interfaz que permite a desarrolladores y empresas integrar un LLM en sus propias aplicaciones. El acceso por API se cobra por tokens, no por suscripción mensual.

Ahora ya sabes lo que es un token.

Y sabes por qué importa.

No es un detalle de fontanería interna.

Es la unidad con la que la IA mide, cobra, recuerda y olvida.

En el próximo artículo subimos un nivel: ¿cómo aprende un LLM?

Qué pasó durante los meses o años en que el modelo «estudió» antes de que tú pudieras hablar con él.

Por qué sabe lo que sabe.

Y por qué tiene una fecha de corte.

No te lo pierdas.

¿Te ha resultado útil este artículo?

Compártelo con alguien que use IA todos los días sin entender por qué a veces le falla con los números o le «olvida» lo que dijo hace diez mensajes.

Ahora ya tiene la respuesta.