Transversal · Desarrollo asistido por IA

Tokens y context window

Cómo "lee" el modelo, por qué tiene límites y qué implica eso para tu coste y tus prompts.

El modelo no lee palabras#

Antes de que el asistente procese una sola letra de tu prompt, ocurre algo que la mayoría de la gente no sabe: el texto se convierte en una secuencia de números. Esa conversión la hace el tokenizador.

Un token no es un carácter ni una palabra. Es un fragmento de texto que el tokenizador ha aprendido a reconocer como unidad útil. Palabras muy frecuentes suelen ser un solo token. Palabras largas, infrecuentes o en idiomas con menos datos de entrenamiento pueden ser varios tokens. Los signos de puntuación y los espacios a veces van pegados al token siguiente, a veces solos.

Esto tiene consecuencias prácticas:

Un texto de 100 caracteres puede ser 20 tokens o 40, según el vocabulario que use.
Los textos en inglés suelen tokenizarse mejor que los mismos textos en español o en otros idiomas con menos representación en los datos de entrenamiento.
El coste de una llamada al modelo se mide en tokens, no en caracteres ni en palabras.

Tokenización: cómo se parte el texto#

El proceso de convertir texto en tokens se llama tokenización. El algoritmo más común en los modelos modernos (BPE, Byte Pair Encoding) empieza con caracteres individuales y va fusionando los pares más frecuentes hasta construir un vocabulario de decenas de miles de tokens.

El resultado es que el vocabulario contiene tanto tokens de un solo carácter como fragmentos de palabra muy frecuentes. La palabra “tokenización” en español podría partirse como “token” + “iz” + “ación”, mientras que en inglés “tokenization” quizás se queda en uno o dos tokens porque aparece con mucha más frecuencia en los datos de entrenamiento.

No necesitas memorizar cómo funciona BPE. Sí necesitas tener claro que tokens no es lo mismo que palabras ni que caracteres, y que el número de tokens que consume una petición determina cuánto cuesta y cuánto espacio ocupa.

La ventana de contexto: memoria de trabajo finita#

Imagina que el junior brillante del que hablamos antes tiene una mesa de trabajo. En esa mesa puede poner papeles: el enunciado de la tarea, los ficheros de código que le has pasado, el historial de la conversación, las instrucciones del proyecto. Pero la mesa tiene un tamaño fijo. Si intentas poner más papeles de los que caben, los que están más al borde de la mesa caen al suelo y el junior ya no puede verlos.

Eso es la ventana de contexto: el número máximo de tokens que el modelo puede tener en cuenta a la vez. Suma los tokens de entrada (todo lo que le das) y los de salida (todo lo que genera). Cuando el total llega al límite, lo más antiguo deja de estar disponible.

Los modelos modernos tienen ventanas grandes. Una ventana de contexto de 200.000 tokens puede parecer enorme, pero un repositorio mediano con sus ficheros de configuración, el historial de una sesión larga y varios ficheros de código puede llenarla más rápido de lo que parece.

Qué pasa cuando se llena#

Cuando la conversación se acerca o supera el límite, pueden pasar varias cosas según cómo lo gestione el cliente que estás usando:

El modelo deja de tener en cuenta las partes más antiguas de la conversación.
Instrucciones que diste al principio de la sesión dejan de estar disponibles.
El modelo puede parecer que “olvida” el contexto o da respuestas incoherentes con lo que acordasteis antes.

La señal de que esto está pasando suele ser que el asistente ignora restricciones o convenciones que le dijiste al principio, o que parece haber olvidado ficheros que ya había procesado. La solución es reiniciar la sesión y repetir el contexto esencial de forma compacta.

Coste y presupuesto de tokens#

Los modelos de IA se cobran por tokens: los que consumes en la entrada (prompt, historial, ficheros adjuntos) más los que genera la respuesta. Los tokens de salida suelen tener un precio por unidad más alto que los de entrada.

Esto tiene una implicación directa en cómo estructuras tus prompts:

Dar el contexto justo: los ficheros que el modelo necesita para esa tarea, no todo el repositorio.
Historial largo = coste alto: en sesiones muy largas, el historial puede representar la mayor parte del gasto. Compactar el contexto o empezar una sesión nueva cuando el historial ya no aporta es una decisión económica y de calidad.
Respuestas más largas cuestan más: pedir al modelo que explique cada decisión en detalle genera más tokens de salida que pedir solo el código.

El coste por token no es una abstracción académica. Si trabajas en un equipo que usa el asistente intensivamente, o si construyes una herramienta que llama a la API de forma programática, el gasto en tokens puede ser significativo y merece gestionarse activamente.

Pruébalo#

La siguiente demo usa el tokenizador de GPT como aproximación para visualizar cómo el mismo texto se parte de formas distintas. El tokenizador real que usa Claude es diferente y no está disponible como librería pública en el navegador, pero la idea central es la misma: los tokens no coinciden con los caracteres, y la ventana tiene un límite concreto.

Cambia el valor de texto y ejecuta el código para ver cómo varía el recuento. Prueba con:

Una frase corta en español
La misma frase en inglés
Un bloque de código
Un párrafo de texto largo

Comprueba lo que sabes#

Pregunta 1 de 8

¿Qué es un token en el contexto de un LLM?

Tu turno#

Esta práctica no tiene un editor en la página: requiere que uses la demo de arriba y razones sobre tu propio código.

El objetivo: estimar el presupuesto de tokens que consume una tarea real con el Team Builder.

Pasos:

Abre la demo de la sección “Pruébalo” de este capítulo.
Copia el contenido de uno de los ficheros de tu Team Builder (por ejemplo, el componente principal o el fichero de datos de los héroes) y pégalo como valor de la variable texto.
Ejecuta el código y anota cuántos tokens ocupa ese fichero.
Ahora responde por escrito (en papel o en un fichero de notas):
- Si una ventana de contexto tiene 200.000 tokens y el prompt base de tu proyecto (instrucciones, convenciones) ocupa 2.000 tokens, ¿cuántos tokens quedan para ficheros de código y respuesta?
- Si cada fichero de tu proyecto ocupa de media los tokens que has medido, ¿cuántos ficheros caben cómodamente en ese presupuesto?
- ¿Tiene sentido pasar todos los ficheros a la vez o es mejor pasar solo los relevantes para cada tarea?

No hay una respuesta única correcta. El objetivo es que el número deje de ser abstracto y empieces a tomar decisiones informadas sobre qué contexto dar al asistente.