Un compañero que no piensa: predice#
Antes de instalar nada ni escribir un prompt, conviene tener una imagen honesta de qué es lo que vas a usar.
Un modelo de lenguaje grande —LLM, por sus siglas en inglés— no es una base de datos que consultar ni un motor de búsqueda. Es un sistema entrenado con cantidades enormes de texto que aprendió a responder a esta pregunta una y otra vez:
¿Cuál es el fragmento de texto más probable que viene a continuación de lo que ya hay?
Eso es todo. Suena simple, y sin embargo de esa operación repetida sale algo que parece razonar, explicar, escribir código o traducir. El truco es que “predecir texto probable” a escala enorme produce comportamientos que se parecen mucho a entender —aunque no lo sean.
A lo largo de este nivel vas a ver a ese modelo como un compañero de equipo: un júnior brillante y rapidísimo, con una memoria de lectura enorme, capaz de generar código en segundos. Pero sin criterio propio, sin contexto de tu empresa, y que a veces inventa con total seguridad. Tú eres el senior que revisa y firma el código. El resto del nivel se apoya en esa imagen.
La unidad mínima: el token#
El modelo no lee letra a letra ni palabra a palabra. Divide el texto en fragmentos intermedios llamados tokens: trozos de palabra, palabras sueltas, o incluso signos de puntuación.
La palabra “programación” puede ocupar dos o tres tokens dependiendo del modelo. “hola” es probablemente uno. Un fragmento de código con llaves y puntos y comas puede descomponerse en muchos más de los que esperarías.
Por qué importa saberlo desde el principio:
- El modelo tiene un límite de tokens que puede procesar en una sola conversación. Cuando se llena, “olvida” lo anterior.
- El coste de usar un modelo se mide y se cobra en tokens, no en palabras ni en peticiones.
- El capítulo 6 de este nivel entra en detalle. Por ahora basta con saber que la unidad no es la palabra.
El flujo real: de texto a texto#
Este es el proceso que ocurre cada vez que el modelo genera algo:
texto de entrada → se divide en tokens → entra al modelo (sus pesos ya fijados)
↓
predice el siguiente token más probable
↓
ese token se añade al texto → vuelve a predecir
↓
... repite hasta completar la respuestaEl modelo genera un token, ese token pasa a ser parte del contexto, y el modelo predice el siguiente. Una y otra vez. Por eso las respuestas largas tardan más: el proceso es secuencial.
Los pesos son los valores numéricos que el modelo fijó durante el entrenamiento: millones (o miles de millones) de parámetros que codifican los patrones que aprendió. Al generar una respuesta, el modelo no los cambia: los usa tal como quedaron.
Entrenamiento vs. inferencia: dos momentos distintos#
El entrenamiento es el proceso largo y costoso donde el modelo aprende. Se le expone a enormes cantidades de texto, ajusta sus pesos para predecir mejor el siguiente token, y así sucesivamente durante semanas o meses usando hardware especializado y cantidades significativas de energía. Al final de ese proceso los pesos quedan fijados.
La inferencia es cada vez que el modelo ya entrenado genera una respuesta a partir de un prompt. Cada conversación tuya con el asistente es una inferencia. El modelo aplica sus pesos fijados, predice tokens, y te devuelve texto. No aprende nada de esa interacción —sus pesos no se modifican.
Esta distinción tiene una consecuencia práctica inmediata: cuando el modelo comete un error contigo, no “aprende” que se equivocó. La siguiente vez que alguien haga la misma pregunta, puede cometer el mismo error. El aprendizaje es responsabilidad del entrenamiento, no de la conversación.
Por qué alucina (y es inevitable)#
El modelo genera lo más probable, no lo verdadero. Eso tiene un nombre: alucinación.
Imagina que le preguntas por una función de una librería que no existe. El modelo ha visto miles de ejemplos de documentación de librerías similares, sabe cómo se llaman las funciones en ese ecosistema, sabe cómo se documentan. El nombre que genera suena perfecto —y nunca existió.
Lo genera con total seguridad porque no tiene un mecanismo para distinguir entre “esto es verdad” y “esto es plausible estadísticamente”. Solo maximiza la probabilidad del siguiente token.
La consecuencia práctica es directa: verifica siempre el código que te da antes de usarlo. No como precaución adicional, sino como parte del flujo de trabajo. El capítulo 7 de este nivel —el último— entra en detalle en cómo revisar y cuándo confiar.
Temperatura: determinismo frente a creatividad#
Hay un parámetro llamado temperatura que controla cuánto riesgo toma el modelo al elegir el siguiente token.
Con temperatura baja (cerca de cero), el modelo elige casi siempre el token más probable. Las respuestas son más predecibles, repetibles y precisas. Útil para tareas técnicas donde quieres consistencia.
Con temperatura alta, el modelo considera opciones menos probables. Las respuestas son más variadas y creativas, pero también más propensas a alejarse de lo esperado o a desvariar.
Las herramientas de IA orientadas a código suelen usar temperaturas bajas por defecto. No necesitas ajustarla manualmente para la mayoría de tareas cotidianas, pero saber que existe explica por qué a veces el mismo prompt da respuestas distintas en distintos momentos.
La fecha de corte: lo que el modelo no puede saber#
El entrenamiento se hace con datos recopilados hasta un momento concreto: la fecha de corte (o knowledge cutoff, en la documentación en inglés).
Lo que ocurrió después de esa fecha no existe para el modelo. Una librería lanzada el mes pasado, un cambio de API de la semana pasada, un artículo de ayer: el modelo no los conoce, a menos que tú mismo se los proporciones en el contexto de la conversación.
Algunos modelos tienen herramientas adicionales para buscar en internet, pero eso es aparte del LLM en sí: el modelo base trabaja con lo que aprendió durante el entrenamiento. Cuando el asistente te da información desactualizada, no está mintiendo ni fallando: simplemente no tiene datos posteriores a su fecha de corte. La solución es pegarte tú la documentación actualizada en el prompt, o verificar contra la fuente oficial.
La IA no es un buscador#
Un buscador web indexa páginas existentes y te devuelve las más relevantes para tu consulta. Recupera documentos que alguien escribió.
Un modelo de lenguaje genera texto nuevo a partir de los patrones que aprendió. No busca en ninguna base de datos al responder. No hay una página web de la que copie la respuesta. Construye el texto token a token.
Esta diferencia explica por qué el modelo puede estar completamente equivocado con gran confianza: no encontró una fuente incorrecta, directamente generó algo plausible que resultó ser falso. Y explica por qué mezclar las dos herramientas tiene sentido: usar el modelo para razonar y escribir, y la búsqueda para traer información reciente y verificable.
Una nota sobre esta plataforma#
Esta plataforma de aprendizaje se construyó con un asistente de este tipo. El código de los componentes, los textos de algunos capítulos, las pruebas automatizadas: todo pasó por un modelo de lenguaje como el que acabas de estudiar. Con sus alucinaciones, sus límites de contexto y su fecha de corte —y con revisión humana en cada paso.
Lo mencionamos como dato, no como publicidad: el trabajo de revisar, corregir y mantener el criterio siguió siendo humano en cada paso.
Comprueba lo que sabes#
Pregunta 1 de 7