Ele-ele-emes (1)

El modelado del lenguaje o la creación de modelos de lenguajes (LM, por language model) es una actividad en el procesamiento de los lenguajes naturales que implica la creación de modelos estadísticos o de aprendizaje profundo a partir del análisis del patrón de aparición de sus elementos (tokens) para predecir la probabilidad con que dicha secuencia ocurre y así la aparición de elementos en una determinada oración (y esto es así porque ya desde hace tiempo que fue dejada la búsqueda de un proceso netamente algorítmico, dada la natural irregularidad de los lenguajes naturales).

Así, se parte de un contexto (un vocabulario específico conformado por un conjunto limitado y conocido de tokens) en el que se emplean ciertas herramientas (estadísticas, formales o redes neuronales) para el establecimiento (dentro de lo que cabe) de un procedimiento (matemático, mecánico y, con ciertas reservas, algorítmico) que ayude a determinar la ocurrencia de ciertas palabras (su secuencia) que sean válidas tanto para completar una oración como para igualar la manera en la que lo haría un ser humano (algunos autores dirán que se, busca igualar la intuición lingüística).

Los modelos de lenguaje de gran tamaño (Large Language Models, LLM) o modelos de lenguaje grandes (como se detalla más adelante, «grande» el modelo, no el lenguaje) son una categoría de modelos fundacionales entrenados sobre enormes cantidades de datos que los hacen capaces de comprender y generar un lenguaje natural, entre otros tipos de contenidos, para realizar una amplia gama de tareas.

La palabra «grande» se debe a los parámetros, o variables y pesos, que utiliza el modelo. Aunque no hay una definición de cuántos parámetros se necesitan, los conjuntos de datos de entrenamiento varían en tamaño, desde 110 millones de parámetros (modelo BERTbase de Google) hasta 340 mil millones de parámetros (modelo PaLM 2 de Google). «Grande» también se refiere a la gran cantidad de datos utilizados para entrenar un LLM, que puede tener un tamaño de varios petabytes y contener miles de millones de tokens (como unidades básicas de texto o código, generalmente de unos pocos caracteres de longitud y dependientes del modelo).

Los modelos de lenguaje más pequeños, como la función de texto predictivo en aplicaciones de mensajería de texto, pueden completar el espacio en blanco en una oración como «el enfermo llamó a una ambulancia para llevarlo al _» con la palabra «hospital». Los LLM funcionan de la misma manera, pero en una escala mucho más grande y con más matices. En lugar de predecir una sola palabra, un LLM puede predecir contenido más complejo, como la respuesta o traducción de varios párrafos más probables.

Inicialmente, un LLM se entrena con contenido textual. El proceso de entrenamiento puede implicar aprendizaje no supervisado (el proceso inicial de formación de conexiones entre datos no etiquetados y no estructurados), así como aprendizaje supervisado (el proceso de ajuste fino del modelo para permitir un análisis más específico). Una vez que se completa el entrenamiento, los LLM se someten al proceso de aprendizaje profundo a través de modelos de redes neuronales conocidos como «transformadores», que convierten rápidamente un tipo de entrada (prompt) en un tipo de salida diferente. Los transformadores aprovechan un concepto llamado «autoatención», que permite a los LLM analizar las relaciones entre las palabras en una entrada y asignarles pesos para determinar la importancia relativa. Cuando se ingresa una indicación, los pesos se utilizan para predecir la salida textual más probable.

Siguiente

Deja un comentario

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.