Evaluación holística de modelos lingüísticos

28 noviembre, 2023

1510

Ricardo Chacón– Escuela de Ciencias de la Comunicación -UJMD

Los modelos de lenguaje (LM) como GPT-3, PaLM y ChatGPT son la base de casi todas las principales tecnologías lingüísticas, pero sus capacidades, limitaciones y riesgos no se comprenden bien.

La herramienta Evaluación Holística de Modelos de Lenguaje (HELM) sirve para mejorar la transparencia de los LM. Los LM pueden servir para muchos propósitos y su comportamiento debería satisfacer muchos deseos. Para navegar por el vasto espacio de escenarios y métricas potenciales, taxonomizamos el espacio y seleccionamos subconjuntos representativos.

Se evalúan modelos en dieciséis escenarios centrales y siete métricas, exponiendo importantes compensaciones. Se complementa la evaluación principal con siete evaluaciones específicas para analizar en profundidad aspectos específicos (incluido el conocimiento mundial, el razonamiento, la regurgitación de contenido protegido por derechos de autor y la generación de desinformación).

Se compara treinta LM, de OpenAI, Microsoft, Google, Meta, Cohere, AI21 Labs, y otros. Antes de HELM, los modelos se evaluaban en solo el 17,9% de los escenarios principales de HELM, y algunos modelos destacados no compartían un solo escenario en común. Se mejora esto al 96,0 %: los treinta modelos ahora se comparan bajo las mismas condiciones estandarizadas.