A avaliação é o processo de validar e testar os resultados que suas aplicações de LLM estão produzindo. Ter avaliações fortes (“evals”) significa ter uma aplicação mais estável, confiável e resistente a mudanças de código e modelo. Um eval é uma tarefa usada para medir a qualidade da saída de um LLM ou sistema de LLM. Dado um prompt de entrada, uma saída é gerada. Avaliamos essa saída com um conjunto de respostas ideais e encontramos a qualidade do sistema de LLM.

https://cookbook.openai.com/examples/evaluation/getting_started_with_openai_evals