Este guia mostra como executar um pipeline de avaliação baseado em computação para avaliar a performance dos modelos de base e dos modelos de IA generativa ajustados na Vertex AI. O pipeline avalia seu modelo usando um conjunto de métricas em relação a um conjunto de dados de avaliação fornecido por você. Nesta página, abordamos os seguintes tópicos: O diagrama a seguir resume o fluxo de trabalho geral para executar uma avaliação baseada em computação: Para conferir os recursos de avaliação mais recentes com base em computação, consulte Definir suas métricas. Para avaliar o desempenho de um modelo, você fornece um conjunto de dados de avaliação que contém pares de comandos e informações empíricas. Para cada par, a entrada é o que você quer avaliar, e a informação empírica é a resposta ideal para ela. Durante a avaliação, o processo transmite o comando de cada par ao modelo para gerar uma saída. Em seguida, o processo usa a saída gerada do modelo e as informações empíricas correspondentes para calcular as métricas de avaliação. O tipo de métrica usada para avaliação depende da tarefa que você está avaliando. A tabela a seguir mostra as tarefas compatíveis e as métricas usadas para avaliar cada uma delas: É possível avaliar os seguintes modelos: O conjunto de dados de avaliação inclui pares de comandos e informações empíricas que se alinham à tarefa que você quer avaliar. Seu conjunto de dados precisa incluir no mínimo um par de comandos e informações empíricas e pelo menos 10 pares para métricas significativas. Quanto mais exemplos você fornecer, mais significativos serão os resultados. O conjunto de dados de avaliação precisa estar no formato linhas JSON (JSONL), em que cada linha é um objeto JSON. Cada objeto precisa conter um campo O tamanho máximo do token para É possível criar um novo bucket do Cloud Storage ou usar um atual para armazenar o arquivo do conjunto de dados. O bucket precisa estar na mesma região que o modelo. Quando o bucket estiver pronto, faça o upload do arquivo do conjunto de dados para o bucket. É possível executar um job de avaliação baseado em computação usando o console Google Cloud , a API REST ou o SDK da Vertex AI para Python. A tabela a seguir pode ajudar você a escolher a melhor opção para seu caso de uso. Use um dos métodos a seguir para executar um job de avaliação de modelo. Para criar um job de avaliação de modelo, envie uma solicitação Antes de usar os dados da solicitação abaixo, faça as substituições a seguir: Exemplo: Exemplo: O job de avaliação não afeta as implantações atuais do modelo ou os recursos dele. Método HTTP e URL: Corpo JSON da solicitação: Para enviar a solicitação, escolha uma destas opções: Salve o corpo da solicitação em um arquivo com o nome Salve o corpo da solicitação em um arquivo com o nome Você receberá uma resposta JSON semelhante a seguinte. Observe que Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python. Para criar um job de avaliação de modelo usando o console Google Cloud , siga estas etapas: Encontre os resultados da avaliação no diretório de saída do Cloud Storage especificado ao criar o job de avaliação. O nome do arquivo é Para modelos ajustados, também é possível conferir os resultados da avaliação no console Google Cloud : Na seção "Vertex AI" do console Google Cloud , acesse a página Vertex AI Model Registry. Clique no nome do modelo para visualizar as métricas de avaliação. Na guia Avaliar, clique no nome da execução da avaliação que você quer conferir.
Como funciona a avaliação de modelo baseado em computação
Tarefa Métrica Classificação Micro-F1, Macro-F1, F1 por classe Resumo ROUGE-L Respostas a perguntas Correspondência exata Geração de texto BLEU, ROUGE-L Modelos compatíveis
text-bison
: versões de base e ajustadas.Preparar e fazer upload do conjunto de dados de avaliação
Formato do conjunto de dados
input_text
com o comando que você quer avaliar e um campo output_text
com a resposta ideal para esse comando.input_text
é 8.192, e o comprimento máximo do token para output_text
é 1.024.Fazer o upload do conjunto de dados para o Cloud Storage
Escolher um método de avaliação
Método Descrição Caso de uso Google Cloud console Uma interface gráfica do usuário (GUI) que oferece um fluxo de trabalho guiado e detalhado para criar e monitorar jobs de avaliação.
API REST Uma interface programática para criar jobs de avaliação enviando solicitações JSON a um endpoint.
SDK do Vertex AI para Python Uma biblioteca Python de alto nível que simplifica as interações com a API Vertex AI.
Fazer avaliação de modelo.
REST
POST
usando o método pipelineJobs.
us-central1
é aceito.
publishers/google/models/MODEL@MODEL_VERSION
publishers/google/models/text-bison@002
projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
projects/123456789012/locations/us-central1/models/1234567890123456789
summarization
question-answering
text-generation
classification
jsonl
é aceito. Para saber mais sobre esse parâmetro, consulte InputConfig.jsonl
é aceito. Para saber mais sobre esse parâmetro, consulte InputConfig.e2-highmem-16
. Para uma lista de tipos de máquina compatíveis, consulte Tipos de máquina.projects/PROJECT_NUMBER/global/networks/NETWORK_NAME
. Se você especificar esse campo, será necessário ter um peering de rede VPC para a Vertex AI. Se não for especificado, o job de avaliação não fará peering com nenhuma rede.projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY
. A chave precisa estar na mesma região que o job de avaliação.POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs
{ "displayName": "PIPELINEJOB_DISPLAYNAME", "runtimeConfig": { "gcsOutputDirectory": "gs://OUTPUT_DIR", "parameterValues": { "project": "PROJECT_ID", "location": "LOCATION", "batch_predict_gcs_source_uris": ["gs://DATASET_URI"], "batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR", "model_name": "MODEL_NAME", "evaluation_task": "EVALUATION_TASK", "batch_predict_instances_format": "INSTANCES_FORMAT", "batch_predict_predictions_format: "PREDICTIONS_FORMAT", "machine_type": "MACHINE_TYPE", "service_account": "SERVICE_ACCOUNT", "network": "NETWORK", "encryption_spec_key_name": "KEY_NAME" } }, "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1" }
curl
request.json
e execute o comando a seguir: curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"PowerShell
request.json
e execute o comando a seguir: $cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand ContentpipelineSpec
foi truncado para economizar espaço. Exemplo de comando curl
PROJECT_ID=myproject REGION=us-central1 MODEL_NAME=publishers/google/models/text-bison@002 TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl OUTPUT_DIR=gs://my-gcs-bucket-uri/output curl \ -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ "https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \ $'{ "displayName": "evaluation-llm-text-generation-pipeline", "runtimeConfig": { "gcsOutputDirectory": "'${OUTPUT_DIR}'", "parameterValues": { "project": "'${PROJECT_ID}'", "location": "'${REGION}'", "batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"], "batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'", "model_name": "'${MODEL_NAME}'", } }, "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1" }'
Python
Console
ground_truth
.jsonl
é aceito.Visualizar os resultados da avaliação
evaluation_metrics.json
.
A seguir
Executar um pipeline de avaliação baseado em computação
Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.
Última atualização 2025-08-19 UTC.