Men-deploy model AI generatif

Panduan ini menunjukkan cara men-deploy model AI generatif ke endpoint Vertex AI untuk prediksi online.

Beberapa model AI generatif, seperti Gemini, memiliki API terkelola dan siap menerima perintah tanpa deployment. Untuk mengetahui daftar model dengan API terkelola, lihat API model dasar.

Model AI generatif lainnya harus di-deploy ke endpoint sebelum dapat menerima perintah. Tabel berikut membandingkan jenis model yang memerlukan deployment.

Jenis Model Deskripsi Proses Deployment Kasus Penggunaan
Model yang Disesuaikan Model dasar yang Anda sesuaikan dengan data Anda. Deployment otomatis ke endpoint publik bersama setelah tugas penyesuaian selesai. Menyajikan model yang disesuaikan dan dilatih dengan data spesifik Anda.
Model tanpa Managed API Model terlatih dari Model Garden (misalnya, Llama 2) yang Anda deploy sendiri. Deployment manual dengan tombol Deploy atau Jupyter Notebook. Menayangkan model pihak ketiga atau terbuka yang tidak memiliki API siap pakai.

Saat Anda men-deploy model ke endpoint, Vertex AI akan mengaitkan resource komputasi dan URI dengan model tersebut sehingga model dapat menayangkan permintaan perintah.

Diagram berikut merangkum alur kerja untuk men-deploy model:

Men-deploy model yang disesuaikan

Model yang disetel akan otomatis diupload ke Vertex AI Model Registry dan di-deploy ke endpoint publik bersama Vertex AI. Model yang di-tune tidak muncul di Model Garden karena Anda men-tune-nya dengan data Anda. Untuk mengetahui informasi selengkapnya, lihat Ringkasan penyesuaian model.

Setelah endpoint menjadi aktif, endpoint tersebut dapat menerima permintaan perintah di URI-nya. Format panggilan API untuk model yang disesuaikan sama dengan model dasar yang Anda gunakan untuk penyesuaian. Misalnya, jika Anda menyetel model di Gemini, permintaan perintah Anda harus mengikuti Gemini API.

Kirim permintaan perintah ke endpoint model yang disesuaikan, bukan API terkelola. Endpoint model yang disesuaikan memiliki format berikut:

 https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID 

Untuk mendapatkan ID endpoint, lihat Melihat atau mengelola endpoint. Untuk mengetahui informasi selengkapnya tentang cara memformat permintaan perintah, lihat referensi API Model.

Men-deploy model tanpa API terkelola

Untuk menggunakan model dari Model Garden yang tidak memiliki Managed API, Anda harus mengupload model ke Model Registry dan men-deploy-nya ke endpoint. Proses ini mirip dengan men-deploy model yang dilatih khusus untuk prediksi online.

Untuk men-deploy salah satu model ini, buka Model Garden dan pilih model yang ingin Anda deploy.

Buka Model Garden

Setiap kartu model menampilkan satu atau beberapa opsi deployment berikut:

  • Tombol Deploy: Alur kerja terpandu berbasis UI di konsol Google Cloud .

    • Kelebihan: Sederhana, tidak memerlukan kode, bagus untuk konfigurasi standar.
    • Kontra: Kurang fleksibel untuk penyiapan yang kompleks atau otomatis.
    • Detail:
      • Untuk deployment di Vertex AI, Anda dapat menggunakan setelan yang disarankan atau menyesuaikannya, termasuk opsi lanjutan seperti memilih reservasi Compute Engine.
      • Beberapa model juga mendukung deployment ke Google Kubernetes Engine, solusi tidak terkelola untuk kontrol yang lebih besar. Untuk mengetahui informasi selengkapnya, lihat Menyajikan model dengan satu GPU di GKE.
      • Jika Anda tidak melihat tombol Deploy, gunakan opsi Open Notebook.
  • Tombol Open Notebook: Notebook Jupyter dengan kode contoh untuk deployment.

    • Kelebihan: Sangat dapat disesuaikan, bagus untuk otomatisasi (CI/CD), memberikan transparansi kode.
    • Kontra: Memerlukan pemahaman tentang Python dan Vertex AI SDK.
    • Detail: Notebook ini berisi contoh kode dan petunjuk untuk mengupload model ke Model Registry, men-deploy-nya ke endpoint, dan mengirim permintaan perintah. Setiap kartu model di Model Garden memiliki opsi ini.

Setelah deployment, endpoint akan menjadi aktif dan dapat menerima permintaan perintah di URI-nya. Format API adalah predict, dan struktur setiap instance dalam isi permintaan bergantung pada model. Untuk informasi selengkapnya, lihat referensi berikut:

Sebelum men-deploy, pastikan Anda memiliki kuota mesin yang cukup. Untuk melihat kuota saat ini atau meminta penambahan, buka halaman Kuota di konsol Google Cloud .

Kemudian, filter menurut nama kuota Custom Model Serving untuk melihat kuota prediksi online. Untuk mempelajari lebih lanjut, lihat Melihat dan mengelola kuota.

Buka Kuota

Mencadangkan kapasitas dengan reservasi Compute Engine

Anda dapat men-deploy model Model Garden pada resource VM yang dialokasikan melalui reservasi Compute Engine. Reservasi membantu menyediakan kapasitas saat Anda membutuhkannya. Untuk mengetahui informasi selengkapnya, lihat Menggunakan reservasi dengan prediksi.

Melihat atau mengelola model

Anda dapat melihat dan mengelola semua model yang telah diupload di Model Registry.

Buka Model Registry

Untuk model yang disesuaikan, Anda juga dapat melihat model dan tugas penyesuaiannya di halaman Sesuaikan dan Distilasi.

Buka Tune and Distill

Di Model Registry, model yang disesuaikan dikategorikan sebagai Model Besar dan memiliki label yang menentukan model dasar dan tugas penyesuaian. Untuk model yang di-deploy dengan tombol Deploy, Source adalah Model Garden. Pembaruan pada model di Model Garden tidak berlaku untuk model yang telah Anda upload ke Model Registry.

Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI Model Registry.

Melihat atau mengelola endpoint

Untuk melihat dan mengelola endpoint, buka halaman Prediksi online Vertex AI. Secara default, nama endpoint sama dengan nama model.

Buka Prediksi online

Untuk mengetahui informasi selengkapnya, lihat Men-deploy model ke endpoint.

Memantau traffic endpoint model

Untuk memantau traffic ke endpoint Anda di Metrics Explorer, lakukan hal berikut:

  1. Di Google Cloud konsol, buka halaman Metrics Explorer.

    Buka Metrics Explorer

  2. Pilih project Anda.

  3. Di kolom Select a metric, masukkan Vertex AI Endpoint.

  4. Pilih kategori metrik Vertex AI Endpoint > Prediction. Di bagian Metrik aktif, pilih satu atau beberapa metrik berikut:

    • prediction/online/error_count
    • prediction/online/prediction_count
    • prediction/online/prediction_latencies
    • prediction/online/response_count
  5. Klik Terapkan.

  6. Untuk mempertajam tampilan, Anda dapat memfilter atau menggabungkan metrik:

    • Filter: Untuk melihat sebagian data Anda, gunakan menu drop-down Filter. Misalnya, filter menurut endpoint_id = gemini-2p0-flash-001. Dalam nama model, ganti titik desimal dengan p.
    • Agregasi: Untuk menggabungkan titik data, gunakan menu drop-down Agregasi. Misalnya, Anda dapat melihat Jumlah response_code.
  7. Opsional: Untuk menyiapkan pemberitahuan untuk endpoint, lihat Mengelola kebijakan pemberitahuan.

Untuk melihat metrik yang Anda tambahkan ke project menggunakan dasbor, lihat Ringkasan dasbor.

Batasan

  • Anda hanya dapat men-deploy model Gemini yang telah di-tune ke endpoint publik bersama. Anda tidak dapat men-deploy-nya ke endpoint publik khusus, endpoint Private Service Connect, atau endpoint pribadi.

Harga

  • Model yang disesuaikan: Anda ditagih per token dengan tarif yang sama dengan model dasar yang Anda gunakan untuk penyesuaian. Tidak ada biaya untuk endpoint karena Vertex AI menerapkan penyesuaian sebagai adaptor kecil di atas model dasar. Untuk mengetahui informasi selengkapnya, lihat harga AI Generatif di Vertex AI.

  • Model tanpa API terkelola: Anda ditagih untuk jam mesin yang digunakan endpoint dengan tarif yang sama seperti prediksi online Vertex AI. Anda tidak ditagih per token. Untuk mengetahui informasi selengkapnya, lihat harga untuk prediksi di Vertex AI.

Langkah berikutnya