Panduan ini menunjukkan cara men-deploy model AI generatif ke endpoint Vertex AI untuk prediksi online. Beberapa model AI generatif, seperti Gemini, memiliki API terkelola dan siap menerima perintah tanpa deployment. Untuk mengetahui daftar model dengan API terkelola, lihat API model dasar. Model AI generatif lainnya harus di-deploy ke endpoint sebelum dapat menerima perintah. Tabel berikut membandingkan jenis model yang memerlukan deployment. Saat Anda men-deploy model ke endpoint, Vertex AI akan mengaitkan resource komputasi dan URI dengan model tersebut sehingga model dapat menayangkan permintaan perintah. Diagram berikut merangkum alur kerja untuk men-deploy model: Model yang disetel akan otomatis diupload ke Vertex AI Model Registry dan di-deploy ke Setelah endpoint menjadi aktif, endpoint tersebut dapat menerima permintaan perintah di URI-nya. Format panggilan API untuk model yang disesuaikan sama dengan model dasar yang Anda gunakan untuk penyesuaian. Misalnya, jika Anda menyetel model di Gemini, permintaan perintah Anda harus mengikuti Gemini API. Kirim permintaan perintah ke endpoint model yang disesuaikan, bukan API terkelola. Endpoint model yang disesuaikan memiliki format berikut: Untuk mendapatkan ID endpoint, lihat Melihat atau mengelola endpoint. Untuk mengetahui informasi selengkapnya tentang cara memformat permintaan perintah, lihat referensi API Model. Untuk menggunakan model dari Model Garden yang tidak memiliki Managed API, Anda harus mengupload model ke Model Registry dan men-deploy-nya ke endpoint. Proses ini mirip dengan men-deploy model yang dilatih khusus untuk prediksi online. Untuk men-deploy salah satu model ini, buka Model Garden dan pilih model yang ingin Anda deploy. Setiap kartu model menampilkan satu atau beberapa opsi deployment berikut: Tombol Deploy: Alur kerja terpandu berbasis UI di konsol Google Cloud . Tombol Open Notebook: Notebook Jupyter dengan kode contoh untuk deployment. Setelah deployment, endpoint akan menjadi aktif dan dapat menerima permintaan perintah di URI-nya. Format API adalah Sebelum men-deploy, pastikan Anda memiliki kuota mesin yang cukup. Untuk melihat kuota saat ini atau meminta penambahan, buka halaman Kuota di konsol Google Cloud . Kemudian, filter menurut nama kuota Anda dapat men-deploy model Model Garden pada resource VM yang dialokasikan melalui reservasi Compute Engine. Reservasi membantu menyediakan kapasitas saat Anda membutuhkannya. Untuk mengetahui informasi selengkapnya, lihat Menggunakan reservasi dengan prediksi. Anda dapat melihat dan mengelola semua model yang telah diupload di Model Registry. Untuk model yang disesuaikan, Anda juga dapat melihat model dan tugas penyesuaiannya di halaman Sesuaikan dan Distilasi. Di Model Registry, model yang disesuaikan dikategorikan sebagai Model Besar dan memiliki label yang menentukan model dasar dan tugas penyesuaian. Untuk model yang di-deploy dengan tombol Deploy, Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI Model Registry. Untuk melihat dan mengelola endpoint, buka halaman Prediksi online Vertex AI. Secara default, nama endpoint sama dengan nama model. Untuk mengetahui informasi selengkapnya, lihat Men-deploy model ke endpoint. Untuk memantau traffic ke endpoint Anda di Metrics Explorer, lakukan hal berikut: Di Google Cloud konsol, buka halaman Metrics Explorer. Pilih project Anda. Di kolom Select a metric, masukkan Pilih kategori metrik Vertex AI Endpoint > Prediction. Di bagian Metrik aktif, pilih satu atau beberapa metrik berikut: Klik Terapkan. Untuk mempertajam tampilan, Anda dapat memfilter atau menggabungkan metrik: Opsional: Untuk menyiapkan pemberitahuan untuk endpoint, lihat Mengelola kebijakan pemberitahuan. Untuk melihat metrik yang Anda tambahkan ke project menggunakan dasbor, lihat Ringkasan dasbor. Model yang disesuaikan: Anda ditagih per token dengan tarif yang sama dengan model dasar yang Anda gunakan untuk penyesuaian. Tidak ada biaya untuk endpoint karena Vertex AI menerapkan penyesuaian sebagai adaptor kecil di atas model dasar. Untuk mengetahui informasi selengkapnya, lihat harga AI Generatif di Vertex AI. Model tanpa API terkelola: Anda ditagih untuk jam mesin yang digunakan endpoint dengan tarif yang sama seperti prediksi online Vertex AI. Anda tidak ditagih per token. Untuk mengetahui informasi selengkapnya, lihat harga untuk prediksi di Vertex AI.
Jenis Model Deskripsi Proses Deployment Kasus Penggunaan Model yang Disesuaikan Model dasar yang Anda sesuaikan dengan data Anda. Deployment otomatis ke endpoint publik bersama setelah tugas penyesuaian selesai. Menyajikan model yang disesuaikan dan dilatih dengan data spesifik Anda. Model tanpa Managed API Model terlatih dari Model Garden (misalnya, Llama 2) yang Anda deploy sendiri. Deployment manual dengan tombol Deploy atau Jupyter Notebook. Menayangkan model pihak ketiga atau terbuka yang tidak memiliki API siap pakai. Men-deploy model yang disesuaikan
endpoint
publik bersama Vertex AI. Model yang di-tune tidak muncul di Model Garden karena Anda men-tune-nya dengan data Anda. Untuk mengetahui informasi selengkapnya, lihat Ringkasan penyesuaian model. https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Men-deploy model tanpa API terkelola
predict
, dan struktur setiap instance
dalam isi permintaan bergantung pada model. Untuk informasi selengkapnya, lihat referensi berikut:Custom Model Serving
untuk melihat kuota prediksi online. Untuk mempelajari lebih lanjut, lihat Melihat dan mengelola kuota.Mencadangkan kapasitas dengan reservasi Compute Engine
Melihat atau mengelola model
Source
adalah Model Garden. Pembaruan pada model di Model Garden tidak berlaku untuk model yang telah Anda upload ke Model Registry.Melihat atau mengelola endpoint
Memantau traffic endpoint model
Vertex AI Endpoint
.
prediction/online/error_count
prediction/online/prediction_count
prediction/online/prediction_latencies
prediction/online/response_count
endpoint_id = gemini-2p0-flash-001
. Dalam nama model, ganti titik desimal dengan p
.response_code
.Batasan
Harga
Langkah berikutnya
Men-deploy model AI generatif
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2025-08-19 UTC.