Überwachte Feinabstimmung für Gemini-Modelle
Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Mit der überwachten Feinabstimmung können Sie ein Gemini-Modell an Ihre spezifischen Anforderungen anpassen. Wenn Sie ein gelabeltes Dataset mit Beispielen bereitstellen, können Sie die Gewichte des Modells anpassen, um die Leistung für eine bestimmte Aufgabe zu optimieren. Diese Methode ist eine gute Option, wenn Sie eine klar definierte Aufgabe haben. Sie ist besonders effektiv bei domainspezifischen Anwendungen, bei denen sich die Sprache oder der Inhalt erheblich von den Daten unterscheiden, mit denen das Basismodell trainiert wurde. Sie können Modelle mit Text-, Bild-, Audio- und Dokument-Daten abstimmen.
Auf dieser Seite werden die folgenden Themen behandelt:
Weitere Informationen zu den Vorteilen der Optimierung finden Sie unter Wann sollte die überwachte Feinabstimmung für Gemini verwendet werden? und Hunderte von Organisationen optimieren Gemini-Modelle. Hier sind die beliebtesten Anwendungsfälle.
Anwendungsfälle für die überwachte Feinabstimmung
Foundation-Modelle sind eine gute Wahl, wenn die erwartete Ausgabe oder Aufgabe in einem Prompt klar und präzise definiert werden kann und der Prompt konsistent die erwartete Ausgabe erzeugt. Wenn Sie möchten, dass ein Modell bestimmte Nischenthemen oder Besonderheiten lernt, die von den allgemeinen Mustern abweichen, sollten Sie das Modell entsprechend abstimmen. Sie können das Modell zum Beispiel mithilfe der Modellabstimmung Folgendes antrainieren:
- Bestimmte Strukturen oder Formate zum Generieren einer Ausgabe.
- Spezifisches Verhalten, z. B. wann eine grobe oder ausführliche Ausgabe bereitgestellt werden soll.
- Bestimmte benutzerdefinierte Ausgaben für bestimmte Eingabetypen angeben.
Bei den folgenden Beispielen handelt es sich um Anwendungsfälle, die sich nur schwer mit Eingabeaufforderungen erfassen lassen:
Klassifizierung: Die erwartete Antwort ist ein bestimmtes Wort oder eine bestimmte Wortgruppe. Durch Abstimmung des Modells kann verhindert werden, dass das Modell ausführliche Antworten generiert.
Zusammenfassung: Die Zusammenfassung folgt einem bestimmten Format. Es kann beispielsweise vorkommen, dass Sie personenidentifizierbare Informationen aus einer Chatzusammenfassung entfernen müssen. Das Format der Ersetzung der Namen durch #Person1
und #Person2
ist schwierig in einem Prompt zu beschreiben. Das Foundation Model erzeugt möglicherweise keine solche Antwort.
Antwort auf Extraktionsfrage: Die Frage bezieht sich auf einen Kontext und die Antwort ist ein Teilstring des Kontexts.
Chat: Sie müssen die Modellantwort anpassen, damit sie einer Identität, einer Rolle oder einem Zeichen genügt.
Sie können ein Modell auch in folgenden Situationen optimieren:
- Prompts führen nicht konsistent zu den erwarteten Ergebnissen.
- Die Aufgabe ist zu kompliziert, um sie in einem Prompt zu definieren (z. B. das Klonen eines Verhaltens, das nur schwer zu beschreiben ist).
- Sie haben komplexe Ahnungen über eine Aufgabe, die schwierig in einem Prompt zu formalisieren ist.
- Sie möchten die Kontextlänge reduzieren, indem Sie Beispiele für Schnellerstellungen aus Prompts entfernen.
Unterstützte Modelle
Die folgenden Gemini-Modelle unterstützen die überwachte Feinabstimmung:
Bei Modellen, die Thinking unterstützen, sollten Sie das Thinking-Budget auf „Aus“ oder den niedrigsten Wert festlegen. Dadurch kann die Leistung verbessert und die Kosten für optimierte Aufgaben gesenkt werden. Bei der überwachten Feinabstimmung lernt das Modell aus den Trainingsdaten und lässt den Denkprozess aus. Das resultierende optimierte Modell kann daher optimierte Aufgaben effektiv ohne Denkbudget ausführen.
Beschränkungen
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
Spezifikation | Wert |
Maximale Anzahl der Eingabe- und Ausgabetrainings-Tokens | 131.072 |
Maximale Anzahl von Eingabe- und Ausgabetokens für die Bereitstellung | Wie beim Basismodell von Gemini |
Maximale Größe des Validierungs-Datasets | 5.000 Beispiele |
Maximale Dateigröße des Trainings-Datasets | 1 GB für JSONL |
Maximale Größe des Trainings-Datasets | 1 Million Nur-Text-Beispiele oder 300.000 multimodale Beispiele |
Adaptergröße | Unterstützte Werte sind 1, 2, 4, 8 und 16. |
Gemini 2.5 Pro
Spezifikation | Wert |
Maximale Anzahl der Eingabe- und Ausgabetrainings-Tokens | 131.072 |
Maximale Anzahl von Eingabe- und Ausgabetokens für die Bereitstellung | Wie beim Basismodell von Gemini |
Maximale Größe des Validierungs-Datasets | 5.000 Beispiele |
Maximale Dateigröße des Trainings-Datasets | 1 GB für JSONL |
Maximale Größe des Trainings-Datasets | 1 Million Nur-Text-Beispiele oder 300.000 multimodale Beispiele |
Adaptergröße | Unterstützte Werte sind 1, 2, 4 und 8. |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
Spezifikation | Wert |
Maximale Anzahl der Eingabe- und Ausgabetrainings-Tokens | 131.072 |
Maximale Anzahl von Eingabe- und Ausgabetokens für die Bereitstellung | Wie beim Basismodell von Gemini |
Maximale Größe des Validierungs-Datasets | 5.000 Beispiele |
Maximale Dateigröße des Trainings-Datasets | 1 GB für JSONL |
Maximale Größe des Trainings-Datasets | 1 Million Nur-Text-Beispiele oder 300.000 multimodale Beispiele |
Adaptergröße | Unterstützte Werte sind 1, 2, 4 und 8. |
Bekannte Probleme
- Wenn Sie kontrollierte Ausgabe anwenden, wenn Sie Inferenzanfragen an abgestimmte Gemini-Modelle senden, kann dies zu einer verminderten Modellqualität führen. Während der Abstimmung wird die kontrollierte Generierung nicht angewendet. Das abgestimmte Modell kann sie daher zur Inferenzzeit nicht gut verarbeiten. Da das Modell durch überwachtes Fine-Tuning für die Generierung strukturierter Ausgaben angepasst wird, müssen Sie bei Inferenzanfragen an abgestimmte Modelle keine kontrollierte Generierung anwenden.
Region für Abstimmungsjob konfigurieren
Wenn Sie einen Abstimmungsjob ausführen, werden Ihre Daten, einschließlich des transformierten Datasets und des endgültigen abgestimmten Modells, in der von Ihnen angegebenen Region gespeichert. Um verfügbare Hardwarebeschleuniger zu nutzen, kann die Berechnung auf andere Regionen innerhalb der US
- oder EU
-Multiregionen übertragen werden. Dieser Vorgang ist transparent und ändert nicht den Speicherort Ihrer Daten.
Sie können die Region für einen Tuning-Job auf folgende Arten angeben:
Vertex AI SDK: Geben Sie die Region an, wenn Sie den Client initialisieren.
import vertexai vertexai.init(project='myproject', location='us-central1')
REST API: Wenn Sie einen überwachten Job zur Feinabstimmung durch Senden einer POST
-Anfrage an die Methode tuningJobs.create
erstellen, verwenden Sie die URL, um die Region anzugeben. Ersetzen Sie beide Instanzen von TUNING_JOB_REGION
durch die Region, in der der Job ausgeführt wird.
https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
Google Cloud console: Wählen Sie im Workflow zur Modellerstellung auf der Seite Modelldetails die Region aus der Drop-down-Liste Region aus.
Kontingent
Kontingente begrenzen die Anzahl der gleichzeitigen Optimierungsjobs, die Sie ausführen können. Jedes Projekt hat ein Standardkontingent zum Ausführen mindestens eines Abstimmungsjobs. Dies ist ein globales Kontingent, das für alle verfügbaren Regionen und unterstützten Modelle gilt. Wenn Sie weitere Jobs gleichzeitig ausführen möchten, müssen Sie für Global concurrent tuning jobs
zusätzliche Kontingente anfordern.
Preise
Weitere Informationen zu den Preisen finden Sie unter Vertex AI-Preise.
- Kosten für die Optimierung: Die Kosten für die Optimierung werden berechnet, indem die Anzahl der Tokens in Ihrem Trainingsdataset mit der Anzahl der Epochen multipliziert wird.
- Inferenzkosten: Nach der Abstimmung gelten für Vorhersageanfragen an Ihr abgestimmtes Modell die Standardpreise für Inferenz. Die Inferenzpreise sind für alle stabilen Versionen von Gemini gleich. Weitere Informationen finden Sie unter Verfügbare stabile Gemini-Modellversionen.
Nächste Schritte