Comportamento dei criteri di avviso basati su metriche

Questo documento descrive in che modo i periodi di allineamento e le finestre di ripetizione del test determinano quando una condizione viene soddisfatta, in che modo i criteri di avviso combinano più condizioni e in che modo i criteri di avviso sostituiscono i punti dati mancanti. Descrive anche il numero massimo di incidenti aperti per una policy, il numero di notifiche per incidente e le cause dei ritardi nelle notifiche.

Questi contenuti non si applicano ai criteri di avviso basati su log. Per informazioni sui criteri di avviso basati su log, vedi Monitorare i log.

Periodi di allineamento e finestre di ritest

Cloud Monitoring valuta il periodo di allineamento e la finestra di nuovo test quando determina se la condizione di un criterio di avviso è stata soddisfatta.

Periodo allineamento

Prima che i dati delle serie temporali vengano monitorati da una criterio di avviso, devono essere regolarizzati in modo che lacriterio di avvisoo disponga di dati a intervalli regolari da valutare. Il processo di regolarizzazione è chiamato allineamento.

L'allineamento prevede due passaggi:

  • Dividere la serie temporale in intervalli di tempo regolari, operazione chiamata anche raggruppamento dei dati. L'intervallo è il periodo di allineamento.

  • Calcolo di un singolo valore per i punti nel periodo di allineamento. Scegli come viene calcolato questo singolo punto: puoi sommare tutti i valori, calcolarne la media o utilizzare il valore massimo. La funzione che combina i punti dati è chiamata allineatore. Il risultato della combinazione è il valore allineato.

    Per ulteriori informazioni sull'allineamento, vedi Allineamento: regolarizzazione all'interno della serie.

Ad esempio, quando il periodo di allineamento è di cinque minuti, alle 13:00 il periodo di allineamento contiene i campioni ricevuti tra le 12:55 e le 13:00. Alle 13:01, il periodo di allineamento scorre di un minuto e contiene i campioni ricevuti tra le 12:56 e le 13:01.

Il monitoraggio configura un periodo di allineamento nel seguente modo:

Console Google Cloud

Configura il periodo di allineamento scegliendo un valore per i seguenti campi nella pagina Condizioni avviso:

  • Finestra temporale: specifica l'intervallo di tempo da valutare.
  • Funzione finestra temporale continua: specifica la funzione matematica da eseguire sulla finestra di punti dati.

Per ulteriori informazioni sulle funzioni disponibili, consulta Aligner nel riferimento API. Alcune funzioni di allineamento allineano i dati e li convertono da un tipo o genere di metrica a un altro. Per una spiegazione dettagliata, vedi Tipi e conversioni.

API

Configura il periodo di allineamento impostando i campi aggregations.alignmentPeriod e aggregations.perSeriesAligner nelle strutture MetricThreshold e MetricAbsence.

Per ulteriori informazioni sulle funzioni disponibili, consulta Aligner nel riferimento API. Alcune funzioni di allineamento allineano i dati e li convertono da un tipo o genere di metrica a un altro. Per una spiegazione dettagliata, vedi Tipi e conversioni.

Per illustrare l'effetto del periodo di allineamento su una condizione in un criterio di avviso, considera una condizione di soglia metrica che monitora una metrica con un periodo di campionamento di un minuto. Supponiamo che il periodo di allineamento sia impostato su cinque minuti e che l'allineatore sia impostato su sum. Supponi inoltre che la condizione sia soddisfatta quando il valore allineato della serie temporale è maggiore di 2 per almeno tre minuti e che la condizione venga valutata ogni minuto. In questo esempio, la finestra di riprova, descritta nella sezione successiva, è di tre minuti. La seguente figura illustra diverse valutazioni sequenziali della condizione:

Figura che illustra l'effetto del periodo di allineamento sulla finestra/durata del nuovo test.

Ogni riga della figura illustra una singola valutazione della condizione. Vengono mostrati i dati delle serie temporali. I punti nel periodo di allineamento sono mostrati con punti blu; i punti più vecchi sono neri. Ogni riga mostra il valore allineato e se questo valore è maggiore della soglia di 2. Per la riga etichettata start, il valore allineato è pari a 1, che è inferiore alla soglia. Nella valutazione successiva, la somma dei campioni nel periodo di allineamento è pari a due. Nella terza valutazione, la somma è tre e, poiché questo valore è maggiore della soglia, viene avviato un timer per la finestra di rianalisi.

Finestre di ripetizione test

La condizione di un criterio di avviso ha una finestra di test, che impedisce che la condizione venga soddisfatta a causa di una singola misurazione o previsione. Ad esempio, supponiamo che la finestra di ritest di una condizione sia impostata su 15 minuti. Di seguito viene descritto il comportamento della condizione in base al relativo tipo:

  • Le condizioni di soglia metrica vengono soddisfatte quando, per una singola serie temporale, ogni misurazione allineata in un intervallo di 15 minuti viola la soglia.
  • Le condizioni di assenza di metriche vengono soddisfatte quando non arrivano dati per una serie temporale in un intervallo di 15 minuti.
  • Le condizioni di previsione vengono soddisfatte quando ogni previsione prodotta durante un intervallo di 15 minuti prevede che la serie temporale supererà la soglia entro l'intervallo di previsione.

Per le policy con una condizione, viene aperto un incidente e vengono inviate notifiche quando la condizione viene soddisfatta. Questi incidenti rimangono aperti finché la condizione continua a essere soddisfatta.

Console Google Cloud

Configura la finestra di ripetizione del test utilizzando il campo Finestra di ripetizione del test nel passaggio Configura attivatore di avvisi.

API

Configura la finestra di ripetizione del test impostando il campo denominato duration nelle strutture MetricThreshold e MetricAbsence.

La figura precedente mostrava tre valutazioni di una condizione di soglia della metrica. Al momento start + 2 minutes, il valore allineato è superiore alla soglia; tuttavia, la condizione non è soddisfatta perché la finestra di test è impostata su tre minuti. La figura seguente illustra i risultati delle successive valutazioni della condizione:

Figura che illustra l'effetto della finestra di ritest.

Anche se il valore allineato è maggiore della soglia al momento start + 2 minutes, la condizione non viene soddisfatta finché il valore allineato non è maggiore della soglia per tre minuti. Questo evento si verifica all'ora start + 5 minutes.

Una condizione reimposta la finestra di nuovo test ogni volta che una misurazione o una previsione non soddisfa la condizione. Questo comportamento è illustrato nell'esempio seguente:

Esempio: questa criterio di avviso contiene una condizione di soglia della metrica che specifica una finestra di nuovo test di cinque minuti.

Se la latenza della risposta HTTP è superiore a due secondi,
e se la latenza è superiore alla soglia per cinque minuti,
apri un incidente e invia un'email al tuo team di assistenza.

La seguente sequenza illustra in che modo la finestra di riprova influisce sulla valutazione della condizione:

  1. La latenza HTTP è inferiore a due secondi.
  2. Per i tre minuti consecutivi successivi, la latenza HTTP è superiore a due secondi.
  3. Nella misurazione successiva, la latenza è inferiore a due secondi, quindi la condizione reimposta la finestra di nuovo test.
  4. Nei cinque minuti consecutivi successivi, la latenza HTTP è superiore a due secondi, quindi la condizione è soddisfatta.

    Poiché il criterio di avviso ha una condizione, Monitoring invia notifiche quando la condizione viene soddisfatta.

Imposta la finestra di ripetizione del test in modo che sia sufficientemente lunga da ridurre al minimo i falsi positivi, ma abbastanza breve da verificare che gli incidenti vengano aperti in modo tempestivo.

Best practice per l'impostazione del periodo di allineamento e della finestra di riprova

Il periodo di allineamento determina il numero di campioni combinati con l'allineatore:

  • Il valore minimo del periodo di allineamento per un tipo di metrica è il periodo di campionamento di quel tipo di metrica. Ad esempio, se il tipo di metrica viene campionato ogni 300 secondi, il periodo di allineamento deve essere di almeno 300 secondi. Tuttavia, se vuoi combinare 5 campioni, imposta il periodo di allineamento su 5 * 300 secondi o 1500 secondi.

  • Il valore massimo del periodo di allineamento è 24 ore meno il ritardo di importazione del tipo di metrica. Ad esempio, se il ritardo di importazione per una metrica è di 6 ore, il valore massimo del periodo di allineamento è di 18 ore.

Utilizza la finestra di ripetizione del test per specificare la reattività dell'avviso. Ad esempio, se imposti la finestra di nuovo test su 20 minuti per una condizione di assenza di metrica�, non devono essere presenti dati per 20 minuti prima che la condizione venga soddisfatta. Per un criterio di avviso più reattivo, imposta la finestra di nuovo test su un valore più piccolo. Per le condizioni di soglia metrica, per avere la criterio di avviso più reattiva, imposta la finestra di nuovo test su zero. Un singolo valore allineato fa sì che questi tipi di condizioni vengano soddisfatte.

Le condizioni dei criteri di avviso vengono valutate a una frequenza fissa. Le scelte che fai per il periodo di allineamento e la finestra di ri-test non determinano la frequenza con cui viene valutata la condizione.

Norme con più condizioni

Un criterio di avviso può contenere fino a 6 condizioni.

Se utilizzi l'API Cloud Monitoring o se la tua criterio di avviso ha più condizioni, devi specificare quando viene aperto un incidente. Per configurare la modalità di combinazione di più condizioni, esegui una delle seguenti operazioni:

Console Google Cloud

Configura le opzioni di combinazione nel passaggio Trigger per più condizioni.

API

Configura le opzioni del combinatore con il campo combiner della struttura AlertPolicy.

Questa tabella elenca le impostazioni nella console Google Cloud , il valore equivalente nell'API Cloud Monitoring e una descrizione di ciascuna impostazione:

Valore dei trigger delle norme dellaGoogle Cloud console
API Cloud Monitoring
combiner value
Significato
Qualsiasi condizione è soddisfatta OR Viene aperto un incidente se una risorsa soddisfa una delle condizioni.
Tutte le condizioni sono soddisfatte
anche per risorse diverse per ogni condizione

(impostazione predefinita)
AND Viene aperto un incidente per ogni condizione soddisfatta quando tutte le condizioni sono soddisfatte, anche se una risorsa diversa fa sì che queste condizioni siano soddisfatte.
Tutte le condizioni sono soddisfatte AND_WITH_MATCHING_RESOURCE Viene aperto un incidente per ogni condizione soddisfatta quando sono soddisfatte tutte le condizioni, solo se la stessa risorsa fa sì che ogni condizione venga soddisfatta. Questa impostazione è la combinazione più rigorosa.

In questo contesto, il termine soddisfatta significa che la configurazione della condizione restituisce il valore true. Ad esempio, se la configurazione è Any time series is greater than 10 for 5 minutes, quando questa istruzione restituisce il valore true, la condizione è soddisfatta.

Esempio

Considera un progetto Google Cloud che contiene due istanze VM, vm1 e vm2. Supponiamo inoltre di creare un criterio di avviso con due condizioni:

  • La condizione denominata CPU usage is too high monitora l'utilizzo della CPU delle istanze. Questa condizione viene soddisfatta quando l'utilizzo della CPU di qualsiasi istanza è superiore a 100 ms/s per 1 minuto.
  • La condizione denominata Excessive utilization monitora l'utilizzo della CPU delle istanze. Questa condizione viene soddisfatta quando l'utilizzo della CPU di qualsiasi istanza è superiore al 60% per 1 minuto.

Inizialmente, supponi che entrambe le condizioni restituiscano il valore false.

Successivamente, supponi che l'utilizzo della CPU di vm1 superi 100 ms/s per 1 minuto. Poiché l'utilizzo della CPU è superiore alla soglia per un minuto, la condizione CPU usage is too high è soddisfatta. Se le condizioni sono combinate con Una condizione è soddisfatta, viene creato un incidente perché una condizione è soddisfatta. Se le condizioni sono combinate con Tutte le condizioni sono soddisfatte o Tutte le condizioni sono soddisfatte anche per risorse diverse per ogni condizione, non viene creato alcun incidente. Queste scelte di combinazione richiedono che entrambe le condizioni siano soddisfatte.

Supponiamo poi che l'utilizzo della CPU di vm1 rimanga superiore a 100 ms/s e che l'utilizzo della CPU di vm2 superi il 60% per 1 minuto. Il risultato è che entrambe le condizioni sono soddisfatte. Di seguito viene descritto cosa accade in base alla modalità di combinazione delle condizioni:

  • Una condizione è soddisfatta: viene creato un incidente quando una risorsa soddisfa una condizione. In questo esempio, vm2 soddisfa la condizione Excessive utilization.

    Se vm2 soddisfa la condizione CPU usage is too high, viene creato anche un incidente. Viene creato un incidente perché vm1 e vm2 che soddisfano la condizione CPU usage is too high sono eventi distinti.

  • Tutte le condizioni sono soddisfatte anche per risorse diverse per ogni condizione: Viene creato un incidente perché entrambe le condizioni sono soddisfatte.

  • Tutte le condizioni sono soddisfatte: non viene creato un incidente perché questo combinatore richiede che la stessa risorsa soddisfi tutte le condizioni. In questo esempio, non viene creato alcun incidente perché vm1 soddisfa CPU usage is too high mentre vm2 soddisfa Excessive utilization.

Dati parziali delle metriche

Quando i dati delle serie temporali smettono di arrivare o quando i dati vengono ritardati, Monitoring classifica i dati come mancanti. I dati mancanti possono impedire la chiusura degli incidenti. I ritardi nell'arrivo dei dati dai provider di servizi cloud di terze parti possono arrivare fino a 30 minuti, con ritardi di 5-15 minuti più comuni. Un ritardo prolungato, superiore al periodo di riprova, può far sì che le condizioni entrino in uno stato "sconosciuto". Quando i dati arrivano, Monitoraggio potrebbe aver perso parte della cronologia recente delle condizioni. Un'ispezione successiva dei dati delle serie temporali potrebbe non rivelare questo problema perché non ci sono prove di ritardi una volta che i dati arrivano.

Console Google Cloud

Puoi configurare il modo in cui Monitoring valuta una condizione di soglia della metrica quando i dati smettono di arrivare. Ad esempio, quando un incidente è aperto e una misurazione prevista non arriva, vuoi che Monitoring lasci l'incidente aperto o lo chiuda immediatamente? Analogamente, quando i dati smettono di arrivare e non è aperto alcun incidente, vuoi che venga aperto un incidente? Infine, per quanto tempo deve rimanere aperto un incidente dopo l'interruzione dell'arrivo dei dati?

Esistono due campi configurabili che specificano in che modo Monitoring valuta le condizioni di soglia delle metriche quando i dati smettono di arrivare:

  • Per configurare il modo in cui Monitoring determina il valore di sostituzione per i dati mancanti, utilizza il campo Valutazione dei dati mancanti, che hai impostato nel passaggio Trigger di condizione. Questo campo è disabilitato quando la finestra di ripetizione del test è impostata su Nessun nuovo test.

    La finestra di nuovo test è il campo denominato durata nell'API Cloud Monitoring.

  • Per configurare il tempo di attesa del monitoraggio prima di chiudere un incidente aperto dopo l'interruzione dell'arrivo dei dati, utilizza il campo Durata chiusura automatica incidenti. Hai impostato la durata della chiusura automatica nel passaggio Notifica. La durata di chiusura automatica predefinita è di sette giorni.

Di seguito sono descritte le diverse opzioni per il campo dei dati mancanti:

Google Cloud console
Campo "Valutazione dei dati mancanti"
Riepilogo Dettagli
Missing data empty Gli incidenti aperti rimangono aperti.
Non vengono aperti nuovi incidenti.

Per le condizioni soddisfatte, la condizione continua a essere soddisfatta quando i dati smettono di arrivare. Se è aperto un incidente per questa condizione, l'incidente rimane aperto. Quando un incidente è aperto e non arrivano dati, il timer di chiusura automatica si avvia dopo un ritardo di almeno 15 minuti. Se il timer scade, l'incidente viene chiuso.

Per le condizioni che non vengono soddisfatte, la condizione continua a non essere soddisfatta quando i dati smettono di arrivare.

Punti dati mancanti trattati come valori che violano la condizione delle norme Gli incidenti aperti rimangono aperti.
È possibile aprire nuovi incidenti.

Per le condizioni soddisfatte, la condizione continua a essere soddisfatta quando i dati smettono di arrivare. Se è aperto un incidente per questa condizione, l'incidente rimane aperto. Quando un incidente è aperto e non arrivano dati per la durata della chiusura automatica più 24 ore, l'incidente viene chiuso.

Per le condizioni che non vengono soddisfatte, questa impostazione fa sì che la condizione di soglia metrica si comporti come un metric-absence condition. Se i dati non arrivano nel periodo di tempo specificato dalla finestra di ripetizione del test, la condizione viene valutata come soddisfatta. Per un criterio di avviso con una condizione, il soddisfacimento della condizione comporta l'apertura di un incidente.

Punti dati mancanti trattati come valori che non violano la condizione dei criteri Gli incidenti aperti vengono chiusi.
Non vengono aperti nuovi incidenti.

Per le condizioni soddisfatte, la condizione non viene più soddisfatta quando i dati smettono di arrivare. Se per questa condizione è aperto un incidente, questo viene chiuso.

Per le condizioni che non vengono soddisfatte, la condizione continua a non essere soddisfatta quando i dati smettono di arrivare.

API

Puoi configurare il modo in cui Monitoring valuta una condizione di soglia della metrica quando i dati smettono di arrivare. Ad esempio, quando un incidente è aperto e una misurazione prevista non arriva, vuoi che Monitoring lasci l'incidente aperto o lo chiuda immediatamente? Analogamente, quando i dati smettono di arrivare e non è aperto alcun incidente, vuoi che venga aperto un incidente? Infine, per quanto tempo deve rimanere aperto un incidente dopo l'interruzione dell'arrivo dei dati?

Esistono due campi configurabili che specificano in che modo Monitoring valuta le condizioni di soglia delle metriche quando i dati smettono di arrivare:

  • Per configurare il modo in cui Monitoring determina il valore di sostituzione per i dati mancanti, utilizza il campo evaluationMissingData della struttura MetricThreshold. Questo campo viene ignorato quando il campo duration è zero.

  • Per configurare il tempo di attesa di Monitoring prima di chiudere un problema aperto dopo l'interruzione dell'arrivo dei dati, utilizza il campo autoClose nella struttura AlertStrategy.

Di seguito sono descritte le diverse opzioni per il campo dei dati mancanti:

Campo API
evaluationMissingData
Riepilogo Dettagli
EVALUATION_MISSING_DATA_UNSPECIFIED Gli incidenti aperti rimangono aperti.
Non vengono aperti nuovi incidenti.

Per le condizioni soddisfatte, la condizione continua a essere soddisfatta quando i dati smettono di arrivare. Se è aperto un incidente per questa condizione, l'incidente rimane aperto. Quando un incidente è aperto e non arrivano dati, il timer di chiusura automatica si avvia dopo un ritardo di almeno 15 minuti. Se il timer scade, l'incidente viene chiuso.

Per le condizioni che non vengono soddisfatte, la condizione continua a non essere soddisfatta quando i dati smettono di arrivare.

EVALUATION_MISSING_DATA_ACTIVE Gli incidenti aperti rimangono aperti.
È possibile aprire nuovi incidenti.

Per le condizioni soddisfatte, la condizione continua a essere soddisfatta quando i dati smettono di arrivare. Se è aperto un incidente per questa condizione, l'incidente rimane aperto. Quando un incidente è aperto e non arrivano dati per la durata della chiusura automatica più 24 ore, l'incidente viene chiuso.

Per le condizioni che non vengono soddisfatte, questa impostazione fa sì che la condizione di soglia metrica si comporti come un metric-absence condition. Se i dati non arrivano nel periodo di tempo specificato dal campo `duration`, la condizione viene valutata come soddisfatta. Per un criterio di avviso con una condizione, il soddisfacimento della condizione comporta l'apertura di un incidente.

EVALUATION_MISSING_DATA_INACTIVE Gli incidenti aperti vengono chiusi.
Non vengono aperti nuovi incidenti.

Per le condizioni soddisfatte, la condizione non viene più soddisfatta quando i dati smettono di arrivare. Se per questa condizione è aperto un incidente, questo viene chiuso.

Per le condizioni che non vengono soddisfatte, la condizione continua a non essere soddisfatta quando i dati smettono di arrivare.

Puoi ridurre al minimo i problemi dovuti alla mancanza di dati effettuando una delle seguenti operazioni:

  • Contatta il tuo provider cloud di terze parti per identificare i modi per ridurre la latenza di raccolta delle metriche.
  • Utilizza finestre di ritest più lunghe nelle condizioni. L'utilizzo di una finestra di nuovo test più lunga ha lo svantaggio di rendere meno reattivi i criteri di avviso.
  • Scegli metriche con un ritardo di raccolta inferiore:

    • Metriche dell'agente di monitoraggio, soprattutto quando l'agente è in esecuzione su istanze VM in cloud di terze parti.
    • Metriche personalizzate, quando scrivi i relativi dati direttamente in Monitoring.
    • Metriche basate su log, se la raccolta delle voci di log non è ritardata.

Per ulteriori informazioni, consulta Panoramica dell'agente di monitoraggio, Panoramica delle metriche definite dall'utente e Metriche basate su log.

Quando Monitoring invia notifiche e crea incidenti

Cloud Monitoring invia una notifica quando una serie temporale soddisfa una condizione. La notifica viene inviata a tutti i canali di notifica. Non puoi limitare una notifica a un canale specifico o a un sottoinsieme dei canali dei tuoi criteri.

Se configuri notifiche ripetute, la stessa notifica viene inviata nuovamente a canali di notifica specifici per il tuo criterio di avviso.

Potresti ricevere più notifiche uniche relative a un criterio di avviso quando si verifica una delle seguenti condizioni:

  • Una condizione monitora più serie temporali.

  • Un criterio contiene più condizioni. In questo caso, le notifiche che ricevi dipendono dal valore del trigger multicondizione del criterio di avviso:

    • Tutte le condizioni sono soddisfatte: quando tutte le condizioni sono soddisfatte, per ogni serie temporale che soddisfa una condizione, il criterio di avviso invia una notifica e crea un incidente.

      Non puoi configurare Cloud Monitoring in modo che crei un solo incidente e invii una sola notifica quando la criterio di avviso contiene più condizioni.

    • Qualsiasi condizione è soddisfatta: il criterio di avviso invia una notifica quando una serie temporale fa sì che la condizione venga soddisfatta.

    Per ulteriori informazioni, consulta Norme con più condizioni.

I criteri di avviso creati utilizzando l'API Cloud Monitoring ti inviano una notifica quando la condizione viene soddisfatta e quando non viene più soddisfatta. Le policy di avviso create utilizzando la console Google Cloud non inviano una notifica quando la condizione non viene più soddisfatta, a meno che tu non abbia attivato questo comportamento.

Quando il monitoraggio non invia notifiche o non crea incidenti

Nelle seguenti situazioni, Monitoring non crea incidenti né invia notifiche quando le condizioni di unacriterio di avvisoo vengono soddisfatte:

  • Il criterio di avviso è disabilitato.
  • Il criterio di avviso è posticipato.
  • Il monitoraggio ha raggiunto il limite per il numero massimo di incidenti aperti.

Policy di avviso disattivate

Il monitoraggio non invia la creazione di incidenti né notifiche per le policy di avviso disattivate. Tuttavia, Monitoring continua a valutare le condizioni di unacriterio di avvisoo disattivata.

Quando attivi un criterio disattivato, il monitoraggio valuta i valori di tutte le condizioni nell'intervallo di test più recente. La finestra di ritest più recente potrebbe includere dati acquisiti prima, durante e dopo l'attivazione della norma. Le condizioni di un criterio disattivato possono essere soddisfatte immediatamente dopo la riattivazione, anche con finestre di ritest di grandi dimensioni.

Ad esempio, supponiamo che tu abbia una criterio di avviso che monitora un processo specifico e che tu la disattivi. La settimana successiva, il processo non funziona e, poiché la criterio di avviso è disattivata, non ricevi notifiche. Se riavvii il processo e attivi immediatamente il criterio di avviso, Monitoring riconosce che il processo non è attivo negli ultimi cinque minuti e apre un incidente.

Gli incidenti correlati a un criterio di avviso disattivato rimangono aperti finché non scade la durata di chiusura automatica del criterio.

Criteri di avviso posticipati

Il monitoraggio non invia notifiche né crea incidenti per una criterio di avviso posticipata. Ti consigliamo di posticipare i criteri di avviso quando vuoi impedire che un criterio di avviso invii notifiche solo per intervalli brevi. Ad esempio, prima di eseguire la manutenzione di una macchina virtuale (VM), puoi creare un posticipo e aggiungere ai criteri di posticipo le policy di avviso che monitorano l'istanza.

Quando posticipi una criterio di avviso, Monitoring chiude tutti gli incidenti aperti correlati alla policy. Il monitoraggio può aprire nuovi incidenti dopo la scadenza del posticipo. Per informazioni, vedi Posticipare notifiche e incidenti.

Limiti per le notifiche e gli incidenti aperti

Un criterio di avviso può essere applicato a molte risorse e un problema che interessa tutte le risorse può causare l'apertura di incidenti per ogni risorsa. Viene aperto un incidente per ogni serie temporale che soddisfa una condizione.

Per evitare di sovraccaricare il sistema, il numero di incidenti che una singola norma può aprire contemporaneamente è limitato a 1000.

Ad esempio, considera un criterio che si applica a 2000 istanze di Compute Engine e ogni istanza fa sì che le condizioni di avviso vengano soddisfatte. Il monitoraggio limita il numero di incidenti aperti a 1000. Le condizioni rimanenti soddisfatte vengono ignorate finché alcuni degli incidenti aperti per questa policy non vengono chiusi.

A causa di questo limite, un singolo canale di notifica può ricevere fino a 1000 notifiche contemporaneamente. Se il tuo criterio di avviso ha più canali di notifica, questo limite si applica a ciascun canale di notifica in modo indipendente.

Latenza

Latenza si riferisce al ritardo tra il momento in cui Monitoring campiona una metrica e il momento in cui il punto dati della metrica diventa visibile come dati delle serie temporali. La latenza influisce sul momento in cui vengono inviate le notifiche. Ad esempio, se una metrica monitorata ha una latenza fino a 180 secondi, allora il monitoraggio non creerà un incidente fino a 180 secondi dopo che la condizione del criterio di avviso restituisce true. Per maggiori informazioni, consulta la sezione Latenza dei dati delle metriche.

I seguenti eventi e impostazioni contribuiscono alla latenza:

  • Ritardo nella raccolta delle metriche: il tempo necessario a Monitoring per raccogliere i valori delle metriche. Per i valori Google Cloud , la maggior parte delle metriche non è visibile per 60 secondi dopo la raccolta; tuttavia, il ritardo dipende dalla metrica. I calcoli dei criteri di avviso richiedono un ritardo aggiuntivo fino a 5 minuti e 30 secondi. Per le metriche AWS CloudWatch, il ritardo di visibilità può essere di diversi minuti. Per i controlli dell'uptime, questo può essere una media di due minuti (dalla fine della finestra di nuovo test).

  • Finestra di ripetizione test: la finestra configurata per la condizione. Le condizioni vengono soddisfatte solo quando una condizione è vera durante l'intero periodo di ritest. Ad esempio, un'impostazione della finestra di ritest di cinque minuti causa ritardi nella notifica di almeno cinque minuti dal momento in cui si verifica l'evento.

  • Tempo necessario per la ricezione della notifica: i canali di notifica, come email e SMS, potrebbero subire latenze di rete o di altro tipo (non correlate a ciò che viene inviato), a volte anche di diversi minuti. Su alcuni canali, come SMS e Slack, non è garantita la consegna dei messaggi.

Passaggi successivi