Data di pubblicazione: 22 maggio 2025
L'AI sta trasformando il modo in cui gli sviluppatori web creano siti web e applicazioni web. Al Google I/O 2025 abbiamo parlato dei progetti su cui abbiamo lavorato nell'ultimo anno, abbiamo mostrato in che modo i nostri partner utilizzano l'AI sul web e abbiamo annunciato nuove API di IA integrate.
Non hai partecipato all'evento? Buone notizie: ora puoi guardare i talk on demand.
AI integrata pratica con Gemini Nano in Chrome
La nostra missione principale è rendere Chrome e il web più intelligenti per tutti gli sviluppatori e tutti gli utenti. In questo intervento, Thomas Steiner condivide aggiornamenti sull'AI integrata, casi d'uso pratici e uno sguardo al nostro futuro.
L'IA integrata esegue modelli lato client nel browser, il che offre diversi vantaggi:
- Privato: i dati utente sensibili rimangono sul dispositivo e non è necessario uscire dal browser.
- Offline: le applicazioni possono accedere alle funzionalità di IA anche senza una connessione a internet.
- Elevate prestazioni: grazie all'accelerazione hardware, queste API offrono prestazioni eccellenti.
Dai un'occhiata agli esempi di codice per ciascuna delle API di IA integrate, ricevi un aggiornamento sul loro stato e scopri quali aziende stanno implementando questa tecnologia.
API multimodali
Stiamo lavorando a nuove API multimodali. Ciò significa che puoi chiedere a Gemini Nano cosa "vede" nei contenuti visivi o "ascolta" nei contenuti audio. Ad esempio, ricevere suggerimenti per il testo alternativo delle immagini caricate su una piattaforma di blog, che gli utenti possono perfezionare e modificare. In alternativa, puoi chiedere a Gemini Nano di scrivere descrizioni o trascrizioni per i podcast.
IA ibrida
Una delle sfide che gli sviluppatori devono affrontare con l'AI lato client è che non tutte le piattaforme e i browser soddisfano i requisiti hardware per eseguire un modello sul dispositivo. Gemini e Firebase hanno collaborato per creare l'SDK web di Firebase in modo che, quando le implementazioni lato client non sono disponibili, puoi eseguire il fallback su Gemini Nano su un server.
Collaborare con te
Siamo felici di aver collaborato con così tanti sviluppatori per le API di IA integrate. I nostri sforzi non sono possibili senza di te.
- Early Preview Program: più di 16.000 sviluppatori hanno aderito all'EPP, testando nuove API, scoprendo nuovi casi d'uso e fornendo feedback per creare un'AI migliore per il web.
- Hackathon: abbiamo organizzato due hackathon e voi avete creato siti web ed estensioni incredibili.
Il tuo lavoro non è finito. Continua a condividere il tuo feedback, a testare le nuove API integrate e noi continueremo a migliorare. Puoi anche contribuire a standardizzare queste API partecipando al gruppo della community Web Machine Learning del W3C.
Il futuro delle estensioni di Chrome con Gemini nel browser
Il numero di Estensioni basate sull'AI è raddoppiato negli ultimi due anni. Infatti, il 10% di tutte le estensioni installate dal Chrome Web Store utilizza l'IA. In questo intervento, Sebastian Benz fornisce esempi pratici del motivo per cui le estensioni di Chrome e Gemini sono una combinazione così efficace.
Gli esempi vanno da come rendere il browser più utile estraendo ed elaborando i dati dai siti web sul client utilizzando l'API prompt appena lanciata di Chrome.
Dimostrare il potenziale delle nuove funzionalità multimodali dell'API Prompt di Chrome nelle estensioni di Chrome per rendere l'audio e le immagini più accessibili agli utenti.
Per dare un'occhiata al futuro della navigazione, spiegando come Project Mariner di Google DeepMind utilizza le Estensioni di Chrome e le API Gemini Cloud più recenti per creare un agente del browser completo.
Scopri le potenzialità dell'utilizzo di Gemini nel cloud o nel browser nelle Estensioni di Chrome per creare nuove esperienze di navigazione e rendere il browser più utile.
Casi d'uso e strategie di IA web nel mondo reale
Yuriko Hirota e Swetha Gopalakrishnan hanno evidenziato esempi reali di aziende che utilizzano l'IA sul web per migliorare la propria attività ed esperienza utente.Che la soluzione utilizzi modelli lato client, lato server o una soluzione ibrida, ciò che conta sono le nuove funzioni e funzionalità entusiasmanti che puoi mettere a disposizione dei tuoi utenti, fin da subito.
BILIBILI ha reso più coinvolgenti i suoi streaming video con una nuova funzionalità: i commenti con elenco puntato. I commenti degli utenti vengono visualizzati in tempo reale nel video, dietro lo speaker. Per farlo, utilizzano la segmentazione delle immagini, un concetto di machine learning ben compreso. Come risultato, la durata della sessione è aumentata del 30%. Tokopedia ha ridotto le difficoltà della procedura di verifica dei venditori utilizzando un modello di rilevamento dei volti per valutare la qualità delle foto caricate. Di conseguenza, ha ridotto le approvazioni manuali di quasi il 70%.
Vision Nanny, una piattaforma web per bambini con disabilità visive cerebrali (CVI), offre attività di stimolazione visiva basate sull'IA. Utilizzano più librerie MediaPipe, tra cui il modello di rilevamento di punti di riferimento delle mani, che individua i punti chiave delle mani in un'immagine, in un video o in tempo reale. Un progetto pilota con 50 bambini ha dimostrato che Vision Nanny ha fornito risposte 5 volte più velocemente rispetto alle attività di stimolazione visiva manuali. I terapisti hanno dichiarato di risparmiare in media tre ore per sessione rimuovendo la configurazione manuale.
Google Meet offre diverse funzionalità basate sull'IA, dal miglioramento dell'illuminazione alla riduzione della sfocatura e della scarsa nitidezza dei video. La sfida più grande è che queste funzionalità devono funzionare in tempo reale. È qui che entra in gioco WebAssembly (Wasm), per sfruttare tutta la potenza della CPU di un computer e abilitare l'elaborazione di video in tempo reale.
Questi sono solo alcuni esempi reali di IA sul web. Diverse altre aziende hanno sperimentato le API di IA integrate, alcune delle quali hanno condiviso il proprio lavoro in case study.
Agenti di IA web lato client per creare esperienze utente future più intelligenti
Jason Mayes ha parlato del futuro di internet: gli agenti di IA web. Il web ha un futuro agente, che porta le funzionalità dell'IA direttamente nel browser per eseguire operazioni utili per tuo conto, oltre le capacità dei modelli linguistici di grandi dimensioni (LLM).
Con un approccio lato client, la privacy è migliorata, la latenza è ridotta e potrebbero essere possibili risparmi significativi sui costi. Gli agenti ti consentono di eseguire l'upgrade del tuo sito web esistente, di eseguire attività in modo autonomo per un utente, di selezionare e utilizzare dinamicamente gli strumenti esposti, potenzialmente in un loop, consentendo all'agente di completare attività potenzialmente complesse o in più passaggi.
Gli agenti possono:
- Pianifica e suddividi le attività secondarie, gestendo i problemi più complessi tramite una pianificazione in più passaggi per suddividere l'attività in passaggi logici da completare.
- Seleziona gli strumenti migliori, che si tratti di funzioni, utilizzo dell'API o accesso al datastore alle conoscenze di base del modello linguistico aumentato, quindi esegui azioni sul mondo esterno.
- Mantieni la memoria basata sul contesto, in base agli output precedenti dell'agente o strumenti esterni. La memoria a breve termine agisce come un buffer FIFO della cronologia del contesto fino alle dimensioni della finestra del contesto del modello, rispetto alla memoria a lungo termine in cui è possibile utilizzare un database di vettori per archiviare le informazioni da richiamare in base alle esigenze da sessioni di conversazione precedenti o da altre origini dati.
Gli agenti di IA web sono progettati per essere integrati nelle tecnologie web esistenti in JavaScript. In definitiva, è importante continuare ad accelerare il nostro hardware per eseguire al meglio i modelli nel browser. In futuro, tecnologie come WebNN avranno un ruolo chiave nell'ottimizzazione dell'esecuzione dei modelli su CPU, GPU e NPU. Con la tendenza verso LLM più piccoli e il continuo miglioramento, questo modello diventerà sempre più potente in futuro.
Valuta la possibilità di utilizzare un approccio ibrido, combinando l'elaborazione on-device con chiamate cloud strategiche, in modo da creare esperienze utente intelligenti, adattabili e personalizzate nel browser fin da subito. A breve, il ritorno sull'investimento nell'approccio di AI web dovrebbe ripagarsi man mano che i dispositivi diventano più capaci di eseguire LLM.
Aggiornamenti su Google I/O 2025
Abbiamo pubblicato tutti i talk di Google I/O 2025, con una playlist dedicata ai sviluppatori web. Guarda ancora di più su io.google/2025.