Obejrzyj nasze wystąpienia dotyczące AI na konferencji I/O 2025

Data publikacji: 22 maja 2025 r.

AI zmienia sposób, w jaki programiści tworzą strony i aplikacje internetowe. Podczas konferencji Google I/O 2025 przedstawiliśmy nasze osiągnięcia z ostatniego roku, pokazaliśmy, jak nasi partnerzy wykorzystują AI w internecie, i ogłosiliśmy nowe wbudowane interfejsy AI.

Ominęło Cię wydarzenie? Mamy dobrą wiadomość – możesz teraz obejrzeć wykłady na żądanie.

Praktyczne zastosowanie wbudowanej AI w Gemini Nano w Chrome

Naszą główną misją jest uczynienie Chrome i sieci bardziej inteligentnymi dla wszystkich deweloperów i użytkowników. W tym wystąpieniu Thomas Steiner przedstawi informacje o wbudowanej AI, praktyczne zastosowania i wizję przyszłości.

Wbudowana AI uruchamia modele po stronie klienta w przeglądarce, co ma kilka zalet:

  • Prywatny: wrażliwe dane użytkownika pozostają na urządzeniu i nigdy nie opuszczają przeglądarki.
  • Offline: aplikacje mogą korzystać z funkcji AI nawet bez połączenia z internetem.
  • Wysoka wydajność: dzięki akceleracji sprzętowej te interfejsy API zapewniają wysoką wydajność.

Zapoznaj się z przykładami kodu dla każdego z wbudowanych interfejsów API AI, sprawdź ich stan i sprawdź, które firmy implementują tę technologię.

Interfejsy API multimodalne

Pracujemy nad zupełnie nowymi interfejsami API multimodalnymi. Oznacza to, że możesz zapytać Gemini Nano o to, co „widzi” w treściach wizualnych lub „słyszy” w treściach audio. Na przykład możesz otrzymywać sugestie dotyczące tekstu alternatywnego dla przesłanych obrazów na platformie blogowej, które użytkownicy mogą dostosować. Możesz też poprosić Gemini Nano o napisanie opisów lub transkrypcji podcastów.

Hybrydowa AI

Jednym z wyzwań, z którymi deweloperzy mierzą się w przypadku AI po stronie klienta, jest to, że nie wszystkie platformy i przeglądarki spełniają wymagania sprzętowe dotyczące uruchamiania modelu na urządzeniu. Gemini i Firebase nawiązały współpracę, aby stworzyć pakiet Firebase Web SDK, dzięki któremu w przypadku niedostępności implementacji po stronie klienta możesz przejść na Gemini Nano na serwerze.

Współpraca z Tobą

Cieszymy się, że mogliśmy współpracować z tak wieloma deweloperami nad wbudowanymi interfejsami API do AI. Bez Was nasze działania nie byłyby możliwe.

  • Program wczesnego testowania: ponad 16 tys. programistów dołączyło do EPP, aby testować nowe interfejsy API, odkrywać nowe przypadki użycia i przekazywać opinie na temat ulepszania AI w internecie.
  • Hackathony: odbyły się 2 hackathony, podczas których uczestnicy stworzyli niesamowite witryny i rozszerzenia.

Twoja praca się nie kończy. Będziemy nadal ulepszać interfejsy API, więc prosimy o przesyłanie opinii i testowanie nowych wbudowanych interfejsów API. Możesz nawet pomóc w standaryzacji tych interfejsów API, dołączając do grupy W3C Web Machine Learning Community.

Przyszłość rozszerzeń Chrome z Gemini w Twojej przeglądarce

Liczba rozszerzeń opartych na sztucznej inteligencji podwoiła się w ciągu ostatnich 2 lat. W zależności od tego, jaką wersję Chrome Web Store masz zainstalowaną, 10% wszystkich rozszerzeń korzysta z AI. W tej prezentacji Sebastian Benz podaje praktyczne przykłady, które pokazują, dlaczego rozszerzenia do Chrome i Gemini stanowią tak potężne połączenie.

Przykłady obejmują sposoby na to, jak ulepszyć przeglądarkę, wyodrębniając i przetwarzając dane z witryn internetowych na kliencie za pomocą nowego interfejsu prompt API w Chrome.

Demonstracja możliwości nowych interfejsów API do wyświetlania promptów w Chrome w rozszerzeniach do Chrome, które ułatwiają użytkownikom dostęp do dźwięku i obrazów.

Poznasz przyszłość przeglądania dzięki omówieniu tego, jak projekt Mariner firmy Google DeepMind korzysta z rozszerzeń Chrome i najnowszych interfejsów Gemini Cloud API do tworzenia pełnego agenta przeglądarki.

Odkryj możliwości wykorzystania Gemini w chmurze lub w przeglądarce w rozszerzeniach Chrome, aby tworzyć nowe wrażenia podczas przeglądania i uczynić przeglądarkę bardziej przydatną.

Przypadki użycia AI w internecie i strategie dotyczące jego wykorzystania w praktyce

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota i Swetha Gopalakrishnan przedstawili praktyczne przykłady firm, które używają AI w internecie do usprawniania działania firmy i zapewniania lepszych wrażeń użytkownikom.Niezależnie od tego, czy ich rozwiązanie korzysta z modeli po stronie klienta, po stronie serwera czy hybrydowego, ważne są nowe, ekscytujące funkcje, które możesz udostępnić użytkownikom już teraz.

BILIBILI zwiększyła atrakcyjność swoich transmisji wideo dzięki nowej funkcji: komentarzom na ekranie z punktami. Umożliwiają wyświetlanie komentarzy użytkowników w czasie rzeczywistym w filmie, renderowanych za mówcą. W tym celu wykorzystują podział obrazu, czyli dobrze zrozumianą koncepcję uczenia maszynowego. W efekcie czas trwania sesji wydłużył się o 30%. Firma Tokopedia zmniejszyła trudności związane z weryfikacją sprzedawców, wykorzystując model wykrywania twarzy do oceny jakości przesyłanych zdjęć. W efekcie udało im się zmniejszyć liczbę ręcznych zatwierdzeń o prawie 70%.

Vision Nanny to internetowa platforma dla dzieci z zaburzeniami widzenia mózgowego (CVI), która oferuje stymulujące wzrok ćwiczenia oparte na AI. Korzystają one z różnych bibliotek MediaPipe, w tym z modelu wykrywania punktów charakterystycznych dłoni, który lokalizuje kluczowe punkty dłoni na obrazie, w filmie lub w czasie rzeczywistym. W ramach pilotażowego badania z udziałem 50 dzieci wykazano, że Vision Nanny zapewnia 5 razy szybsze reakcje niż manualne stymulowanie wzrokowe. Terapeuci zgłaszali, że dzięki usunięciu ręcznej konfiguracji oszczędzają średnio 3 godziny na sesję.

Google Meet ma kilka funkcji opartych na AI, od poprawy oświetlenia po zmniejszanie rozmycia i nieostrości filmów. Największym wyzwaniem jest to, że te funkcje muszą działać w czasie rzeczywistym. Właśnie w tym celu powstała technologia WebAssembly (Wasm), która pozwala w pełni wykorzystać moc procesora komputera i umożliwia przetwarzanie wideo w czasie rzeczywistym.

To tylko kilka przykładów rzeczywistego zastosowania AI w internecie. Kilka innych firm eksperymentowało z wbudowanymi interfejsami AI, a niektóre z nich opowiedziały o swoich projektach w studiach przypadków.

Uczenie maszynowe po stronie klienta w celu tworzenia inteligentniejszych interakcji z użytkownikiem

Jason Mayes opowiedział o przyszłości internetu: internetowych agentach AI. Internet ma przed sobą przyszłość, w której funkcje AI będą dostępne bezpośrednio w przeglądarce, aby wykonywać przydatne czynności w Twoim imieniu, wykraczając poza możliwości dużych modeli językowych (LLM).

Dzięki podejściu po stronie klienta można uzyskać większą prywatność, mniejsze opóźnienia i potencjalnie znaczne oszczędności. Dzięki agentom możesz ulepszać istniejące strony internetowe, aby wykonywały zadania samodzielnie w imieniu użytkownika, dynamicznie wybierając i korzystając z dostępnych narzędzi (np. w pętli), co pozwala im wykonywać potencjalnie skomplikowane zadania wieloetapowe.

Pracownicy obsługi klienta mogą:

  • Planuj i dziel zadania na podzadania, rozwiązując bardziej złożone problemy dzięki planowaniu wieloetapowemu, które pozwala podzielić zadanie na logiczne etapy.
  • Wybierz najlepsze narzędzia, takie jak funkcje, użycie interfejsu API czy dostęp do bazy wiedzy rozszerzonej modelu językowego, a następnie wykonaj działania w środowisku zewnętrznym.
  • Zachowuj pamięć na podstawie kontekstu na podstawie wcześniejszych wyników działania agenta lub narzędzi zewnętrznych. Pamięć krótkotrwała działa jak bufor FIFO historii kontekstu do rozmiaru okna kontekstowego modelu, a pamięć długotrwała wykorzystuje bazę danych wektorów do przechowywania informacji, które mogą być przywoływane w miarę potrzeby z poprzednich sesji konwersacji lub innych źródeł danych.

Agenty AI do przeglądarek są przeznaczone do integracji z dotychczasowymi technologiami internetowymi w JavaScript. W ostatecznym rozrachunku ważne jest, abyśmy nadal przyspieszali działanie sprzętu, aby modele działały jak najlepiej w przeglądarce. W przyszłości technologie takie jak WebNN będą odgrywać kluczową rolę w optymalizacji wykonywania modeli na procesorach CPU, GPU i NPU. W związku z trendem na rzecz mniejszych modeli LLM i ich ciągłego ulepszania, w przyszłości będą one jeszcze bardziej zaawansowane.

Rozważ użycie podejścia hybrydowego, łączącego przetwarzanie na urządzeniu z strategicznymi wywołaniami w chmurze, aby już teraz tworzyć inteligentne, responsywne i spersonalizowane wrażenia użytkownika w przeglądarce. Wkrótce zwrot z inwestycji w AI w internecie powinien się zwrócić, ponieważ urządzenia będą lepiej obsługiwać modele LLM.

Aktualności z Google I/O 2025

Opublikowaliśmy wszystkie wystąpienia z Google I/O 2025, w tym playlistę dla webmasterów. Zobacz jeszcze więcej na stronie io.google/2025.