W świecie technologii Sundar Pichai, dyrektor generalny Google, właśnie rzucił na stół asa w postaci Gemini 2.0. To kolejny krok w ambitnej podróży firmy, by zrewolucjonizować sztuczną inteligencję. Czy tym razem uda się przełamać bariery technologiczne i stworzyć prawdziwie uniwersalnego asystenta?
Rok po premierze Gemini 1.0, Google wprowadza model, który według Pichaia ma być przełomowy. Jak sam mówi: „Jeśli Gemini 1.0 pomagał organizować i rozumieć informacje, to Gemini 2.0 czyni je naprawdę użytecznymi”. Cóż, brzmi obiecująco.
Pierwsza wersja Gemini, wydana w grudniu 2022 roku, już wtedy przykuła uwagę – był to pierwszy natywnie multimodalny model AI od Google. Teksty, obrazy, filmy, dźwięki, kod – wszystko to potrafiło przeprocesować bez problemu. Wersja 1.5 poszła dalej, dodając rozumienie długiego kontekstu, co pozwoliło na rozwój aplikacji takich jak NotebookLM. Teraz jednak Gemini 2.0 przenosi tę funkcjonalność na zupełnie nowy poziom.
Pichai nazywa to „erą agentów”. AI nie tylko rozumie więcej, ale też planuje, podejmuje decyzje i działa – wszystko pod czujnym okiem użytkownika. Brzmi jak coś między asystentem a futurystycznym pomocnikiem znanym z filmów science fiction. Czy to jeszcze technologia, czy już magia?
Najważniejszym elementem ogłoszenia jest premiera Gemini 2.0 Flash – flagowego modelu nowej generacji. Jest szybki, inteligentny i… wielozadaniowy. Obsługuje multimodalne wejścia i wyjścia, tworząc obrazy czy wielojęzyczne nagrania audio w czasie rzeczywistym. Ma również wbudowane narzędzia, takie jak integracja z Google Search czy funkcje definiowane przez użytkownika.
Deweloperzy mogą już testować Gemini 2.0 Flash przez Google AI Studio i Vertex AI. Większe wersje modelu mają być dostępne w styczniu 2024 roku. Co więcej, aplikacja Gemini zyskała funkcję czatu zoptymalizowaną pod kątem nowego modelu – dostępna na komputerach i smartfonach.
Nowe możliwości – i to nie tylko w teorii
Google wprowadza również zestaw narzędzi, które wykorzystują możliwości Gemini 2.0. Jednym z nich jest Deep Research – asystent badawczy, który potrafi tworzyć złożone raporty na trudne tematy. Ulepszono również funkcję wyszukiwania, która teraz radzi sobie z bardziej skomplikowanymi pytaniami, jak zaawansowane problemy matematyczne czy programistyczne.
Gemini 2.0 korzysta z potężnych procesorów Tensor Processing Units (TPUs) szóstej generacji, znanych jako Trillium. Pichai podkreślił, że ten sprzęt „napędzał 100% treningu i działania Gemini 2.0”. Co więcej, teraz te same procesory są dostępne dla zewnętrznych deweloperów.
Google testuje również eksperymentalne projekty, które wykorzystują możliwości Gemini 2.0. Oto kilka przykładów:
- Project Astra – uniwersalny asystent AI, testowany przez użytkowników Androida. Astra łączy multimodalność z funkcjami jak pamięć dialogowa i integracja z Google Maps czy Lens.
- Project Mariner – pomocnik przeglądania internetu, który analizuje tekst, obrazy i interaktywne elementy na stronach. W testach osiągnął 83,5% skuteczności na benchmarku WebVoyager.
- Jules – asystent kodowania dla programistów, który pomaga w pracy na GitHubie, proponując rozwiązania i generując kod.
Nie zapomniano także o grach. Współpraca z partnerami, takimi jak Supercell, zaowocowała wprowadzeniem inteligentnych agentów, którzy mogą analizować rozgrywkę w czasie rzeczywistym i sugerować strategie.
Rozwój Gemini 2.0 nie odbył się bez refleksji nad bezpieczeństwem i etyką. Model przeszedł gruntowne testy, a wbudowane mechanizmy chronią użytkowników przed potencjalnymi zagrożeniami. Google wprowadziło m.in. funkcje odporne na ataki phishingowe oraz opcje zarządzania prywatnością w projektach takich jak Astra.
Sundar Pichai zakończył swoje wystąpienie słowami: „Wierzymy, że jedynym sposobem budowania AI jest odpowiedzialność od samego początku”.
Czy Gemini 2.0 rzeczywiście zmieni sposób, w jaki współpracujemy z technologią? Przyszłość pokaże, ale jedno jest pewne – Google nie zamierza zatrzymać się na drodze ku agentom przyszłości.