Google wprowadza Gemini Live, odpowiedź firmy na zaawansowany tryb głosowy ChatGPT

Wydarzenie Google Made by Google oficjalnie dobiegło końca, podczas którego firma zaprezentowała najnowszą linię flagowych smartfonów z serii Pixel. Młyn plotek ciężko pracował przez ostatnie kilka tygodni na ten temat i wiele plotek w końcu stało się rzeczywistością. Co więcej, zgodnie z oczekiwaniami, wydarzenie miało również więcej niż kilka – właściwie całkiem sporo – wzmianek o AI.

Wśród innych kwestii związanych ze sztuczną inteligencją, jednym z ważniejszych ogłoszeń było uruchomienie Gemini Live. Google ogłosiło Gemini Live na swojej konferencji I/O na początku tego roku. W końcu jest dostępne dla subskrybentów Gemini Advanced na Androidzie w języku angielskim, a wkrótce będzie dostępne w większej liczbie języków i iOS (za pośrednictwem aplikacji Google).

Dzięki Gemini Live Gemini jest teraz w stanie prowadzić bardziej naturalne, dwustronne konwersacje. Możesz również przerwać ją w środku odpowiedzi, tak jak w każdej naturalnej konwersacji. Możesz przejść do aplikacji Gemini na Androidzie, aby porozmawiać z chatbotem.

Jest to podobne do trybu Advanced Voice Mode w aplikacji ChatGPT, która jest teraz dostępna w ograniczonej wersji alfa dla użytkowników ChatGPT Plus. Po raz pierwszy Google wyprzedziło OpenAI w harmonogramie wydania, inicjując szersze wdrożenie.

Gemini Live jest również dostępny w trybie głośnomówiącym, więc możesz rozmawiać z Gemini w tle lub nawet wtedy, gdy telefon jest zablokowany. Możesz również opuścić rozmowy w trakcie i wrócić do nich później.

Google wprowadza Gemini Live z 10 nowymi głosami, dzięki którym Twoje rozmowy ze sztuczną inteligencją będą jeszcze bardziej autentyczne. Możesz wybrać głos i ton, które najbardziej Ci odpowiadają.

Warto zauważyć, że Gemini Live nie może symulować żadnego innego głosu niż 10 głosów dostępnych w aplikacji, prawdopodobnie w celu uniknięcia problemów z prawami autorskimi. ChatGPT-4o stosuje tę samą politykę. Jest jeden obszar, w którym Gemini Live nie jest takie samo jak Voice Mode ChatGPT-4o. Ten pierwszy nie potrafi zrozumieć emocji na podstawie tonu głosu, co OpenAI zademonstrował jako swój chatbot.

Co więcej, istnieje również jedna funkcja Gemini Live, którą Google zaprezentowało na konferencji I/O, która nie będzie dostępna podczas premiery. Tak, mówimy o wejściach multimodalnych. Jeśli nie wiesz, co to było, nie martw się. Oto podsumowanie: Dzięki wejściom multimodalnym Gemini Live może pobierać dane z aparatu telefonu (zarówno zdjęcia, jak i filmy) w czasie rzeczywistym i odpowiadać na wszelkie pytania lub pomagać w identyfikowaniu obiektów, na które wskazujesz. Na przykład możesz skierować go na sprzęt DJ-ski i poprosić o zidentyfikowanie nazwy części lub skierować go na ekran i zapytać, co robi określona część kodu.

Jednak możliwości multimodalne są na razie opóźnione, a Google poinformowało jedynie, że pojawią się one w tym roku, bez podania szczegółów. Co ciekawe, tryb Advanced Voice Mode ChatGPT-4o ma również podobne możliwości, ale nie zostały one wprowadzone wraz z ograniczoną wersją alfa.

Warto odnotować, że Gemini Live stanowi krok na drodze do urzeczywistnienia Projektu Astra przez Google.

Rozmowa z chatbotem jest czasami o wiele wygodniejsza niż pisanie czegoś na głos, zwłaszcza gdy chcesz coś wymyślić. A dzięki Gemini Live rozmowa może być o wiele bardziej płynna. Albo, jeśli pokazy na żywo z wydarzenia Made by Google mają być jakimkolwiek wskaźnikiem, wystarczająco płynna. (Chatbot najwyraźniej miał halucynacje podczas pokazu na żywo i jest pewne tarcie, gdy testuje się funkcję „przerwij Gemini w środku”). Zobaczmy, jak sobie poradzi w prawdziwym świecie, co? Przygotuj się na testowanie Gemini Live na swoim Pixelu, Samsungu lub innych urządzeniach z Androidem w nadchodzących tygodniach, zaczynając od dziś.