Google wprowadza Gemini Live, odpowiedź firmy na zaawansowany tryb głosowy ChatGPT

Google wprowadza Gemini Live, odpowiedź firmy na zaawansowany tryb głosowy ChatGPT

Wydarzenie Google Made by Google oficjalnie dobiegło końca, podczas którego firma zaprezentowała najnowszą linię flagowych smartfonów z serii Pixel. Młyn plotek ciężko pracował przez ostatnie kilka tygodni na ten temat i wiele plotek w końcu stało się rzeczywistością. Co więcej, zgodnie z oczekiwaniami, wydarzenie miało również więcej niż kilka – właściwie całkiem sporo – wzmianek o AI.

Wśród innych kwestii związanych ze sztuczną inteligencją, jednym z ważniejszych ogłoszeń było uruchomienie Gemini Live. Google ogłosiło Gemini Live na swojej konferencji I/O na początku tego roku. W końcu jest dostępne dla subskrybentów Gemini Advanced na Androidzie w języku angielskim, a wkrótce będzie dostępne w większej liczbie języków i iOS (za pośrednictwem aplikacji Google).

Dzięki Gemini Live Gemini jest teraz w stanie prowadzić bardziej naturalne, dwustronne konwersacje. Możesz również przerwać ją w środku odpowiedzi, tak jak w każdej naturalnej konwersacji. Możesz przejść do aplikacji Gemini na Androidzie, aby porozmawiać z chatbotem.

Jest to podobne do trybu Advanced Voice Mode w aplikacji ChatGPT, która jest teraz dostępna w ograniczonej wersji alfa dla użytkowników ChatGPT Plus. Po raz pierwszy Google wyprzedziło OpenAI w harmonogramie wydania, inicjując szersze wdrożenie.

Gemini Live jest również dostępny w trybie głośnomówiącym, więc możesz rozmawiać z Gemini w tle lub nawet wtedy, gdy telefon jest zablokowany. Możesz również opuścić rozmowy w trakcie i wrócić do nich później.

Google wprowadza Gemini Live z 10 nowymi głosami, dzięki którym Twoje rozmowy ze sztuczną inteligencją będą jeszcze bardziej autentyczne. Możesz wybrać głos i ton, które najbardziej Ci odpowiadają.

Warto zauważyć, że Gemini Live nie może symulować żadnego innego głosu niż 10 głosów dostępnych w aplikacji, prawdopodobnie w celu uniknięcia problemów z prawami autorskimi. ChatGPT-4o stosuje tę samą politykę. Jest jeden obszar, w którym Gemini Live nie jest takie samo jak Voice Mode ChatGPT-4o. Ten pierwszy nie potrafi zrozumieć emocji na podstawie tonu głosu, co OpenAI zademonstrował jako swój chatbot.

Co więcej, istnieje również jedna funkcja Gemini Live, którą Google zaprezentowało na konferencji I/O, która nie będzie dostępna podczas premiery. Tak, mówimy o wejściach multimodalnych. Jeśli nie wiesz, co to było, nie martw się. Oto podsumowanie: Dzięki wejściom multimodalnym Gemini Live może pobierać dane z aparatu telefonu (zarówno zdjęcia, jak i filmy) w czasie rzeczywistym i odpowiadać na wszelkie pytania lub pomagać w identyfikowaniu obiektów, na które wskazujesz. Na przykład możesz skierować go na sprzęt DJ-ski i poprosić o zidentyfikowanie nazwy części lub skierować go na ekran i zapytać, co robi określona część kodu.

Jednak możliwości multimodalne są na razie opóźnione, a Google poinformowało jedynie, że pojawią się one w tym roku, bez podania szczegółów. Co ciekawe, tryb Advanced Voice Mode ChatGPT-4o ma również podobne możliwości, ale nie zostały one wprowadzone wraz z ograniczoną wersją alfa.

Warto odnotować, że Gemini Live stanowi krok na drodze do urzeczywistnienia Projektu Astra przez Google.

Rozmowa z chatbotem jest czasami o wiele wygodniejsza niż pisanie czegoś na głos, zwłaszcza gdy chcesz coś wymyślić. A dzięki Gemini Live rozmowa może być o wiele bardziej płynna. Albo, jeśli pokazy na żywo z wydarzenia Made by Google mają być jakimkolwiek wskaźnikiem, wystarczająco płynna. (Chatbot najwyraźniej miał halucynacje podczas pokazu na żywo i jest pewne tarcie, gdy testuje się funkcję „przerwij Gemini w środku”). Zobaczmy, jak sobie poradzi w prawdziwym świecie, co? Przygotuj się na testowanie Gemini Live na swoim Pixelu, Samsungu lub innych urządzeniach z Androidem w nadchodzących tygodniach, zaczynając od dziś.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *