Recenzja zaawansowanego trybu głosowego ChatGPT: zabawny i imponujący, ale wciąż niebędący prawdziwym przełomem

W maju demonstracja trybu Advanced Voice Mode firmy OpenAI oczarowała publiczność, wywołując falę ekscytacji. Jednak ten początkowy dreszczyk emocji szybko przerodził się w rozczarowanie, gdy ujawniono, że funkcja ta nie będzie dostępna do końca tego roku.

Przewińmy do przodu o kilka miesięcy, a OpenAI udostępniło Advanced Voice Mode wszystkim użytkownikom ChatGPT, w tym zarówno darmowym, jak i płatnym subskrybentom. Teraz, gdy technologia jest dostępna do szerszego użytku, nadszedł czas, aby ocenić jej wydajność i sprawdzić, czy spełnia wysokie oczekiwania wywołane przez początkową prezentację.

Ocena możliwości i ograniczeń

Wyczuwalne poczucie rozczarowania pojawiło się u użytkowników, którzy oczekiwali, że Advanced Voice Mode będzie odzwierciedlał imponujące funkcjonalności pokazane we wcześniejszej wersji demonstracyjnej. Kluczowe funkcje, takie jak multimodalność, łączność internetowa i możliwości przesyłania plików, są zauważalnie nieobecne. Pomimo wdrożenia ChatGPT Search, tryb głosowy nadal nie zapewnia dostępu do Internetu w czasie rzeczywistym i aktualizacji.

Ponadto brak możliwości kontynuowania rozmów głosowych z poprzednich interakcji tekstowych ogranicza jego praktyczność. Ta wada ostro kontrastuje z obiecującymi możliwościami podkreślanymi podczas demonstracji, skłaniając użytkowników do życzenia funkcji, które pozostają niezrealizowane.

Ulepszenia w przepływie konwersacji

Pomimo swoich ograniczeń, Advanced Voice Mode wykazuje znaczące ulepszenia w stosunku do swojego poprzednika. Rozmowy wydają się bardziej organiczne, a użytkownicy mogą przerywać, nie czekając, aż AI „pomyśli”, co tworzy bardziej angażujące doświadczenie.

Podczas gdy niektórzy spekulują na temat procesów back-end nowego trybu głosowego, moje doświadczenie sugeruje, że opóźnienie między mówieniem a otrzymaniem odpowiedzi jest minimalne. Ta bezpośredniość sprzyja poczuciu dialogu podobnego do ludzkiej konwersacji.

Możliwość przełączania się między językami, w tym hindi, pendżabskim, angielskim i francuskim, jest również godna pochwały. Jednak czasami trudno jest odróżnić hindi od pendżabskiego, a tryb głosowy mógłby skorzystać z funkcji transkrypcji na żywo do nauki języków.

Różnorodne i angażujące opcje głosowe

Wybór głosów ChatGPT poprawia doświadczenia użytkownika. Obecnie oferuje następujące głosy:

Arbor (M) – Wygodny i wszechstronny
Vale (F) – Jasna i dociekliwa
Breeze (M) – animowany i poważny
Sol (F) – doświadczony i zrelaksowany
Klon (F) – wesoły i szczery
Cove (M) – skomponowany i bezpośredni
Ember (M) – Pewna siebie i optymistyczna
Jałowiec (F) – otwarty i optymistyczny
Świerk (M) – Spokojny i potwierdzający

Żywa natura tych głosów sprawia, że interakcje są o wiele przyjemniejsze w porównaniu do rozwiązań oferowanych przez konkurencję, np. Gemini Live i Copilot, którym brakuje podobnej płynności konwersacji.

Wyzwania związane z ograniczeniami

Chociaż tryb głosowy może skutecznie przekazywać emocjonalne niuanse w opowiadaniu historii, nie spełnia oczekiwań ze względu na zbyt surowe ograniczenia. We wcześniejszej wersji demonstracyjnej użytkownicy doświadczyli szerszego zakresu możliwości, w tym możliwości śpiewania, która została usunięta, aby uniknąć potencjalnych naruszeń praw autorskich.

Niestety, te ograniczenia odciągają od całościowego doświadczenia. Użytkownicy mogą napotkać odmowy na rozsądne prośby, takie jak generowanie dialogów do ćwiczeń aktorskich, co wywołuje frustrację. Advanced Voice Mode może czasami spełnić pewne kreatywne prośby z odrobiną podpowiedzi, ale często uważa, że niespójność utrudnia jego użyteczność.

Zdolności pamięciowe i świadomość kontekstu

Godną uwagi cechą Advanced Voice Mode jest możliwość przywoływania informacji. Nie pozwala jednak na śledzenie rozmów głosowych w istniejących czatach zawierających tekst lub obrazy, co jest znacznym ograniczeniem.

Dla porównania, Gemini Live obsługuje ciągły dialog niezależnie od poprzednich kontekstów czatu, co wskazuje na obszar, w którym OpenAI może wymagać udoskonalenia, aby skutecznie konkurować.

Szybkie czasy reakcji

Podczas gdy szybkie odpowiedzi wzmacniają dynamikę konwersacji, czasami mogą zakłócić jej przebieg. AI ma tendencję do błędnego interpretowania pauz jako zaproszenia do odpowiedzi, co prowadzi do przerw, które mogą wykoleić tok myślenia użytkownika.

Funkcja umożliwiająca użytkownikom sygnalizowanie dłuższych przerw, podobnie jak przycisk „Wstrzymaj”, znacznie zwiększyłaby naturalność tych interakcji.

Okazjonalne drobne usterki

Większość interakcji z Advanced Voice Mode przebiega płynnie, ale użytkownicy mogą czasami napotkać drobne usterki, takie jak krótkie szumy lub nieoczekiwane zmiany głosu. Chociaż te problemy są na ogół niewielkie, mogą czasami zakłócać działanie użytkownika.

Rozważania dotyczące kosztów i dostępności

Advanced Voice Mode jest dostępny w ramach bezpłatnego planu ChatGPT przez około 15 minut miesięcznie, ale pełny dostęp wymaga subskrypcji. Kontrastuje to z konkurentami, takimi jak Copilot i Gemini Live, którzy oferują swoje funkcje głosowe bezpłatnie dla użytkowników.

Opłata abonamentowa oraz brak takich funkcji jak dostęp do Internetu, które można znaleźć w innych modelach, rodzą pytania o wartość tej usługi, zwłaszcza dla użytkowników zainteresowanych wyłącznie funkcjami głosowymi.

Ocena końcowa

Chociaż Advanced Voice Mode niewątpliwie szczyci się imponującymi osiągnięciami technologicznymi, obecnie nie spełnia obietnic zawartych w wersji demonstracyjnej. Jego praktyczne zastosowania są ograniczone, a bez znaczących udoskonaleń służy bardziej jako nowość niż niezbędne narzędzie.

Dla tych, którzy już zasubskrybowali ChatGPT dla funkcji takich jak Canvas, Search lub model rozumowania, Advanced Voice Mode może służyć jako przyjemny dodatek. Jednak sam w sobie może nie uzasadniać subskrypcji.

Źródło i obrazy