Jeśli z niecierpliwością czekałeś na najnowszą wiosenną aktualizację OpenAI dla ChatGPT i miałeś nadzieję, że firma wypuści GPT-5, byłbyś pod tym względem rozczarowany. Ale to, co zamiast tego wypuściło OpenAI, z nawiązką to zrekompensowało.
Firma zaprezentowała niedawno swój najnowszy flagowy model – GPT-4o – będący arcydziełem ludzkiej innowacyjności. Litera „o” w GPT-4o oznacza „omni” i jest trafnym ukłonem w stronę najnowszych, wszechobecnych możliwości ChatGPT. Chociaż nie ma dużej poprawy w zakresie inteligencji i rozumowania w porównaniu z modelem GPT-4, nowy model charakteryzuje się drastyczną poprawą szybkości i multimodalności.
Co to znaczy? GPT-4o ma ulepszone możliwości w zakresie tekstu, głosu i obrazu. Potrafi lepiej rozumieć i omawiać obrazy. Ale najbardziej ekscytującą częścią aktualizacji jest możliwość rozmowy z Tobą w czasie rzeczywistym za pośrednictwem dźwięku i obrazu, wprowadzając nas w przyszłość interakcji człowiek-maszyna. Większość z nas wyobrażała sobie tylko tę interakcję w stylu science-fiction z późniejszą sztuczną inteligencją. Ale jest tutaj i jest ekscytujący.
Mira Murati, CTO OpenAI, wraz z dwoma kierownikami badań, zaprezentowali nowe możliwości GPT-40.
Model głosu ma niesamowitą osobowość i tonację, dzięki czemu możesz zapomnieć (na chwilę), że masz do czynienia z sztuczną inteligencją. To strasznie ekscytujące. Reakcje są znacznie bardziej naturalne, a nawet śmieje się i udaje, że się rumieni jak człowiek.
Demo uwypukliło także zakres emocji, jakie ChatGPT może okazywać, gdy zostanie wyraźnie o to poproszony: Opowiadając historię, ChatGPT nasycił swój głos większą ilością emocji i dramatyzmu, przełączył się na dźwięk robota, a nawet zaśpiewał jak w musicalu i udało się wszystko bezproblemowo.
Wielu użytkowników twierdzi, że głos przypomina im sztuczną inteligencję Scarlett Johansson z filmu „Ona”, ale co ciekawe, jest to ten sam głos, który miał w przeszłości ChatGPT. Cała różnica wynika ze zmian w tonacji i dobrze umiejscowionych śmiechu.
Kiedy połączysz go z jego możliwościami przeglądania treści na ekranie i reagowania na nie, jest to po prostu oszałamiające. Dzięki nowym możliwościom widzenia ChatGPT mógł nie tylko zrozumieć takie rzeczy, jak równania liniowe, ale wykonał świetną robotę, interpretując otoczenie, a także emocje na twarzy osoby pokazanej mu za pomocą aparatu. Możesz teraz nawet grać w kamień, papier, nożyce i poprosić ChatGPT o to, aby był sędzią, lub pójść o krok dalej w przygotowaniach do rozmowy kwalifikacyjnej z ChatGPT, prosząc go o krytykę Twojego stroju, a to nie przyćmi żadnych złych wyborów, które dokonasz.
Ogólnie rzecz biorąc, efekt jest niezwykły i sprawia wrażenie, że masz wrażenie, że rozmawiasz z prawdziwą osobą podczas rozmowy wideo (to znaczy, jeśli druga osoba przez cały czas trzymała wyłączony aparat).
https://www.youtube.com/watch?v=DQacCB9tDaw
Model głosu jest również ogólnie lepszy od obecnie dostępnego. Dialog przebiega bardziej jak naturalna rozmowa, gdzie można go przerwać w środku, potrafi zrozumieć i rozróżnić wiele głosów i dźwięków tła oraz ton głosu.
Na poziomie technicznym dzieje się tak dlatego, że GPT-4o może natywnie robić wszystko, co do tej pory wymagało trzech różnych modeli: transkrypcji, inteligencji i zamiany tekstu na mowę. Te ulepszenia zapewniają użytkownikowi bardziej wciągające i oparte na współpracy wrażenia, zamiast opóźnień jak w poprzednich modelach.
Chociaż dostęp do GPT-4o już zaczyna być udostępniany użytkownikom darmowym i Plus w aplikacji internetowej, nowy tryb głosowy z GPT-4o zostanie uruchomiony w wersji alfa tylko dla użytkowników ChatGPT Plus w nadchodzących tygodniach. Wydawana jest także nowa aplikacja ChatGPT dla systemu macOS, do której dostęp będzie udostępniany iteracyjnie, począwszy od użytkowników ChatGPT Plus.
Chociaż wersja demonstracyjna zrobiła wrażenie, będziemy musieli poczekać, aby zobaczyć, czy aplikacja w świecie rzeczywistym będzie działać równie płynnie, gdy model zostanie ostatecznie wydany.
Dodaj komentarz