Niedawno wypróbowałem nowy model 3.5 Sonnet Claude’a, który jest najpotężniejszym modelem AI od Anthropic, a który według firmy może przewyższyć rywali, takich jak ChatGPT OpenAI. To śmiałe stwierdzenie, które Anthropic popiera kilkoma całkiem imponującymi testami porównawczymi.
Nowy model posiada również funkcje wizyjne, co pozwala na dostarczanie mu obrazów i dokumentów oraz wydobywanie z nich informacji. Potrafi także lepiej rozumieć emocje, takie jak humor, będąc przy tym znacznie szybszym. Wszystkie te elementy sprawiają, że Claude 3.5 jest głównym konkurentem nowego ChatGPT zasilanego przez GPT-40, który jest również multimodalnym modelem AI.
Podobnie jak Sonnet, ChatGPT-40 może używać danych wejściowych opartych na wizji oprócz danych tekstowych, aby udzielać odpowiedzi. Jest równie dobry w rozwiązywaniu problemów i posiada podobne możliwości konwersacyjne. Ponieważ oba nowe modele są tak zbliżone pod względem możliwości i wydajności, pytanie, które pojawia się w głowach wszystkich, brzmi, który z nich jest lepszy? Aby odpowiedzieć na to pytanie, postanowiłem szczegółowo porównać oba modele.
Wyodrębnianie informacji z dokumentów
Narzędzia AI są często używane do wyodrębniania informacji z dokumentów, takich jak pliki PDF, a następnie ich podsumowywania; postanowiłem więc najpierw sprawdzić, który z dwóch modeli może to zrobić skuteczniej. W tym celu przygotowałem dokument PDF o kwadratach dachowych, który napisałem jakiś czas temu, i przesłałem go do ChatGPT i Claude’a.
Następnie dałem im monit, summarize this document and provide me with the most important points discussed in it.
Oto co odkryłem. Nowy model Claude był znacznie szybszy niż ChatGPT i zaczął generować odpowiedź natychmiast po wysłaniu mojego żądania. Ponadto ściślej podążał za monitami, wymieniając ważne punkty na ponumerowanej liście. Jeśli masz mało czasu i chcesz tylko rzucić okiem na to, co zawiera dokument, to jest to, czego potrzebujesz.
Jednak mimo że był wolniejszy od Claude’a, wolałem odpowiedź ChatGPT w tym przypadku. Nie tylko wymienił najważniejsze punkty w dokumencie, ale także podzielił je na różne sekcje, takie jak Definicja i znaczenie, Obliczenia itd.
Jeśli potrzebujesz znaleźć konkretne informacje dotyczące pewnego aspektu tematu omawianego w dokumencie, sposób działania ChatGPT wydaje się być bardziej użyteczny. Nie musisz przechodzić przez wszystkie punkty i możesz po prostu spojrzeć na potrzebną sekcję. Informacje są dostarczane w sposób, który jest łatwiejszy do przejrzenia i przyswojenia.
Testowanie możliwości widzenia
Ponieważ jedną z kluczowych cech Claude 3.5 i ChatGPT-40 jest ich zdolność do korzystania z danych wizualnych i dostarczania informacji na ich podstawie, postanowiłem to przetestować, prosząc ich o wykonanie ręcznie pisanych instrukcji po ich przepisaniu. Poprosiłem modele AI o napisanie krótkiego wiersza podobnego do „Mrówki i świerszcza” Ezopa.
Chociaż nie określiłem tego na piśmie, chciałem, aby wynik był inspirowany wierszem, ale z innymi postaciami. Claude najpierw poprosił mnie o potwierdzenie mojej prośby napisanej odręcznie, a następnie kontynuował. Rezultat był całkiem dobry, bardzo zbliżony do oryginalnego wiersza, ale zawierał te same postacie. Czatbot AI zapytał mnie również, czy chcę innego podejścia lub jakichkolwiek modyfikacji wiersza po zakończeniu pisania wiersza.
ChatGPT nie wymagał ode mnie potwierdzenia mojej prośby, ale natychmiast przystąpił do jej realizacji. Napisany przez niego wiersz był również bardzo imponujący i zastąpił mrówkę i świerszcza z oryginalnego dzieła pszczołą i motylem, czego Claude nie zrobił. Uznałem również wersję ChatGPT za bardziej poetycką.
Tak więc w transkrypcji istnieje niewielka różnica w wynikach, ale obaj potrafią bardzo dobrze rozszyfrować i zrozumieć tekst pisany ręcznie i drukowany, nawet jeśli obrazy nie są zbyt wyraźne. Te potężne możliwości widzenia oznaczają również, że możesz używać tych narzędzi do zbierania informacji z wykresów i diagramów, co czyni je odpowiednimi do zadań matematycznych.
Opisywanie obrazów: Ponieważ oba modele mogą również wyodrębniać informacje z obrazów, musiałem również to wypróbować. Dostarczyłem Claude’owi i ChatGPT obraz tropikalnej wyspy i poprosiłem ich o jego opisanie. Jak widać, Claude przedstawia żywy opis obrazu, opisując każdy element na pierwszym planie i w tle bardzo wyraźnie, nawet te, których sam nie zauważyłem.
Wybór fraz i słów Claude’a do opisania obrazu również wydawał się bardziej znaczący, oddając sprawiedliwość obrazowi. Świetnie opisuje kolory, oświetlenie i przekazuje ogólne poczucie spokoju i ciszy, jakie generuje obraz.
Wyniki były bardziej skomplikowane w przypadku ChatGPT, który może opisywać obrazy, choć nie tak dobrze jak Claude. Model OpenAI ma tendencję do popełniania błędów, dodając elementy, których nie ma, co pokazuje, że nadal może mieć halucynacje. Ponadto, pierwotnie próbował opisać obraz na podstawie jego tytułu, a nie tego, co przedstawiał, ostatecznie uzyskując właściwy opis po wielu próbach.
Nawet wtedy opis, który z niego otrzymałem, nie mógł się równać z odpowiedzią Claude’a. Było to dość zaskakujące, ponieważ możliwości widzenia GPT-40 były jedną z największych atrakcji, jakie OpenAI zaprezentowało podczas premiery.
Generowanie i edycja treści
Następnie próbowałem sprawdzić, który model radzi sobie lepiej w generowaniu treści. Aby uzyskać jasny obraz ich wyników, postanowiłem generować treści wymagające prawdziwych faktów i danych, a także treści fikcyjne, które opierałyby się na kreatywności modelu AI.
Najpierw poprosiłem Claude’a i ChatGPT o napisanie szczegółowego artykułu na temat różnych skórek Androida, ponieważ jest to coś, o czym wiele osób chce wiedzieć, ale jest to bardzo subiektywny temat, ponieważ każdy ma swojego ulubionego. Użyłem polecenia Biorąc pod uwagę, Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
ile czasu spędzamy ze smartfonami, chciałem dowiedzieć się, jak dokładne są modele i ile informacji mogą one dostarczyć o każdej skórce.
Jak zwykle Claude był szybszy w udzielaniu odpowiedzi. Przedstawił przegląd wyjaśniający, czym są skórki Androida, co jest miłe, ale potem po prostu wymienił różne skórki z funkcjami, które oferują, w wypunktowanej liście. Należy pamiętać, że model dostarczył ten wynik, mimo że w swoim pytaniu wyraźnie wskazałem „szczegółowy artykuł”.
W przeciwieństwie do tego ChatGPT stworzył bardziej imponujący tytuł artykułu i dołączył krótkie wprowadzenie. Następnie wyjaśnił każdą skórkę w jej własnej sekcji, dzieląc każdą z nich na Przegląd, Kluczowe funkcje, Zalety i Wady.
Nie tylko dostarcza to bardziej kompleksowych informacji, ale pozwala dokładnie poznać porównanie różnych skórek. Na koniec artykuł kończy się właściwym wnioskiem. Podczas gdy liczba skórek, o których wspomniał ChatGPT, była mniejsza niż tych wymienionych przez Claude’a, tutaj jakość ma większe znaczenie niż ilość.
Chociaż ChatGPT wypadł lepiej niż Claude w tym przypadku, ten drugi może również generować dobrą treść, jak odkryłem w moich poprzednich testach. Może to zależeć od tematu lub sposobu sformułowania polecenia. Dlatego dałem obu modelom kolejne polecenie, tym razem używając polecenia. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
Dało mi to również okazję, aby zobaczyć, jak dobrze modele rozumieją i potrafią przekazywać humor.
Tym razem wyniki były bardzo zbliżone, a oba modele tworzyły naprawdę zabawne historie. Obie historie miały wspólne elementy, takie jak ironia i komedia fizyczna. W fikcji osobiste preferencje są potężnym czynnikiem i ogólnie rzecz biorąc, uważam, że twórczość Claude’a była nieco lepsza, szczególnie sposób, w jaki bawiła się słowami, aby wygenerować humor.
Ale jak wspomniałem wcześniej, historia ChatGPT była również przyjemna w czytaniu i była nieco dłuższa niż Claude’a. Jej zakończenie było również bardziej treściwe. Tak więc zarówno Claude, jak i ChatGPT byli w stanie wygenerować dobrą treść fikcyjną, jednocześnie włączając elementy humorystyczne zgodnie z moim poleceniem.
Edycja treści: Generowanie treści to tylko jedna część procesu. Aby naprawdę dowiedzieć się, co model AI może zrobić w odniesieniu do treści, musisz również przetestować jego możliwości edycji treści, co właśnie zrobiłem. W tym celu dostarczyłem Claude’owi i ChatGPT tekst na temat handlu społecznościowego i dałem im polecenie:Can you expand this article while also proofreading and improving it?
Ulepszając artykuł, Claude zaczął od wprowadzenia, następnie napisał o ewolucji Social Commerce, a na końcu dodał inne sekcje, rozszerzając każdą z nich, jak uznał za stosowne. Model wykorzystywał również ponumerowane listy i punkty wypunktowania, gdy uznano to za konieczne w celu poprawy czytelności.
Odpowiedź ChatGPT była podobna do wcześniejszych, w których podzielono treść na różne sekcje z różnymi podtytułami. Nie użyto żadnych list, ale zachowano informacje w formie akapitów. Jeśli chodzi o zmiany i ulepszenia, zauważyłem, że Claude wprowadził bardziej drastyczne zmiany w artykule niż ChatGPT, ale końcowy wynik był również znacznie lepszy. Ostatecznie uznałem, że możliwości edycji Sonnet są bardziej wydajne i znacznie lepiej dostosowane do mojego przepływu pracy.
Umiejętność kodowania
Żadne porównanie modeli AI nie jest kompletne bez uwzględnienia ich zdolności kodowania. Podczas gdy Claude został specjalnie opracowany, aby pomóc programistom pisać lepszy kod szybko i łatwo, nowy ChatGPT zasilany przez GPT-40 również nie jest czymś, na co można patrzeć z góry, jeśli chodzi o kodowanie.
Aby przetestować ich zdolność generowania kodu, poprosiłem Claude’a i ChatGPT o Generate code for a simple game that can help beginners learn programming.
Podczas gdy obaj pisali kod w Pythonie, Claude ukończył generowanie kodu szybciej, zgodnie z oczekiwaniami. Wyświetlał cały kod po prawej stronie ekranu, a elementy takie jak Funkcje i Zmienne wyjaśniał po lewej.
Co mi się najbardziej podobało w odpowiedzi Claude’a, to fakt, że zawierała ona również przycisk, który pozwala natychmiast przejść do kodu, dzięki czemu można go łatwo sprawdzić. Ponadto chatbot poinformował mnie o wymaganiach potrzebnych do uruchomienia kodu, wraz z instrukcjami. Jeśli chodzi o sam kod, był dość łatwy do zrozumienia i działał doskonale, gdy go testowałem.
Przechodząc do odpowiedzi ChatGPT, był on również w stanie wygenerować prosty, ale funkcjonalny kod, o który prosiłem. Pod kodem chatbot dostarczył kroki potrzebne do uruchomienia gry, a także koncepcje, które obejmuje kod, ułatwiając początkującym zrozumienie. Ogólnie rzecz biorąc, wyniki były dość podobne dla obu modeli w tym przypadku, chociaż Claude wyjaśnił więcej elementów i miał opcję, dzięki której można było poprosić go o szczegółowe wyjaśnienie dowolnej części kodu.
Umiejętności matematyczne
Na koniec dałem Claude’owi i ChatGPT zadanie matematyczne do rozwiązania, aby zobaczyć, jak im poszło i który z nich jest szybszy. Pytanie obejmowało równania algebraiczne, ale nie było szczególnie trudne. Oba modele zaczynały się od wyjaśnienia, co zrobić w pierwszym kroku, chociaż ich podejście było inne. Claude kontynuował rozszerzanie równania i ostatecznie powiedział mi, że całkowite rozwiązanie problemu wymagało użycia kalkulatora graficznego lub systemu algebry komputerowej.
To powiedziawszy, podał liczbę potencjalnych rozwiązań problemu. Natomiast ChatGPT rozwiązał problem w całości i podał mi wszystkie możliwe rozwiązania. To wskazuje, że jeśli chodzi o zdolności matematyczne, ChatGPT-4o wyprzedza Sonnet.
Ostateczny werdykt – Claude Sonnet 3.5 czy ChatGPT-4o: Kto wygrał?
Wybór między Claude 3.5 a ChatGPT-4o nie jest łatwy, ale ostatecznie tylko jeden może być zwycięzcą, a dla mnie musi to być nowy model Sonnet. Jest nie tylko znacznie szybszy niż ChatGPT, ale także zapewnia dokładniejsze odpowiedzi. Szczególnie podobało mi się, jak dobrze opisywał obrazy i podejmował działania związane z nimi.
Claude nie miał też ani razu halucynacji podczas mojego korzystania z niego, co jest kolejnym argumentem na jego korzyść, a jego reakcje były ogólnie bliższe moim instrukcjom. Mimo że nie działał tak, jak się spodziewałem w jednym przypadku, gdy chciałem szczegółowej treści, korzystanie z niego w celu uzyskania informacji, których chciałem, było ogólnie łatwiejsze i wymagało mniej wysiłku.
Wypróbowując zarówno Claude 3.5 Sonnet, jak i ChatGPT-40, odkryłem, że oba są wyjątkowo dobrymi modelami AI, które są bardzo zbliżone pod względem wydajności. Podczas gdy Sonnet wykonuje niektóre zadania lepiej, ChatGPT zapewnia lepsze wyniki w innych. Powinieneś zrozumieć, że określenie, który z nich jest lepszy, będzie zależało od Twojego indywidualnego przypadku użycia.
Ponadto oba darmowe modele są ograniczone pod względem tego, co potrafią. Tak więc, jeśli chcesz regularnie korzystać z któregokolwiek z AI, polecam wykupienie płatnej subskrypcji, aby uzyskać najlepsze rezultaty.
Dodaj komentarz