Sonet Claude 3.5 wydany przez Anthropic: Nowy i imponujący model sztucznej inteligencji

Niedawno Anthropic wprowadził ulepszenia do swojego wiodącego modelu, Claude 3.5 Sonnet, który mógł umknąć uwadze z powodu innych znaczących aktualizacji, takich jak Computer Use i Analysis tool. Jednak zaktualizowany Claude 3.5 Sonnet wprowadza kilka godnych uwagi ulepszeń.

Chociaż Computer Use stanowi znaczący postęp, jego przyjęcie wśród użytkowników jest nadal ograniczone. Wynika to przede wszystkim z faktu, że jest na wczesnym etapie rozwoju i nie ma pełnej niezawodności. Ponadto jego dostępność ogranicza się do korzystania z API, co czyni go mniej przystępnym dla szerszej publiczności.

Natomiast nowy Claude 3.5 Sonnet jest dostępny do natychmiastowego użycia i oferuje znacznie lepszą wydajność. Czym więc dokładnie wyróżnia się ten zaktualizowany 3.5 Sonnet?

Raport Anthropic podkreśla, że najnowszy Claude 3.5 Sonnet wykazał znaczące ulepszenia w porównaniu z poprzednimi modelami i wieloma konkurentami w testach porównawczych w branży. Postępy w kodowaniu agentowym i wykorzystaniu narzędzi są szczególnie imponujące. Na przykład zwiększył dokładność kodowania agentowego z 33,4% do 49% w weryfikacji SWE-bench, a w przypadku wykorzystania narzędzi agentowych w teście TAU-bench wzrósł z 51,0% do 69,2% w handlu detalicznym i z 22,8% do 46,0% w sektorze lotniczym. Co godne uwagi, te ulepszenia są osiągane przy tym samym koszcie i szybkości, co w przypadku poprzednika.

Aktualizacja sonetu Claude 3.5 — Źródło: Anthropic

Po przeprowadzeniu oceny sonet Claude’a 3.5 (nowy), który niektórzy użytkownicy nazywają sonetem 3.6 z powodu mylącej nazwy, wykazuje znaczące postępy, zwłaszcza w zakresie kodowania, rozumowania i możliwości kreatywnego pisania.

Wcześniej uznawany za jednego z najlepszych wykonawców kodowania, Claude poczynił znaczne postępy dzięki tej aktualizacji, teraz jest w stanie rozwiązywać bardzo złożone problemy w ramach jednej odpowiedzi. Ulepszył również swoją zdolność do korygowania poprzednich błędów.

Użytkownicy przekonają się, że nowy Claude 3.5 Sonnet zapewnia znacznie szybsze odpowiedzi, co rozwiązuje problemy występujące w przypadku poprzedniej wersji, w której wydajność wyraźnie się pogorszyła.

Claude udoskonalił również swoje umiejętności rozumowania, porównując je do modelu o1 OpenAI. Choć może nie dorównywać o1 w skomplikowanych zadaniach rozumowania, pozostaje kompetentny w przypadku prostszych wyzwań rozumowania.

Aby przeprowadzić angażujący test rozumowania Claude’a, spróbuj zadać mu pytanie: How many words are in your response to this prompt?. Warto zauważyć, że modele architektury transformatorowej często mają problemy z takimi podpowiedziami ze względu na konieczność przewidywania kolejnych słów. Jednak ta podpowiedź zachęca model do wcześniejszego opracowania strategii.

Model o1 OpenAI znakomicie radzi sobie z tym pytaniem. Chociaż nowy Claude 3.5 Sonnet nie dorównuje w pełni możliwościom o1, znacznie przewyższa starszą wersję Claude. Wcześniej Claude mógł zgadywać, ale teraz próbuje dokładnie liczyć słowa — choć nie bierze pod uwagę wszystkich na równi. Ostatecznie to, czy odpowiedź Claude’a zostanie uznana za poprawną, będzie zależało od osobistej interpretacji.

Let me count the words in my response to your question: This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8). There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

Zgodnie z podanym przykładem niektórzy użytkownicy mogą twierdzić, że Claude dokładnie policzył słowa, w których rozważał swoją odpowiedź. Wyjaśnia, że wszelkie kolejne słowa nie stanowią części odpowiedzi, ponieważ po prostu rozwijają proces rozumowania. Podczas gdy niektórzy mogą przeoczyć pominięcie wstępnej frazy „Pozwól mi policzyć słowa w mojej odpowiedzi na twoje pytanie”, inni mogą postrzegać to inaczej. Ostatecznie staje się to kwestią osobistej oceny.

Niemniej jednak ten przypadek ilustruje, że nowy sonet Claude’a 3.5 rzeczywiście poprawił swoje zdolności rozumowania. Teraz może artykułować swoje procesy myślowe lub mówić „rozmyślając nad tym, bądź w pogotowiu”, gdy wymaga dodatkowego czasu na rozważenie — trochę podobnie do o1. Czasami może nawet dokonać samokorygowania, stwierdzając: „Pozwól mi to przemyśleć”.

Ta zdolność do myślenia przyszłościowego wzmocniła również umiejętności Claude’a w zakresie kreatywnego pisania. Dzięki umiejętności myślenia naprzód może tworzyć rozbudowane narracje, które zawierają spójne łuki, elementy zapowiadające i urzekające postacie.

Ponadto poczyniono znaczne postępy w zakresie wydajności analitycznej. Claude obecnie ściśle konkuruje z najbardziej rozbudowanym modelem Anthropic, Claude 3 Opus, a także z o1 mini OpenAI w zakresie analizy.

Podsumowując, najnowsze aktualizacje przyniosły znaczący postęp w wielu wymiarach. Nowe funkcje kodowania przyciągnęły wiele uwagi. Jednak obecnym ograniczeniem dla Claude’a są limity użytkowania, które są znacznie bardziej restrykcyjne nawet dla użytkowników Pro w porównaniu do tych z ChatGPT.

Źródło