Nowa funkcja Anthropic do obsługi komputera przez Claude AI jest teraz dostępna dla deweloperów.
Najświeższy model Claude 3.5 Sonnet od Anthropic ma nową funkcję, która w publicznej wersji beta pozwala na kontrolowanie komputera poprzez patrzenie na ekran, przesuwanie kursora, klikanie przycisków oraz pisanie tekstu. Funkcja „obsługa komputera” jest już dostępna w API, umożliwiając deweloperom kierowanie Claude’em do pracy na komputerze, tak jak robi to człowiek. W materiale wideo poniżej można zobaczyć przykład na komputerze Mac.
Microsoft, OpenAI i Google również eksperymentują z podobnymi technologiami w swoich narzędziach, ale nie posunęli się jeszcze do tak szerokiej publicznej premiery funkcji obsługi komputera, która faktycznie klika i wykonuje zadania za użytkownika. Anthropic ostrzega jednak, że funkcja obsługi komputera jest wciąż eksperymentalna i może być „niewygodna i podatna na błędy”. Firma podkreśla, że wczesne udostępnienie tej funkcji ma na celu zebranie opinii od deweloperów i szybkie jej usprawnienie.
Według deweloperów, Claude nie potrafi jeszcze wykonywać wielu rutynowych czynności, takich jak przeciąganie czy powiększanie. Widok ekranu Claude’a, oparty na robieniu zrzutów ekranu i ich składaniu, sprawia, że może on przegapić krótkotrwałe akcje lub powiadomienia.
Co więcej, wersja Claude’a została zaprogramowana tak, aby unikać angażowania się w działalność związaną z mediami społecznościowymi, a także w działania wyborcze i interakcje z rządowymi witrynami internetowymi.
Model Claude 3.5 Sonnet przynosi także poprawki w wielu testach porównawczych. Zwiększa swoją skuteczność w zadaniach związanych z kodowaniem i użyciem narzędzi. W testach SWE-bench poprawił się z 33,4% na 49%, przewyższając inne publicznie dostępne modele, w tym OpenAI o1-preview. W testach TAU-bench, które mierzą umiejętności używania narzędzi w różnych branżach, model Claude poprawił wyniki w sektorze handlowym z 62,6% na 69,2%, a w bardziej wymagającym sektorze lotniczym z 36% na 46%.