GPT-4 Turbo z Vision API dostępne już dla deweloperów

Ostatnie doniesienia z OpenAI przynoszą ekscytujące wieści dla branży technologicznej, otwierając nowe możliwości dla przedsiębiorstw i programistów.

OpenAI właśnie ogłosiło, że ich najnowszy model GPT-4 Turbo z funkcją Vision jest już ogólnie dostępny poprzez API firmy. To znaczący krok naprzód, który umożliwia integrację zaawansowanych możliwości przetwarzania języka naturalnego oraz rozpoznawania obrazów w aplikacjach.

Premiera GPT-4 Turbo z Vision na API następuje po początkowym wprowadzeniu funkcji przesyłania wizji i audio w GPT-4 we wrześniu ubiegłego roku oraz prezentacji usprawnionego modelu GPT-4 Turbo podczas konferencji deweloperów OpenAI w listopadzie.

Model GPT-4 Turbo obiecuje znaczące usprawnienia szybkości, większe okna kontekstowe przyjmujące do 128 000 tokenów (co odpowiada około 300 stronom) oraz zwiększoną przystępność cenową dla deweloperów. Kluczową nowością jest możliwość wykorzystania przez żądania API zdolności modelu do rozpoznawania i analizy obrazów za pomocą formatu tekstowego JSON i wywoływania funkcji. Pozwala to programistom generować fragmenty kodu JSON, które mogą automatyzować działania w połączonych aplikacjach, takie jak wysyłanie e-maili, dokonywanie zakupów czy publikowanie w internecie. OpenAI zdecydowanie zaleca jednak tworzenie przepływów potwierdzających użytkownika przed podjęciem działań wpływających na realny świat.

Kilka startupów już wykorzystuje GPT-4 Turbo z Vision, w tym Cognition, którego agent kodujący AI, Devin, opiera się na modelu do automatycznego generowania pełnego kodu:

Devin, stworzony przez @cognition_labs, to asystent inżynierii oprogramowania AI napędzany przez GPT-4 Turbo, który wykorzystuje wizję do różnorodnych zadań kodowania.

Zespół @healthifyme stworzył Snap wykorzystujący GPT-4 Turbo z Vision, aby dostarczać użytkownikom wglądy w odżywianie poprzez rozpoznawanie zdjęć potraw z całego świata

TLDraw, startup z Wielkiej Brytanii, korzysta z GPT-4 Turbo z Vision do zasilania swojej wirtualnej tablicy i konwertowania rysunków użytkowników na funkcjonalne strony internetowe.

Make Real, stworzone przez @tldraw, pozwala użytkownikom rysować UI na tablicy i używa GPT-4 Turbo z Vision do generowania działającej strony internetowej opartej na prawdziwym kodzie

Mimo silnej konkurencji ze strony nowszych modeli, takich jak Claude 3 Opus od Anthropic czy Gemini Advanced od Google, uruchomienie API powinno umocnić pozycję OpenAI na rynku korporacyjnym, podczas gdy deweloperzy wyczekują kolejnego dużego modelu językowego firmy.

Źródło