Sora 2 – filmowe „GPT-3.5 moment” od OpenAI
Wybór redakcji Film

Sora 2 – filmowe „GPT-3.5 moment” od OpenAI

OpenAI postanowiło ponownie namieszać w świecie sztucznej inteligencji. Tym razem jednak nie chodzi o tekst, a o obraz i dźwięk. Do użytkowników trafia Sora 2, nowa wersja flagowego modelu generowania wideo i audio.

Od pierwszych kroków do potrójnych axli

Pierwsza odsłona Sory z lutego 2024 roku była czymś w rodzaju „GPT-1 dla wideo” – prosta, czasem jeszcze niezdarna, ale obiecująca. Model potrafił już rozumieć takie podstawowe zasady jak trwałość obiektów. Teraz OpenAI idzie o krok (a właściwie salto) dalej i porównuje Sora 2 do „momentu GPT-3.5” – czyli skoku jakościowego, w którym nagle zaczyna się wydawać, że to naprawdę działa.

Co potrafi nowy model? Wygeneruje gimnastykę olimpijską z zachowaniem praw fizyki, kocią wersję potrójnego axla na lodzie czy nawet skok na desce paddleboard, gdzie woda nie zamienia się nagle w beton. Poprzednie modele często „oszukiwały” rzeczywistość – piłka teleportowała się do kosza, jeśli zawodnik nie trafił. Sora 2 zamiast tego pokazuje odbicie od tablicy.

Więcej niż wideo – świat dźwięków i cameo

Nowa Sora to nie tylko obraz, ale i dźwięk: realistyczne głosy, ścieżki dźwiękowe i efekty specjalne. Wisienką na torcie jest funkcja cameo – wystarczy krótkie nagranie twarzy i głosu, by wskoczyć w dowolną scenę wygenerowaną przez model. Trochę jakby memy wreszcie dostały budżet hollywoodzki.

Aplikacja społecznościowa zamiast laboratorium

OpenAI nie zatrzymuje się na samym modelu. Równolegle startuje aplikacja Sora na iOS, która działa trochę jak Instagram przyszłości: można generować wideo, remiksować cudze prace i wrzucać siebie do animowanych scen. Co ciekawe, aplikacja celowo nie jest zoptymalizowana pod „scrollowanie bez końca”, ale pod tworzenie. OpenAI mówi wprost: zależy im na kreatywności, a nie na nabijaniu czasu spędzonego w feedzie.

Bezpieczeństwo i kontrola

Firma zadbała też o pakiet zabezpieczeń. Są limity dla nastolatków, opcje rodzicielskie przez ChatGPT, a także pełna kontrola nad tym, kto i w jaki sposób może korzystać z twojego wizerunku w cameo. Moderacja treści? Owszem, i to nie tylko automatyczna, ale również wspierana przez ludzi.

Dostępność i co dalej

Aplikacja Sora startuje dziś w USA i Kanadzie, a kolejne kraje mają dołączać stopniowo. Model dostępny będzie za darmo, choć z limitami wynikającymi z mocy obliczeniowej. Wersja Pro trafi także do użytkowników ChatGPT Pro. OpenAI zapowiada, że to dopiero początek – celem jest rozwój modeli zdolnych do symulacji rzeczywistości na potrzeby nie tylko rozrywki, ale też przyszłych robotów i systemów AI.

Czy Sora 2 to już rewolucja? Może jeszcze nie, ale jeśli GPT-3.5 było momentem, w którym ludzie zaczęli masowo korzystać z czatu, to być może Sora 2 jest właśnie takim punktem zapalnym dla wideo. Jak mawiał Edison: „Geniusz to 1% inspiracji i 99% potu” – ale w tym przypadku OpenAI sporo potu już włożyło, a inspiracji dla twórców może być naprawdę nieskończenie wiele.

Źródło