Gecko od DeepMind: Nowa era oceniania AI generującej obrazy
Big Data Grafika Technologia

Gecko od DeepMind: Nowa era oceniania AI generującej obrazy

W świecie technologii, gdzie sztuczna inteligencja coraz śmielej kreśli przyszłość, nowy benchmark od DeepMind, o nazwie Gecko, rzuca nowe światło na ocenę modeli AI generujących obrazy z tekstu.

Przez ostatnie dwa lata, generator obrazów AI, takie jak DALL-E czy Midjourney, zdobywały na jakości, jakby chciały zdobyć szczyt Everestu. Ale jak wybrać „najlepszy” model, gdy każdy z nich ma inne specjalizacje, jak szefowie kuchni w wielokulturowej restauracji? Gecko od DeepMind wkracza na scenę z rozwiązaniem, oferując system oceny, który zmierza się z wyzwaniami z humanistyczną finezją.

Twórcy Gecko, niczym starożytni kartografowie, zdefiniowali zestaw umiejętności niezbędnych do kreowania obrazów z tekstu, jak rozumienie przestrzeni czy rozpoznawanie akcji. Co więcej, rozdrobnili te umiejętności na bardziej szczegółowe fragmenty, na przykład w renderowaniu tekstu mogą to być różne czcionki, kolory, czy wielkości tekstu.

Do testowania modeli T2I użyto dużego modelu językowego (LLM), który generował polecenia, skupiające się na konkretnej umiejętności lub sub-umiejętności. Dzięki temu, twórcy modeli mogą nie tylko zidentyfikować, które umiejętności są dla ich modelu wyzwaniem, ale także określić, na jakim poziomie złożoności dana umiejętność staje się problematyczna.

W swojej pracy, badacze doszli do wniosku, że na przykład model Muse od Google pokonuje Stable Diffusion 1.5 i SDXL w benchmarku Gecko. Może są stronniczy, ale liczby nie kłamią. Czy Gecko zmieni sposób, w jaki oceniamy modele generujące obrazy? Czas pokaże, ale jedno jest pewne – już teraz daje nam cenne narzędzie do głębszego zrozumienia i doskonalenia technologii AI.

Więc jaki jest najlepszy model generowania tekst-na-obraz? Odpowiedź może nie być prosta, ale dzięki Gecko, jesteśmy o krok bliżej do zrozumienia, co naprawdę sprawia, że generowany obraz jest „dobry”.

Źródło