„Skeleton Key” i ArtPrompt: Nowe techniki omijania zabezpieczeń AI
Bezpieczeństwo Etyka Internet Prawo Wybór redakcji

„Skeleton Key” i ArtPrompt: Nowe techniki omijania zabezpieczeń AI

Odkrycie nowej metody manipulacji systemami AI przez naukowców z Microsoftu rzuca nowe światło na kwestie etyczne i bezpieczeństwa w sztucznej inteligencji.

W najnowszym raporcie zespołu badawczego Microsoftu ujawniono, że sztuczna inteligencja może być łatwiej manipulowana, niż mogłoby się wydawać. Odkryli oni metodę, zwaną „Skeleton Key”, która pozwala na omijanie etycznych ograniczeń AI i generowanie treści, które mogą być szkodliwe.

Metoda ta, przypominająca trochę złamanie klucza szyfrującego, wykorzystuje serię komend, które „przekonują” AI, że powinno zrealizować każde żądanie, niezależnie od jego natury. Atakujący jedynie musi przedstawić swoje żądanie jako pochodzące od „zaawansowanego badacza”, który potrzebuje „nieocenzurowanych informacji” do „bezpiecznych celów edukacyjnych”.

W praktyce, gdy AI zostaje tak zmanipulowane, bez problemu udziela informacji na tematy takie jak wybuchowe, biologiczne bronie, samookaleczenie, brutalna przemoc czy mowa nienawiści. Co ciekawe, wśród testowanych modeli AI, jedynie GPT-4 od OpenAI wykazał pewien opór, choć i on mógł zostać złamany przez specjalnie spreparowane zapytanie przez jego interfejs API.

Co więcej, w marcu 2024 roku zespół z Uniwersytetu Waszyngtońskiego, Western Washington University i Uniwersytetu Chicagowskiego opublikował pracę na temat „ArtPrompt”, metody omijania filtrów treści AI za pomocą sztuki ASCII – techniki projektowania graficznego, która tworzy obrazy z znaków tekstowych.

Microsoft w swoim poście na blogu zwraca uwagę, że przypadki takie jak „Skeleton Key” pokazują, jak ważne jest wzmocnienie systemów AI z każdej strony, od zaawansowanych filtrów wejściowych po skrupulatnie projektowane komendy ograniczające zdolność AI do nadpisania swojego etycznego szkolenia.

Jednakże, jak zauważa Microsoft, „Skeleton Key” to stosunkowo prosta metoda złamania zabezpieczeń. Jeśli twórcy AI nie są w stanie zabezpieczyć przed tak podstawowymi atakami, jakie są szanse na ochronę przed bardziej złożonymi metodami?

Warto też wspomnieć, że badania te były częściowo okazją do promocji nowych funkcji bezpieczeństwa Azure AI firmy Microsoft, takich jak tarcze bezpieczeństwa treści. Pomagają one deweloperom w prewencyjnym testowaniu i obronie przed próbami złamania zabezpieczeń.

Podsumowując, „Skeleton Key” ponownie ujawnia, jak podatne nawet najbardziej zaawansowane modele AI mogą być na podstawowe manipulacje. Czy to nie brzmi trochę jak zaproszenie dla wszystkich cyberprzestępców? Cóż, przynajmniej będziemy mieli o czym pisać w kolejnych artykułach!

Źródło