Według nowego badania, im bardziej zaawansowany staje się duży model językowy (LLM), tym mniej prawdopodobne jest, że przyzna, iż nie zna odpowiedzi na zapytanie.
Nowe modele LLM rzadziej przyznają się do braku odpowiedzi na pytania użytkowników, co czyni je mniej wiarygodnymi, wynika z nowego badania.
Badacze sztucznej inteligencji (AI) z Universitat Politècnica de València w Hiszpanii przetestowali najnowsze wersje modeli BLOOM (BigScience), Llama (Meta) i GPT (OpenAI), oceniając ich dokładność poprzez zadawanie tysięcy pytań z zakresu matematyki, nauk ścisłych oraz geografii.
Porównano jakość odpowiedzi, klasyfikując je na poprawne, niepoprawne i unikające.
Badanie, opublikowane w czasopiśmie Nature, wykazało, że dokładność w rozwiązywaniu trudniejszych problemów rosła wraz z każdą nową wersją modelu. Jednak modele stawały się mniej przejrzyste w kwestii tego, czy potrafią udzielić prawidłowej odpowiedzi.
Wcześniejsze modele LLM przyznawały, że nie potrafią znaleźć odpowiedzi lub potrzebują więcej informacji, natomiast nowe modele częściej zgadują i generują błędne odpowiedzi nawet na proste pytania.
LLM to algorytmy uczenia głębokiego, które wykorzystują AI do rozumienia, przewidywania i generowania nowej treści na podstawie zestawów danych. Choć nowsze modele potrafiły rozwiązywać bardziej złożone problemy z większą precyzją, badane LLM nadal popełniały błędy w odpowiedziach na proste pytania.
„Pełna niezawodność nie jest osiągana nawet na bardzo niskich poziomach trudności”, jak stwierdza artykuł badawczy.
„Chociaż modele potrafią rozwiązywać wysoce skomplikowane problemy, wciąż zawodzą przy bardzo prostych.”
Przykładem jest GPT-4 od OpenAI, gdzie liczba „unikających” odpowiedzi znacząco spadła w porównaniu do poprzedniego modelu, GPT-3.5.
„To nie spełnia oczekiwań, że nowsze LLM lepiej unikałyby odpowiadania poza swoim zakresem działania”, twierdzą autorzy badania.
Naukowcy doszli do wniosku, że pomimo zwiększenia skali technologii, nie ma „wyraźnej poprawy” w działaniu modeli.