Naukowcy z MIT opracowali metodę szkolenia robotów, która zmniejsza czas i koszty oraz poprawia adaptacyjność do nowych zadań i środowisk.
Podejście nazwane Heterogeneous Pretrained Transformers (HPT) łączy ogromne ilości różnorodnych danych z wielu źródeł w jeden spójny system, tworząc niejako wspólny język, który modele generatywnej AI potrafią przetwarzać. To spora zmiana względem klasycznego podejścia do szkolenia robotów, gdzie inżynierowie zbierają konkretne dane dla każdego robota i zadania w kontrolowanych warunkach.
Lirui Wang – doktorantka na wydziale elektrotechniki i informatyki MIT oraz główna badaczka projektu – uważa, że choć wielu wskazuje na brak wystarczających danych treningowych jako główny problem w robotyce, większym wyzwaniem jest ogromna różnorodność dziedzin, modalności oraz sprzętu. Ich praca pokazuje, jak skutecznie połączyć i wykorzystać te różnorodne elementy.
Zespół stworzył architekturę, która unifikuje różne typy danych, w tym obrazy z kamer, instrukcje językowe i mapy głębi. HPT wykorzystuje model transformatora – podobny do tych stosowanych w zaawansowanych modelach językowych – aby przetwarzać dane wizualne oraz proprioceptywne.
W testach system wykazał się niesamowitymi wynikami – przewyższając tradycyjne metody szkolenia o ponad 20 procent, zarówno w symulacjach, jak i realnych warunkach. Ta poprawa była widoczna nawet przy zadaniach znacznie różniących się od tych, na których roboty były pierwotnie szkolone.
Badacze zgromadzili imponujący zestaw danych do pretrenowania, obejmujący 52 zbiory danych i ponad 200 tysięcy trajektorii robotów w czterech kategoriach. Dzięki temu podejściu roboty uczą się na bazie szerokiego wachlarza doświadczeń, w tym demonstracji ludzkich i symulacji.
Jednym z kluczowych innowacji systemu jest podejście do propriocepcji (świadomości robota co do swojego położenia i ruchu). Architektura traktuje propriocepcję i wizję na równi, co pozwala na bardziej zaawansowane, zręczne ruchy.
Patrząc w przyszłość, zespół zamierza rozszerzyć możliwości HPT w zakresie przetwarzania danych bez etykiet, podobnie jak w zaawansowanych modelach językowych. Ich ostateczną wizją jest stworzenie uniwersalnego „mózgu robota”, który można by pobrać i wykorzystać dla dowolnego robota bez potrzeby dodatkowego treningu.
Chociaż zespół zdaje sobie sprawę, że to dopiero początki, pozostaje optymistyczny, że dalszy rozwój tej technologii może doprowadzić do przełomowych osiągnięć w robotyce, podobnych do tych, jakie obserwujemy w przypadku dużych modeli językowych.
Podejście nazwane Heterogeneous Pretrained Transformers (HPT) łączy ogromne ilości różnorodnych danych z wielu źródeł w jeden spójny system, tworząc niejako wspólny język, który modele generatywnej AI potrafią przetwarzać. To spora zmiana względem klasycznego podejścia do szkolenia robotów, gdzie inżynierowie zbierają konkretne dane dla każdego robota i zadania w kontrolowanych warunkach.
Lirui Wang – doktorantka na wydziale elektrotechniki i informatyki MIT oraz główna badaczka projektu – uważa, że choć wielu wskazuje na brak wystarczających danych treningowych jako główny problem w robotyce, większym wyzwaniem jest ogromna różnorodność dziedzin, modalności oraz sprzętu. Ich praca pokazuje, jak skutecznie połączyć i wykorzystać te różnorodne elementy.
Zespół stworzył architekturę, która unifikuje różne typy danych, w tym obrazy z kamer, instrukcje językowe i mapy głębi. HPT wykorzystuje model transformatora – podobny do tych stosowanych w zaawansowanych modelach językowych – aby przetwarzać dane wizualne oraz proprioceptywne.
W testach system wykazał się niesamowitymi wynikami – przewyższając tradycyjne metody szkolenia o ponad 20 procent, zarówno w symulacjach, jak i realnych warunkach. Ta poprawa była widoczna nawet przy zadaniach znacznie różniących się od tych, na których roboty były pierwotnie szkolone.
Badacze zgromadzili imponujący zestaw danych do pretrenowania, obejmujący 52 zbiory danych i ponad 200 tysięcy trajektorii robotów w czterech kategoriach. Dzięki temu podejściu roboty uczą się na bazie szerokiego wachlarza doświadczeń, w tym demonstracji ludzkich i symulacji.
Jednym z kluczowych innowacji systemu jest podejście do propriocepcji (świadomości robota co do swojego położenia i ruchu). Architektura traktuje propriocepcję i wizję na równi, co pozwala na bardziej zaawansowane, zręczne ruchy.
Patrząc w przyszłość, zespół zamierza rozszerzyć możliwości HPT w zakresie przetwarzania danych bez etykiet, podobnie jak w zaawansowanych modelach językowych. Ich ostateczną wizją jest stworzenie uniwersalnego „mózgu robota”, który można by pobrać i wykorzystać dla dowolnego robota bez potrzeby dodatkowego treningu.
Chociaż zespół zdaje sobie sprawę, że to dopiero początki, pozostaje optymistyczny, że dalszy rozwój tej technologii może doprowadzić do przełomowych osiągnięć w robotyce, podobnych do tych, jakie obserwujemy w przypadku dużych modeli językowych.