MedGemma i MedSigLIP – nowe otwarte modele AI do zadań specjalnych w służbie zdrowia
Wybór redakcji Medycyna

MedGemma i MedSigLIP – nowe otwarte modele AI do zadań specjalnych w służbie zdrowia

Sztuczna inteligencja coraz śmielej wkracza do świata medycyny, ale to nie science fiction, tylko realna pomoc w codziennych obowiązkach lekarzy, diagnostów i programistów tworzących narzędzia zdrowotne. A teraz Google dorzuca do tego swoją cegiełkę – ba, raczej cały fundament. Przedstawia bowiem dwa nowe modele AI z rodziny MedGemma, które mają pomóc rozwinąć skrzydła twórcom narzędzi medycznych.

AI na zdrowie – dosłownie

Zanim jednak przejdziemy do nowości, małe przypomnienie. W maju Google zaprezentowało Health AI Developer Foundations (HAI-DEF) – zestaw lekkich i otwartych modeli AI do zastosowań medycznych. Otwartość tych modeli to klucz – deweloper może je dowolnie modyfikować, wdrażać lokalnie lub w chmurze, bez uzależniania się od API czy kaprysów zdalnych aktualizacji.

W ramach HAI-DEF pojawiła się kolekcja MedGemma – modele generatywne oparte na Gemma 3, zaprojektowane specjalnie z myślą o rozwoju AI w ochronie zdrowia i naukach biologicznych.

Nowi zawodnicy: MedGemma 27B Multimodal i MedSigLIP

Pierwsza nowość to MedGemma 27B Multimodal – potężny model potrafiący analizować złożone dane obrazowe i tekstowe, w tym rekordy zdrowotne prowadzone na przestrzeni czasu. Drugi to MedSigLIP – lekki (tylko 400M parametrów!), ale zwinny model do kodowania obrazów i tekstów, świetny w klasyfikacji i wyszukiwaniu obrazów medycznych.

Oba modele to silna para: MedGemma do zadań wymagających generowania tekstu (raporty, odpowiedzi na pytania wizualne), a MedSigLIP do tych, które wymagają precyzyjnych odpowiedzi w formacie strukturalnym (np. rozpoznawanie zmian chorobowych).

I nie potrzeba do tego wielkiego serwera! MedGemma 4B i MedSigLIP uruchomimy nawet na pojedynczym GPU – a po odpowiednich cięciach nawet na sprzęcie mobilnym.

MedGemma – mistrz słów i obrazów

W skład kolekcji wchodzą dwa główne warianty: MedGemma 4B Multimodal oraz MedGemma 27B (tekstowy i multimodalny). Ten pierwszy osiąga 64,4% na benchmarku MedQA, co czyni go jednym z najmocniejszych modeli w swojej klasie (<8B). Co więcej – aż 81% generowanych przez niego opisów zdjęć RTG klatki piersiowej uznano za równie przydatne jak oryginały przygotowane przez radiologów. Nieźle, jak na „sztuczną inteligencję”.

Wariant 27B idzie jeszcze dalej – uzyskuje wynik 87,7% na MedQA, blisko lidera DeepSeek R1, ale działa za ułamek kosztu obliczeniowego. Model radzi sobie nie tylko z pytaniami medycznymi, ale również z przetwarzaniem danych z dokumentacji elektronicznej.

MedSigLIP – ekspert od obrazów

MedSigLIP to bardziej wyspecjalizowany koleżka – potrafi „czytać” obrazy medyczne i przyporządkować je do tekstowych opisów. Niezależnie czy to zdjęcie z RTG, fragment tkanki z mikroskopu, czy siatkówka oka – poradzi sobie. W dodatku zachowuje dobrą formę również na obrazach naturalnych, co czyni go bardziej elastycznym niż modele szyte na jedną miarę.

Działa w klasycznych zadaniach klasyfikacyjnych, w trybie zero-shot (czyli „domyśl się bez treningu”) i przy przeszukiwaniu baz obrazów medycznych.

Otwarte, czyli dla każdego

Wszystkie modele z rodziny MedGemma są otwarte. Można je pobrać, zmodyfikować, dostosować do własnych potrzeb – i co ważne – nie trzeba martwić się o to, że po aktualizacji coś przestanie działać (API, patrzymy na was z ukosa). To bardzo istotne, szczególnie w środowisku medycznym, gdzie stabilność i powtarzalność wyników są na wagę złota.

Dla wygody użytkowników modele dostępne są na platformie Hugging Face w formacie safetensors – to taki bezpieczny lunchbox na dane.

I co teraz z tym robią?

Zainteresowanie rośnie. W DeepHealth (Massachusetts, USA) MedSigLIP pomaga w szybszym wykrywaniu guzków na zdjęciach RTG. W Tajwanie, w szpitalu Chang Gung, MedGemma wspomaga pracę z literaturą medyczną po chińsku. A w Indiach, zespół Tap Health docenił jego „kliniczne wyczucie”, przy podsumowywaniu notatek czy udzielaniu zaleceń zgodnych z wytycznymi.

Od testu do produkcji

Dla chętnych są gotowe notatniki na GitHubie pokazujące, jak modele uruchomić i fine-tune’ować. Można też zintegrować je bezpośrednio z platformą Vertex AI. A jeśli ktoś lubi demo zamiast teorii – Google przygotowało pokaz, jak MedGemma może pomóc w zbieraniu informacji przed wizytą u lekarza.

Krótko mówiąc: Google dorzuciło kilka bardzo konkretnych narzędzi do skrzynki z narzędziami dla każdego, kto buduje AI w medycynie. Modele są otwarte, lekkie, elastyczne – a mimo to osiągają wyniki, które robią wrażenie nawet na lekarzach z doświadczeniem. I to wszystko bez potrzeby dźwigania superkomputera w plecaku.

Źródło