ChatGPT-4 zdał egzamin z radiologii ale wg naukowców lepiej mu nie wierzyć

ChatGPT-4 zdał egzamin z radiologii ale wg naukowców lepiej mu nie wierzyć / Shutterstock

Najnowsza wersja ChatGPT potrafi interpretować wyniki medycznych badań obrazowych na tyle dobrze, że zdała egzamin na lekarza radiologa; ma jednak nadal pewne widoczne wady, ograniczające wiarygodność tak postawionych diagnoz – informuje pismo „Radiology”.

Czym jest ChatGPT?

ChatGPT to chatbot wykorzystujący sztuczną inteligencję (AI). Dzięki modelowi głębokiego uczenia się rozpoznaje wzorce i relacje między słowami w ogromnych zbiorach danych w celu generowania odpowiedzi podobnych do ludzkich. Bywa jednak, że jego odpowiedzi nie są zgodne ze stanem rzeczywistym.

„Wykorzystanie dużych modeli językowych, takich jak ChatGPT, rośnie i będzie rosło — powiedział główny autor, dr Rajesh Bhayana, radiolog z University Medical Imaging w Toronto (Kanada). - Nasze badania dają wgląd w możliwości ChatuGPT w kontekście radiologii, podkreślając niesamowity potencjał dużych modeli językowych, wraz z obecnymi ograniczeniami, które czynią go niewiarygodnym”.

Jak zaznaczył dr Bhayana, ChatGPT został niedawno uznany za najszybciej rozwijającą się aplikację konsumencką w historii, a podobne chatboty są włączane do popularnych wyszukiwarek, takich jak Google i Bing, których lekarze i pacjenci używają szukając informacji medycznych.

ChatGPT 3.5 a egzamin z radiologii

Aby ocenić skuteczność AI w zdawaniu egzaminu na radiologa oraz zbadać mocne i słabe strony, dr Bhayana i współpracownicy najpierw przetestowali ChatGPT w oparciu o GPT-3.5, obecnie najczęściej używaną wersję, stosując treść i poziom trudności egzaminów Canadian Royal College i American Board of Radiology

Pytania nie zawierały obrazów i zostały tak pogrupowane, aby ocenić prostsze (przywoływanie wiedzy, podstawowe zrozumienie) i bardziej złożone czynności myślowe (zastosowanie, analiza, synteza). W przypadku tych bardziej złożonych oceniano z kolei opisywanie znalezionych cech obrazu, postepowanie kliniczne, klasyfikację oraz powiązania chorób.

Działanie ChatuGPT oceniono ogólnie oraz według rodzaju i tematu pytania.

Naukowcy odkryli, że ChatGPT oparty na GPT-3.5 odpowiedział poprawnie na 69 proc. pytań (104 ze 150), blisko pozytywnej oceny 70 proc. stosowanej przez Royal College w Kanadzie; miał jednak trudności z pytaniami dotyczącymi: myślenia wyższego rzędu (60 proc; 53 z 89), kalkulacji i klasyfikacji (25 proc., 2 z 8) oraz stosowania pojęć (30 proc., 3 z 10). Jego słabe wyniki w pytaniach dotyczących myślenia wyższego rzędu nie były zaskakujące biorąc pod uwagę brak wstępnego szkolenia w zakresie radiologii.

GPT-4 zdał egzamin

W kolejnym badaniu udostępniony w marcu 2023 jako płatna usługa GPT-4 odpowiedział poprawnie na 81 proc. (121 ze 150) tych samych pytań, przewyższając GPT-3.5 i przekraczając próg zaliczenia wynoszący 70 proc. GPT-4 działał znacznie lepiej niż GPT-3.5 w przypadku bardziej skomplikowanych intelektualnie czynności, zwłaszcza gdy chodziło o opisy wyników badań obrazowych (85 proc.) i stosowanie pojęć (90 proc.).

Wyniki sugerują, że ulepszone zaawansowane możliwości rozumowania GPT-4 przekładają się na lepszą wydajność w kontekście radiologicznym.

„Nasze badanie pokazuje imponującą poprawę wydajności ChatuGPT w radiologii w krótkim okresie, podkreślając rosnący potencjał dużych modeli językowych w tym kontekście” – powiedział dr Bhayana.

Ważne

GPT-4 nie wykazał poprawy w przypadku pytań dotyczących czynności umysłowych niższego rzędu (80 proc. vs 84 proc.) i odpowiedział niepoprawnie na 12 pytań, na które GPT-3.5 odpowiedział poprawnie, co rodzi pytania dotyczące jego wiarygodności w zakresie gromadzenia informacji.

Chat GPT potrafi konsekwentnie i pewnie udzielać błędnych odpowiedzi

„Początkowo byliśmy zaskoczeni dokładnymi i pewnymi odpowiedziami ChatuGPT na niektóre trudne pytania radiologiczne, ale potem równie zaskoczeni niektórymi bardzo nielogicznymi i niedokładnymi twierdzeniami” – powiedział dr Bhayana.

Co prawda niebezpieczna tendencja ChatuGPT do generowania niedokładnych odpowiedzi (zwanych „halucynacjami”) jest rzadsza w wersji GPT-4, nadal jednak ogranicza jego użyteczność w edukacji medycznej i praktyce klinicznej.

Oba badania wykazały, że ChatGPT konsekwentnie wypowiadał się w sposób wskazujący, że jest czegoś pewien, nawet jeśli nie miał racji.

"Dla mnie jest to jego największe ograniczenie. Obecnie ChatGPT najlepiej nadaje się do pobudzania pomysłów, pomagania w rozpoczęciu procesu pisania medycznego i podsumowywania danych. Jeśli jest używany do szybkiego przywoływania informacji, zawsze musi być zweryfikowany" – zaznaczył dr Bhajana.
(PAP)
Autor: Paweł Wernicki
pmw/ bar/

 

oprac. Paweł Huczko
rozwiń więcej
Prawo
Różnica między listem gończym a listem żelaznym. Sprawdź w jakich sytuacjach mogą zostać wydane i jakie skutki prawne wywołują
16 maja 2024

W społeczeństwie panuje mylne przekonanie, iż list żelazny i list gończy to to samo. Powyższych pojęć w żadnym wypadku nie można uznać za synonimy. Różnica między listem żelaznym a listem gończym jest fundamentalna, a w analizie tych dwóch dokumentów warto zrozumieć ich przeznaczenie oraz skutki, jakie mogą wywołać.

1000 zł od 1 lipca 2024 r. dla tej grupy pracowników. Jest podpis prezydenta
16 maja 2024

Prezydent Andrzej Duda zatwierdził zmiany w ustawie dotyczącej dodatków dla pracowników sektora opieki społecznej. Zgodnie z nowymi przepisami, rząd będzie mógł wprowadzać programy umożliwiające wypłatę dodatku w wysokości 1 tys. zł brutto dla pracowników pomocy społecznej, pieczy zastępczej oraz opieki nad dziećmi do lat trzech, począwszy od 1 lipca 2024 roku.

Egzamin ósmoklasisty 2024 r: Odpowiedzi z języka angielskiego. Arkusz egzaminacyjny [CKE i PDF]
16 maja 2024

Egzamin ósmoklasisty 2024 r:  Publikujemy arkusz egzaminacyjne i odpowiedzi na pytania - egzamin z języka obcego zakończył dziś zmagania ósmoklasistów

Rewolucyjne zmiany w Kodeksie pracy już niedługo? Umowy zlecenia i działalność gospodarcza będą wliczane do stażu pracy
15 maja 2024

Projektowane zmiany Kodeksu pracy zakładają, że do stażu pracy będą zaliczane okresy wykonywania pracy m.in. w ramach umowy zlecenia i działalności gospodarczej. Do stażu pracy mają być zaliczane również umowy o świadczenie usług przez uczniów szkół ponadpodstawowych lub studentów do ukończenia 26 lat.

Czy można podawać dzieciom leki na wycieczce szkolnej lub przedszkolnej?
15 maja 2024

Podawanie leku na wycieczce szkolnej lub przedszkolnej - czy jest dopuszczalne? Co w sytuacji nagłej niedyspozycji dziecka? Kto może podać lek?

Nauczyciele: Wynagrodzenia za godziny ponadwymiarowe, godziny doraźnych zastępstw i inne składniki w 2024 r.
15 maja 2024

Na dodatkowe składniki wynagrodzenia nauczycieli należy tworzyć specjalny fundusz. Co najmniej 1 proc. planowanych rocznych wynagrodzeń osobowych powinien wynosić fundusz na nagrody dla nauczycieli za ich osiągnięcia dydaktyczno-wychowawcze.

Uciekł na Białoruś. Sąd zastosował tymczasowy areszt wobec byłego sędziego Tomasza Sz.
15 maja 2024

Prokurator Artur Kaznowski z Prokuratury Krajowej poinformował, że Sąd Rejonowy dla m.st. Warszawy nałożył trzymiesięczny areszt tymczasowy na b. sędziego Tomasza Sz. Sąd podzielił argumenty prokuratora, uznając, że zgromadzone dowody w dużym stopniu potwierdzają popełnienie zarzucanego czynu przez podejrzanego.

ZUS już wypłaca świadczenia wspierające. Kto może je otrzymać w 2024 roku?
15 maja 2024

Zakład Ubezpieczeń Społecznych informuje o pierwszych wypłatach świadczeń wspierających. Wpłynęły one na konta 1,5 tys. osób. Jednak nie zawsze osoba niepełnosprawna może otrzymać wsparcie już w 2024 roku. Jakie warunki trzeba spełnić?

Spadek po rodzicu - jak rozliczyć?
15 maja 2024

Jak rozliczyć spadek po rodzicu? Otrzymanie spadku po osobie z najbliższej rodziny wiąże się z obowiązkiem uregulowania spraw podatkowych. W celu rozliczenia spadku konieczny będzie kontakt z urzędem skarbowym. Nie oznacza to jednak, że podatek trzeba będzie zapłacić.

Cezary Pazura ma swoją planetoidę
15 maja 2024

Międzynarodowa Unia Astronomiczne (IAU) podjęła decyzję, że jedna z planetoid krążących w głównym pasie planetoid pomiędzy orbitami Marsa i Jowisza będzie nosiła nazwę polskiego aktora, Cezarego Pazury.

pokaż więcej
Proszę czekać...