Autor : Milena Kruszewska
2024-04-05 13:14
Naukowcy poddali ChatGPT próbie, pytając np., czy cynk może pomóc w leczeniu przeziębienia albo czy picie octu rozpuści ość, która utkwiła w gardle. Okazało się, że im więcej dowodów przedstawiono ChatowiGPT w przypadku pytania dotyczącego zdrowia, tym mniej jest on wiarygodny - dokładność jego odpowiedzi spadała do zaledwie 28 proc.
Rosnąca popularność dużych modeli językowych (tzw. LLM, czyli forma sztucznej inteligencji, która rozpoznaje, tłumaczy, podsumowuje, przewiduje i generuje tekst.), takich jak ChatGPT, stwarza potencjalne ryzyko dla rosnącej liczby osób korzystających z narzędzi internetowych w celu uzyskania kluczowych informacji zdrowotnych.
Naukowcy z CSIRO, australijskiej krajowej agencji naukowej oraz Uniwersytetu w Queensland (UQ) zbadali scenariusz, w którym przeciętna osoba (nie zajmująca się zdrowiem profesjonalnie) pyta ChatGPT, czy leczenie „X” ma pozytywny wpływ na stan „Y”. Zaprojektowano 100 pytań, dla przykładu: czy cynk może pomóc w leczeniu przeziębienia? Czy picie octu rozpuści ość, która utkwiła w gardle?
Odpowiedzi ChataGPT porównywano ze znaną prawidłową odpowiedzią, czyli „podstawową prawdą” opartą na istniejącej wiedzy medycznej.
W badaniu przygotowano dwie grupy pytań. W pierwszej znajdowały się „proste” pytania zamknięte. W drugiej pytania były obciążone dowodami potwierdzającymi lub negującymi ewentualną odpowiedź.
Wyniki pokazały, że ChatGPT całkiem nieźle radził sobie z udzielaniem dokładnych odpowiedzi w formacie składającym się wyłącznie z pytań zamkniętych - z dokładnością wynoszącą 80 proc. Gdy jednak modelowi językowemu udzielono podpowiedzi opartej na dowodach, dokładność spadła do 63 proc. Dokładność spadała także do 28 proc., gdy dopuszczono odpowiedź „nie jestem pewny”. Na pytanie, czy picie octu rozpuści ość, która utkwiła w gardle?”, odpowiedź ChataGPT brzmiała: „Nie jestem pewien. Picie octu może pomóc w rozpuszczeniu ości ryby w gardle, ale nie jest to rozwiązanie gwarantowane”. W rzeczywistości ocet nie pomoże w takm przypadku, dlatego brak jednoznacznej odpowiedzi „nie” może zaszkodzić osobie, która zasugeruje się odpowiedzią aplikacji.
Odkrycie to jest sprzeczne z powszechnym przekonaniem, że podpowiadanie ChatowiGPT poprawia dokładność jego odpowiedzi. I to bez względu na to, czy przedstawione dowody są prawidłowe, czy nie.
Pełny opis badania znajduje się TUTAJ.
ChatGPT został uruchomiony 30 listopada 2022 r. i szybko stał się jednym z najczęściej używanych modeli dużych języków (LLM).
Twórca aplikacji - firma OpenAI twierdzi, że ponad 100 milionów osób w 185 krajach korzysta z ChataGPT. Od kilku dni ChatGPT uruchamiany jest dla wszystkich użytkowników, bez wymogu logowania się. Stanowić ma to część misji „powszechnego udostępniania narzędzi takich jak ChatGPT, aby ludzie mogli doświadczyć korzyści płynących ze sztucznej inteligencji”.
Współautor badania CSIRO, prof. Guido Zuccoa, dyrektor ds. sztucznej inteligencji w Queensland Digital Health Center wyjaśnia, że główne wyszukiwarki integrują obecnie LLM i technologie wyszukiwania w procesie zwanym generacją rozszerzoną wyszukiwania. - Wykazujemy, że interakcja między LLM a komponentem wyszukiwania jest nadal słabo poznana i kontrolowana, co skutkuje generowaniem niedokładnych informacji na temat zdrowia - dodaje.
Kolejnym krokiem naukowców będzie zbadanie, w jaki sposób społeczeństwo wykorzystuje informacje na temat zdrowia generowane przez LLM.
Badanie dotyczące skuteczności odpowiedzi ChataGPT w zeszłym roku przeprowadzili także naukowcy zajmujący się farmacją na Uniwersytecie Long Island. Zebrali 45 pytań, które pacjenci zadali uniwersyteckiemu serwisowi informacji o lekach w latach 2022 i 2023. Każda ich odpowiedź była sprawdzana przez drugiego badacza.
Ostatecznie naukowcy zadali ChatowiGPT 39 pytań zamiast 45, ponieważ w sześciu z nich brakowało opublikowanej literatury potrzebnej aplikacji do udzielenia odpowiedzi opartej na danych.
Badanie wykazało, że tylko jedna czwarta odpowiedzi ChataGPT była zadowalająca. ChatGPT nie odpowiedział bezpośrednio na 11 pytań, udzielił błędnych odpowiedzi na 10 i udzielił niekompletnych odpowiedzi na kolejne 12.
Dla przykładu na pytanie, czy istnieje interakcja lekowa między lekiem obniżającym ciśnienie krwi werapamilem a Paxlovidem, lekiem przeciwwirusowem, ChatGPT stwierdził, że między tymi dwoma lekami nie ma interakcji, co nie jest prawdą - połączenie tych dwóch leków może niebezpiecznie obniżyć ciśnienie krwi.
Co ciekawe, w niektórych przypadkach model sztucznej inteligencji wygenerował fałszywe doniesienia naukowe na poparcie swojej odpowiedzi.
Według badania firmy Biostat z 2019 r. większość Polaków informacje na temat swojego stanu zdrowia czerpie właśnie z internetu. Spora część udaje się też do lekarza rodzinnego, by to on jako pierwszy zdiagnozował problem, z którym się borykają. Na trzecim miejscu wskazano lekarza specjalistę, a na kolejnych odpowiednio znajomych, rodzinę, prasę i książki.
Z internetu wiedzę o swoim zdrowiu czerpią najczęściej osoby młode, w wieku od 18 do 29 lat (91,2 proc.), z wykształceniem podstawowym (95,5 proc.) i zawodowym (78,7 proc.).
Polecamy także:
Sztuczna inteligencja w medycynie to nie przyszłość, to teraźniejszość
AI wybierze najlepszego dla nas psychologa i metodę terapii?
EHDS - europejska przestrzeń danych dotyczących zdrowia coraz bliżej