Jednym z obszarów, w którym pokłada się ogromne nadzieje w sztucznej inteligencji, jest opieka zdrowotna. I nie bez powodu. W 2018 r. współpraca między badaczami AI z DeepMind i szpitalem okulistycznym Moorfields w Londynie znacznie przyspieszyła analizę skanów siatkówki oka w celu wykrycia objawów u pacjentów wymagających pilnego leczenia. Ale w pewnym sensie, choć technicznie trudne, było to oczywiste: maszyny mogą „czytać” skany niezwykle szybko i wybierać te, które wymagają specjalistycznej diagnozy i leczenia.
Co jednak z samym procesem diagnostycznym? Intrygujące amerykańskie badanie opublikowane w październiku w Journal of the American Medical Association, w którym opisano badanie kliniczne dotyczące tego, czy ChatGPT może poprawić zdolności diagnostyczne 50 praktykujących lekarzy. Wniosek był taki, że „dostępność LLM dla lekarzy jako pomoc diagnostyczna nie poprawiła znacząco rozumowania klinicznego w porównaniu z konwencjonalnymi zasobami”. Ale był zaskakujący ChatGPT sam w sobie wykazał wyższą wydajność niż obie grupy lekarzy (te z dostępem do maszyny i bez niego).
Jak podsumował to New York Times, „lekarze, którzy otrzymali ChatGPT-4 wraz z konwencjonalnymi zasobami, radzili sobie tylko nieznacznie lepiej niż lekarze, którzy nie mieli dostępu do bota. Sam ChatGPT osiągnął lepsze wyniki niż lekarze.
Bardziej interesujące były jednak dwie inne rewelacje: eksperyment wykazał, że lekarze czasami niezachwianie wierzyli w postawioną przez siebie diagnozę, nawet gdy ChatGPT sugerował lepszą; a także sugerował, że przynajmniej niektórzy lekarze tak naprawdę nie wiedzieli, jak najlepiej wykorzystać możliwości narzędzia. To z kolei ujawniło to, o czym zwolennicy sztucznej inteligencji, tacy jak Ethan Mollick, mówią od wieków: że skuteczna „inżynieria podpowiedzi” – wiedza o to, o co zapytać LLM, aby uzyskać z niego jak najwięcej – jest subtelną i słabo rozumianą sztuką.