Test edilen modeller ve bulgular
Hakemli bilimsel dergi The BMJ’de yayımlanan araştırma, yapay zeka araçlarının Montreal Bilişsel Değerlendirme Testi (MoCA) ile değerlendirildiğini açıkladı.
• OpenAI GPT-4o modeli, 30 üzerinden 26 puan alarak en iyi performansı sergiledi.
• Google Gemini modeli ise yalnızca 16 puanla en düşük skoru elde etti. Özellikle gecikmeli hatırlama görevlerinde tamamen başarısız oldu.
Tüm modeller, isimlendirme, dikkat ve dil görevlerinde başarılı olsalar da, görsel-uzamsal görevlerde belirgin zorluklar yaşadı. Örneğin:
• Saat çizme gibi görevlerde yetersiz kaldılar.
• Daire içine alınmış sayılar arasında çizgi çekme gibi basit görsel görevlerde başarısız oldular.
“Empati Yoksunluğu” ve frontotemporal bunama
Araştırmada, sohbet botlarının “endişe verici derecede empati yoksunluğu” gösterdiği de tespit edildi. Bu durum, frontotemporal bunamanın potansiyel bir göstergesi olarak değerlendirildi.
Araştırma ve yapay zeka güvenilirliği
Makalenin yazarları, bu bulguların yapay zekanın yakın gelecekte insan doktorların yerini alma potansiyeline dair şüpheleri artırdığını belirtti. Ayrıca:
• Yapay zeka araçlarının bazı tıbbi teşhislerde güvenilir olmayabileceği,
• Hastaların bu araçlara duyduğu güvenin zedelenebileceği ifade edildi.
Yapay zeka ve insan etkileşiminin geleceği
Araştırmacılar, büyük dil modellerinin bilişsel yeteneklerinin yanı sıra eksikliklerinin de dikkate alınması gerektiğini vurguladı. Hatta şu ilginç ifadeye yer verdiler:
“Nörologlar, yakında bilişsel bozukluk gösteren yapay zeka modellerini tedavi etmek zorunda kalabilir.”
Sonuçlar, yapay zekanın insanlarla daha verimli ve güvenilir bir şekilde çalışabilmesi için tasarım ve eğitim süreçlerinde yeni düzenlemelere ihtiyaç duyulduğunu gösteriyor.
Siz bu gelişmeler hakkında ne düşünüyorsunuz? Yapay zekanın insan doktorlara olan ihtiyaçları gerçekten azaltabileceğine inanıyor musunuz?