p-ISSN: 1306-696x | e-ISSN: 1307-7945
Volume : 31 Issue : 10 Year : 2025

Quick Search

Scopus CiteScore SCImago Journal & Country Rank
pdf
Diagnostic capabilities of large language models in the detection of scaphoid fractures in the emergency department [Ulus Travma Acil Cerrahi Derg]
Ulus Travma Acil Cerrahi Derg. 2025; 31(10): 987-994 | DOI: 10.14744/tjtes.2025.98680

Diagnostic capabilities of large language models in the detection of scaphoid fractures in the emergency department

Bensu Bulut1, Mehmet Yortanlı2, Ayşenur Gür3, Medine Akkan Öz1, Hüseyin Mutlu4
1Department of Emergency, Gülhane Education and Research Hospital, Ankara-Türkiye
2Department of Emergency, Konya Numune Hospital, Konya-Türkiye
3Department of Emergency, Etimesgut Şehit Sait Ertürk State Hospital, Ankara-Türkiye
4Department of Emergency, Aksaray University Faculty of Medicine, Aksaray-Türkiye

BACKGROUND: Scaphoid fractures account for 60%-70% of wrist traumas, with delayed diagnosis leading to avascular necrosis and functional impairment. Traditional radiographic assessment remains challenging due to anatomical complexity and overlapping structures. This study evaluated three next-generation large language models (LLMs) (ChatGPT-4o, Gemini 2.0, and Claude 3.5) for their ability to detect scaphoid fractures and determine surgical indications.
METHODS: A retrospective observational study was conducted at Ankara Etlik City Hospital (October 2022 – January 2025) including 300 patients (150 with computed tomography confirmed (CT-confirmed) scaphoid fractures and 150 without fractures), aged 18-65 years, who presented to the emergency department (ED) with wrist trauma. Three-view wrist radiographs were presented to each LLM on three separate days. Diagnostic accuracy was assessed using overall accuracy (all three responses correct), strict accuracy (≥2 correct responses), and ideal accuracy (≥1 correct response). Response consistency was evaluated using Fleiss' kappa coefficient. Surgical indications were determined based on fracture displacement criteria.
RESULTS: Claude 3.5 demonstrated superior sensitivity (57.1%) compared to Gemini 2.0 (18.2%) and ChatGPT-4o (9.1%) for fracture detection (p<0.001). Ideal accuracy rates were 79.3%, 36.0%, and 17.3%, respectively. Specificity remained uniformly low across models (43.1%-43.8%). All models performed better in non-fracture cases, with ideal accuracy exceeding 83%. Response consistency was moderate for all models (κ=0.36-0.41). For surgical indication assessment, Claude 3.5 identified 37.0% of cases requiring surgery, compared to ChatGPT-4o (34.1%) and Gemini 2.0 (24.4%), with correct determination rates of 73.7%, 71.4%, and 80.0%, respectively.
CONCLUSION: Current LLMs demonstrate insufficient diagnostic accuracy for independent clinical use in scaphoid fracture detection. Claude 3.5's 57.1% sensitivity indicates that these technologies require substantial improvement before clinical deployment. However, their moderate performance in surgical decision-making suggests potential utility as assistive tools when combined with specialist expertise. Further development focusing on musculoskeletal-specific training is essential.

Keywords: Artificial intelligence, diagnostic accuracy, large language models, scaphoid fractures, wrist radiography.

Acil serviste Skafoid kırıklarının tespitinde büyük dil modellerinin tanısal yetkinlikleri

Bensu Bulut1, Mehmet Yortanlı2, Ayşenur Gür3, Medine Akkan Öz1, Hüseyin Mutlu4
1Gülhane Eğitim ve Araştırma Hastanesi, Acil Servis, Ankara, Türkiye
2Konya Numune Hastanesi, Acil Servis, Konya, Türkiye
3Etimesgut Şehit Sait Ertürk Devlet Hastanesi, Acil Servis, Ankara, Türkiye
4Aksaray Üniversitesi Tıp Fakültesi, Acil Servis, Aksaray, Türkiye

AMAÇ: Skafoid kırıkları, el bileği travmalarının %60-70'ini oluşturur ve gecikmiş tanı, avasküler nekroza ve fonksiyonel bozukluğa yol açar. Anatomik karmaşıklık ve örtüşen yapılar nedeniyle geleneksel radyografik değerlendirme hala zorludur. Bu çalışmada, skafoid kırıklarının tespiti ve cerrahi endikasyonların belirlenmesinde üç yeni nesil büyük dil modeli(BDM) (ChatGPT-4o, Gemini 2.0, Claude 3.5) değerlendirilmiştir.
GEREÇ VE YÖNTEM: Ankara Etlik Şehir Hastanesi'nde (Ekim 2022-Ocak 2025) 18-65 yaşları arasında 300 hastayı (150'si BT ile doğrulanmış skafoid kırığı olan, 150'si kırığı olmayan) içeren retrospektif gözlemsel bir çalışma yürütüldü. Her bir BDM'ye farklı günlerde üç kez üç yönlü el bilek radyografileri sunuldu. Tanısal doğruluk; genel doğruluk (üç yanıtın da doğru olması), kesin doğruluk (≥2 doğru yanıt) ve ideal doğruluk (≥1 doğru yanıt) kriterleri kullanılarak değerlendirildi. Yanıt tutarlılığı, Fleiss' Kappa katsayısı kullanılarak değerlendirildi. Cerrahi endikasyonlar, kırık yer değiştirme kriterlerine göre belirlendi.
BULGULAR: Claude 3.5, kırık tespiti için Gemini 2.0 (%18.2) ve ChatGPT-4o (%9.1) ile karşılaştırıldığında üstün duyarlılık (%57.1) gösterdi (p<0.001). İdeal doğruluk oranları sırasıyla %79.3, %36.0 ve %17.3 idi. Özgüllük, modeller arasında eşit olarak düşük kaldı (%43.1-43.8). Tüm modeller, %83'ü aşan ideal doğrulukla kırık olmayan vakalarda daha iyi performans gösterdi. Yanıt tutarlılığı tüm modeller için orta düzeydeydi (κ=0.36-0.41). Cerrahi endikasyon değerlendirmesi için Claude 3.5, ChatGPT-4o (%34.1) ve Gemini 2.0 (%24.4) ile karşılaştırıldığında operasyon gerektiren vakaların %37.0'ını tespit etti ve doğru tespit oranları sırasıyla %73.7, %71.4 ve %80.0 idi.
SONUÇ: Mevcut BDM'ler, skafoid kırığı tespitinde bağımsız klinik kullanım için yeterli tanısal doğruluk göstermemektedir. Claude 3.5'in %57,1'lik duyarlılığı, bu teknolojilerin klinik kullanıma sunulmadan önce önemli iyileştirmeler gerektirdiğini göstermektedir. Ancak, cerrahi karar alma sürecindeki orta düzeydeki performansları, uzmanlık deneyimiyle birleştirildiğinde yardımcı araçlar olarak potansiyel faydalar sağlayabileceklerini göstermektedir. Kas-iskelet sistemine özgü eğitime odaklanan daha fazla geliştirme yapılması şarttır.

Anahtar Kelimeler: Skafoid kırıkları, Büyük dil modelleri, Yapay zeka, El bilek radyografisi, Tanısal doğruluk

Corresponding Author: Ayşenur Gür, Türkiye
Manuscript Language: English
×
APA
NLM
AMA
MLA
Chicago
Copied!
CITE