Görsel destekli ChatGPT-5.2 ile acil toraks travması triyajı: temsili BT kesitleri kullanilarak goğüs cerrahisi konsensusuna karşı tanısal doğruluk

Derdiyok, Çağdaş; Derdiyok, onur; Ersin, Osman Emre

Görsel destekli ChatGPT-5.2 ile acil toraks travması triyajı: temsili BT kesitleri kullanilarak goğüs cerrahisi konsensusuna karşı tanısal doğruluk [Ulus Travma Acil Cerrahi Derg]

Ulus Travma Acil Cerrahi Derg. Baskıdaki Makaleler: UTD-62854

Görsel destekli ChatGPT-5.2 ile acil toraks travması triyajı: temsili BT kesitleri kullanilarak goğüs cerrahisi konsensusuna karşı tanısal doğruluk

Çağdaş Derdiyok¹, onur Derdiyok², Osman Emre Ersin³
¹Lüleburgaz Devlet Hastanesi, Acil Tıp Kliniği, Kırklareli, Türkiye
²Sağlık Bilimleri Üniversitesi, Şişli Hamidiye Etfal Eğitim ve Araştırma Hastanesi, Cerrahi Tıp Bilimleri Bölümü, İstanbul, Türkiye
³Lüleburgaz Devlet Hastanesi, Göğüs Cerrahisi Kliniği, Kırklareli, Türkiye

Amaç: Bu çalışmanın amacı, ikinci basamak hastane acil servislerinde toraks travmalı hastalarda pnömotoraks, hemotoraks, pulmoner kontüzyon ve akut kaburga kırığı gibi major toraks patolojilerinin saptanmasında, temsili BT kesitlerini kullanan ChatGPT-5.2 (Extended Thinking) sisteminin tanısal doğruluğunu göğüs cerrahisi konsensüsü ile karşılaştırarak değerlendirmektir.

Yöntem: Bu retrospektif tanısal doğruluk çalışmasına 01.01.2024-31.12.2025 tarihleri arasında toraks BT çekilen 245 yetişkin travma hastası dahil edildi. Üç anatomik düzeyde (aortik ark, karina, inferior pulmoner ven) akciğer, mediasten ve kemik pencerelerinde toplam dokuz adet anonimleştirilmiş görüntü PNG/JPEG formatında ChatGPT-5.2 web arayüzüne yüklendi. Standardize edilmiş prompt ile dört temel bulgu için varlık/yokluk sorgulandı. Referans standart olarak tam DICOM BT serilerini inceleyen iki deneyimli göğüs cerrahının bağımsız konsensüsü kullanıldı. Duyarlılık, özgüllük ve Cohen's kappa değerleri Wilson yöntemi ile %95 güven aralıklarında hesaplandı.

Bulgular: Hastaların ortalama yaşı 44.4±16.1 yıl ve %73.1'i erkekti. Pnömotoraks prevalansı %26.9, hemotoraks %24.1, pulmoner kontüzyon %29.4 ve kaburga kırığı %43.3 idi. Tüm bulgular için özgüllük oldukça yüksek (%97.7-99.5) seyrederken, duyarlılık orta düzeyde (%66.0-81.4) bulundu ve en düşük duyarlılık kaburga kırığındaydı (%66.0). Kappa değerleri substantial ile almost perfect arasında değişti (0.672-0.858) ve dört bulgunun tamamında doğru sınıflandırma %75.5 oranında gerçekleşti.

Sonuç: Kısıtlı PNG/JPEG girdileriyle ChatGPT-5.2 pozitif bulguları doğrulamada (rule-in) güçlü ancak negatif bulgularla yaralanma dışlamada (rule-out) yetersiz duyarlılık göstermiştir. Bu nedenle standart radyolojik görüntüleme incelemesi ve gerektiğinde göğüs cerrahisi konsültasyonu zorunludur.

Anahtar Kelimeler: Toraks travması, bilgisayarlı tomografi, pnömotoraks, hemotoraks, pulmoner kontüzyon, kaburga kırığı, büyük dil modelleri, yapay zeka

Vision-enabled ChatGPT-5.2 for emergency thoracic trauma triage: diagnostic accuracy compared to thoracic surgery consensus using representative CT slices

Çağdaş Derdiyok¹, onur Derdiyok², Osman Emre Ersin³
¹Department of Emergency Medicine, Lüleburgaz State Hospital, Kırklareli, Turkey
²Department of Surgical Medical Sciences, University of Health Sciences, İstanbul Şişli Hamidiye Etfal Health Research Center, İstanbul, Turkey
³Department of Thoracic Surgery, Lüleburgaz State Hospital, Kırklareli, Turkey

Objective: We evaluated the diagnostic accuracy of ChatGPT-5.2 in detecting major thoracic trauma findings using representative CT slices compared to thoracic surgery consensus.

Methods: This retrospective diagnostic accuracy study included 245 adults who underwent thoracic CT for trauma between January 2024 and December 2025. De-identified axial images were exported as PNG/JPEG at three anatomical levels (aortic arch, carina, inferior pulmonary vein) in lung, mediastinal, and bone windows (nine images per patient). These were uploaded to ChatGPT-5.2 (Extended Thinking) with a standardized prompt for classification of pneumothorax, hemothorax, pulmonary contusion, and rib fracture. Reference standard was consensus of two thoracic surgeons reviewing full DICOM series. Sensitivity, specificity, and Cohen's kappa were calculated with 95% confidence intervals.

Results: Mean age was 44.4±16.1 years; 73.1% were male. Prevalence was 26.9% for pneumothorax, 24.1% for hemothorax, 29.4% for pulmonary contusion, and 43.3% for rib fracture. ChatGPT-5.2 demonstrated high specificity (97.7-99.5%) but moderate sensitivity (66.0-81.4%) across all findings, with lowest sensitivity for rib fractures (66.0%). Inter-rater agreement was substantial to almost perfect (kappa 0.672-0.858). Complete concordance for all four findings occurred in 75.5% of cases.

Conclusion: With constrained PNG/JPEG inputs, ChatGPT-5.2 showed strong rule-in utility for thoracic trauma but insufficient sensitivity to rule out injuries, particularly rib fractures. Standard imaging review remains mandatory.

Keywords: Thoracic trauma, computed tomography, pneumothorax, hemothorax, pulmonary contusion, rib fracture, large language model, artificial intelligence

Sorumlu Yazar: Çağdaş Derdiyok, Türkiye
Makale Dili: İngilizce

ATIF KOPYALA

Atıf dosyası indir RIS EndNote BibTex Medlars Procite Reference Manager Yazara e-posta gönder Benzer makaleler PubMed Google Scholar

Görsel destekli ChatGPT-5.2 ile acil toraks travması triyajı: temsili BT kesitleri kullanilarak goğüs cerrahisi konsensusuna karşı tanısal doğruluk

Vision-enabled ChatGPT-5.2 for emergency thoracic trauma triage: diagnostic accuracy compared to thoracic surgery consensus using representative CT slices

Ulusal Travma ve Acil Cerrahi Dergisi

Hızlı Bağlantılar

Yayıncı