Amaç: Bu çalışmanın amacı, ikinci basamak hastane acil servislerinde toraks travmalı hastalarda pnömotoraks, hemotoraks, pulmoner kontüzyon ve akut kaburga kırığı gibi major toraks patolojilerinin saptanmasında, temsili BT kesitlerini kullanan ChatGPT-5.2 (Extended Thinking) sisteminin tanısal doğruluğunu göğüs cerrahisi konsensüsü ile karşılaştırarak değerlendirmektir.
Yöntem: Bu retrospektif tanısal doğruluk çalışmasına 01.01.2024-31.12.2025 tarihleri arasında toraks BT çekilen 245 yetişkin travma hastası dahil edildi. Üç anatomik düzeyde (aortik ark, karina, inferior pulmoner ven) akciğer, mediasten ve kemik pencerelerinde toplam dokuz adet anonimleştirilmiş görüntü PNG/JPEG formatında ChatGPT-5.2 web arayüzüne yüklendi. Standardize edilmiş prompt ile dört temel bulgu için varlık/yokluk sorgulandı. Referans standart olarak tam DICOM BT serilerini inceleyen iki deneyimli göğüs cerrahının bağımsız konsensüsü kullanıldı. Duyarlılık, özgüllük ve Cohen's kappa değerleri Wilson yöntemi ile %95 güven aralıklarında hesaplandı.
Bulgular: Hastaların ortalama yaşı 44.4±16.1 yıl ve %73.1'i erkekti. Pnömotoraks prevalansı %26.9, hemotoraks %24.1, pulmoner kontüzyon %29.4 ve kaburga kırığı %43.3 idi. Tüm bulgular için özgüllük oldukça yüksek (%97.7-99.5) seyrederken, duyarlılık orta düzeyde (%66.0-81.4) bulundu ve en düşük duyarlılık kaburga kırığındaydı (%66.0). Kappa değerleri substantial ile almost perfect arasında değişti (0.672-0.858) ve dört bulgunun tamamında doğru sınıflandırma %75.5 oranında gerçekleşti.
Sonuç: Kısıtlı PNG/JPEG girdileriyle ChatGPT-5.2 pozitif bulguları doğrulamada (rule-in) güçlü ancak negatif bulgularla yaralanma dışlamada (rule-out) yetersiz duyarlılık göstermiştir. Bu nedenle standart radyolojik görüntüleme incelemesi ve gerektiğinde göğüs cerrahisi konsültasyonu zorunludur.
Anahtar Kelimeler: Toraks travması, bilgisayarlı tomografi, pnömotoraks, hemotoraks, pulmoner kontüzyon, kaburga kırığı, büyük dil modelleri, yapay zeka
Objective: We evaluated the diagnostic accuracy of ChatGPT-5.2 in detecting major thoracic trauma findings using representative CT slices compared to thoracic surgery consensus.
Methods: This retrospective diagnostic accuracy study included 245 adults who underwent thoracic CT for trauma between January 2024 and December 2025. De-identified axial images were exported as PNG/JPEG at three anatomical levels (aortic arch, carina, inferior pulmonary vein) in lung, mediastinal, and bone windows (nine images per patient). These were uploaded to ChatGPT-5.2 (Extended Thinking) with a standardized prompt for classification of pneumothorax, hemothorax, pulmonary contusion, and rib fracture. Reference standard was consensus of two thoracic surgeons reviewing full DICOM series. Sensitivity, specificity, and Cohen's kappa were calculated with 95% confidence intervals.
Results: Mean age was 44.4±16.1 years; 73.1% were male. Prevalence was 26.9% for pneumothorax, 24.1% for hemothorax, 29.4% for pulmonary contusion, and 43.3% for rib fracture. ChatGPT-5.2 demonstrated high specificity (97.7-99.5%) but moderate sensitivity (66.0-81.4%) across all findings, with lowest sensitivity for rib fractures (66.0%). Inter-rater agreement was substantial to almost perfect (kappa 0.672-0.858). Complete concordance for all four findings occurred in 75.5% of cases.
Conclusion: With constrained PNG/JPEG inputs, ChatGPT-5.2 showed strong rule-in utility for thoracic trauma but insufficient sensitivity to rule out injuries, particularly rib fractures. Standard imaging review remains mandatory.
Keywords: Thoracic trauma, computed tomography, pneumothorax, hemothorax, pulmonary contusion, rib fracture, large language model, artificial intelligence