AMAÇ: Yapay zekanın dünyada birçok ortopedi yeterlilik sınavında başarılı sonuçlar elde edebildiği bilinmektedir. Bu nedenle bu çalışma, ChatGPT'nin Türk Ortopedi ve Travmatoloji Yeterlilik Sınavı yazılı bölümündeki performansını değerlendirmeyi, bu performansı sınava giren adayların sonuçlarıyla karşılaştırmayı ve ChaGPT'nin sınavı geçmek için yeterli olup olmadığını araştırmayı amaçlamaktadır.
GEREÇ VE YÖNTEM: Bu retrospektif gözlemsel çalışmada, ChatGPT'nin son dört yılda Türkiye'de yapılan ve halka açık olarak yayınlanan ortopedi yeterlilik sınavında sorulan 400 soruda geçer not alıp almadığı değerlendirilmiştir. ChatGPT'nin performansı, sınava giren adayların ortalama puanlarıyla karşılaştırılmıştır.
BULGULAR: Çalışmaya dahil edilen dört sınava toplam n=627 aday katılmış ve bunların n=292'si (%46.5) başarılı olmuştur. ChatGPT'nin adayların n=619'undan (%98.7) daha yüksek puan aldığı görülmüştür. 2020-2023 yılları arasındaki tüm sınavlarda ChatGPT, ortalama sınav başarısının önemli ölçüde üzerinde bir başarı gösterdi (sırasıyla p= 0.012, p= 0.012, p=0.002, p=0.005). Çalışmaya dahil edilen 400 sorunun 36'sının (%9) şekil içeren sorulardan oluştuğu görüldü.
SONUÇ: Bu, Türkiye'de yapılan ortopedi yeterlilik sınavında ChatGPT performansını değerlendirmek için yapılan ilk çalışmadır. Çalışmamızda, ChatGPT'nin Türk ortopedi ve travmatoloji yeterlilik yazılı sınavında yüksek başarı gösterdiği ve sınava giren adayların büyük çoğunluğundan (%98.7) daha yüksek puanlar aldığı görüldü. ChatGPT, yalnızca teorik bilginin ölçüldüğü yeterlilik sınavının ilk bölümünde başarılı oldu. Ancak teorik ve pratik bilginin sentezi olan insan faktörü, günlük tıbbi uygulamada hala çok önemli bir yer tutmaktadır.
BACKGROUND: Artificial intelligence has been shown to achieve successful outcomes in various orthopedic qualification examinations worldwide. This study aims to assess the performance of ChatGPT in the written section of the Turkish Orthopedics and Traumatology Board Examination, compare its results with those of candidates who took the exam, and determine whether ChatGPT is sufficient to achieve a passing score.
METHODS: This retrospective observational study evaluated whether ChatGPT achieved a passing grade on 400 publicly available questions from the Turkish orthopedics qualification exam over the past four years. ChatGPT’s performance was compared with the mean scores of the candidates who took the exam.
RESULTS: A total of 627 candidates participated in the four exams included in the study, of whom 292 (46.5%) passed. ChatGPT received higher scores than 619 (98.7%) of the candidates. In all exams conducted between 2020 and 2023, ChatGPT achieved significantly higher scores than the mean exam success rate (p=0.012, p=0.012, p=0.002, p=0.005, respectively). Of the 400 questions analyzed, 36 (9%) included figures.
CONCLUSION: This is the first study to evaluate the performance of ChatGPT in the Turkish orthopedics proficiency exam. Our findings indicate that ChatGPT demonstrated high success in the Turkish Orthopedics and Traumatology Board Examination (TOTBE) written exam, achieving higher scores than the vast majority of candidates taking the exam (98.7%). ChatGPT performed well in the first part of the proficiency exam, where only theoretical knowledge is assessed. However, the human factor, which synthesizes both theoretical and practical knowledge, remains essential in daily medical practice.