ISSN: 0377-9777 / e-ISSN: 1308-2523
A machine learning approach for predicting familial and sporadic disease cases based on clinical symptoms: introduction of a new dataset [Turk Hij Den Biyol Derg]
Turk Hij Den Biyol Derg. 2025; 82(1): 99-106 | DOI: 10.5505/TurkHijyen.2025.06337

A machine learning approach for predicting familial and sporadic disease cases based on clinical symptoms: introduction of a new dataset

Parisa SHARAFI1, Hilal ARSLAN2, Sibel ERSOY EVANS3, Ali VARAN4, Şükriye AYTER1
1Department Of Medical Biology, Faculty Of Medicine, Tobb University Of Economics And Technology, Ankara, Türki̇ye
2Department Of Software Engineering, Faculty Of Engineering And Natural Sciences, Ankara Yıldırım Beyazıt University, Ankara, Türki̇ye.
3Department Of Dermatology, School Of Medicine, Hacettepe University, Ankara, Türki̇ye.
4Department Of Pediatrics, Pediatric Oncology, School Of Medicine, Hacettepe University, Ankara, Türki̇ye.

INTRODUCTION: Neurofibromatosis type 1 (NF1) is a common yet complex neurogenetic disorder characterized by a highly variable clinical presentation, influenced by both genetic and environmental factors. While its genetic basis is well understood, the variability in symptoms among patients presents significant challenges for diagnosis and management. This study focuses on examining the differences in clinical features between sporadic and familial NF1 cases. Additionally, it evaluates the potential of machine learning techniques to predict sporadic NF1 cases based on clinical symptoms, offering insights into how computational approaches can complement traditional diagnostic methods.
METHODS: A retrospective analysis was conducted on the medical records of 241 NF1 patients, including 121 sporadic and 120 familial cases. The frequency of various clinical features, such as Lisch nodules, pseudoarthrosis, and hypertension, was compared between the groups. analysis of variance (ANOVA) was used to identify the most important features distinguishing sporadic cases from familial ones. Furthermore, multiple machine learning algorithms, including k-nearest neighbors, artificial neural networks, support vector machines, decision trees, and XGBoost, were employed to predict sporadic cases based on the identified features.
RESULTS: Among the machine learning models tested, the XGBoost algorithm demonstrated the highest predictive accuracy at 62.86%, indicating moderate reliability in identifying sporadic cases. Despite this limitation, the analysis revealed significant differences in clinical manifestations between the two groups. These differences suggest that shared genetic modifiers may play a critical role in shaping the observed genotype-phenotype relationship in NF1.
DISCUSSION AND CONCLUSION: This study represents the first detailed comparison of a broad spectrum of clinical symptoms between sporadic and familial NF1 cases. While machine learning models showed only moderate success in prediction, the findings provide valuable insights into the phenotypic variability of NF1 and underscore the importance of larger, more diverse datasets for improving predictive accuracy. These results hold significant potential for guiding personalized diagnostic and therapeutic strategies for NF1 patients.

Keywords: Neurofibromatosis type 1, sporadic cases, familial cases, machine learning

Klinik belirtilere dayalı ailesel ve sporadik hastalık vakalarını tahmin etmek için bir makine öğrenimi yaklaşımı: yeni bir veri kümesinin tanıtımı

Parisa SHARAFI1, Hilal ARSLAN2, Sibel ERSOY EVANS3, Ali VARAN4, Şükriye AYTER1
1Tobb Ekonomi Ve Teknoloji Üniversitesi, Tıp Fakültesi, Tıbb Biyoloji Anabilim Dalı, Ankara, Türkiye
2Ankara Yıldırım Beyazıt Üniversitesi, Mühendislik Ve Doğa Bilimleri Fakültesi, Yazılım Mühendisliği, Ankara, Türki̇ye
3Hacettepe Üniversitesi, Tıp Fakültesi, Dermatoloji Bölümü, Ankara, Türki̇ye
4Hacettepe Üniversitesi, Tıp Fakültesi, Pediyatri Onkoloji Bölümü, Ankara, Türki̇ye

GİRİŞ ve AMAÇ: Nörofibromatozis tip 1 (NF1), hem genetik hem de çevresel faktörlerden etkilenen, oldukça değişken bir klinik sunumla karakterize, yaygın ancak karmaşık bir nörogenetik bozukluktur. Genetik temeli iyi anlaşılmış olsa da, hastalar arasındaki semptomların değişkenliği tanı ve yönetim için önemli zorluklar ortaya koymaktadır. Bu çalışma, sporadik ve ailesel NF1 vakaları arasındaki klinik özelliklerdeki farklılıkları incelemeyi amaçlamıştır. Ayrıca, makine öğrenimi tekniklerinin klinik semptomlara dayalı olarak sporadik NF1 vakalarını tahmin etme potansiyelini değerlendirerek, hesaplamalı yaklaşımların geleneksel tanı yöntemlerini nasıl tamamlayabileceğine dair içgörüler sunulmuştur.
YÖNTEM ve GEREÇLER: 121 sporadik ve 120 ailesel vaka dahil olmak üzere 241 NF1 hastasının tıbbi kayıtları üzerinde retrospektif bir analiz yapılmıştır. Lisch nodülleri, psödoartroz ve hipertansiyon gibi çeşitli klinik özelliklerin sıklığı gruplar arasında karşılaştırılmıştır. Sporadik vakaları ailesel olanlardan ayıran en önemli özellikleri belirlemek için varyans analizi (ANOVA) kullanılmıştır. Ayrıca, belirlenen özelliklere dayanarak sporadik vakaları tahmin etmek için k-en yakın komşular, yapay sinir ağları, destek vektör makineleri, karar ağaçları ve XGBoost dahil olmak üzere çoklu makine öğrenimi algoritmaları kullanılmıştır.
BULGULAR: Test edilen makine öğrenimi modelleri arasında XGBoost algoritması %62,86 ile en yüksek tahmin doğruluğunu göstermiş ve sporadik vakaların belirlenmesinde orta düzeyde güvenilirliğe işaret etmiştir. Bu sınırlamaya rağmen, analiz iki grup arasında klinik belirtiler açısından önemli farklılıklar olduğunu ortaya koymuştur. Bu farklılıklar, paylaşılan genetik değiştiricilerin NF1’de gözlenen genotip-fenotip ilişkisini şekillendirmede kritik bir rol oynayabileceğini düşündürmektedir.


TARTIŞMA ve SONUÇ: Bu çalışma, sporadik ve ailesel NF1 vakaları arasında geniş bir klinik semptom spektrumunun ilk ayrıntılı karşılaştırmasını temsil etmektedir. Makine öğrenimi modelleri tahminde yalnızca orta düzeyde başarı gösterirken, bulgular NF1’in fenotipik değişkenliği hakkında değerli bilgiler sağlamakta ve tahmin doğruluğunu artırmak için daha büyük, daha çeşitli veri kümelerinin öneminin altını çizmektedir. Bu sonuçlar, NF1 hastaları için kişiselleştirilmiş tanı ve tedavi stratejilerine rehberlik etme konusunda önemli bir potansiyele sahiptir.

Anahtar Kelimeler: Nörofibromatozis tip 1, sporadik vakalar, ailesel vakalar, makine öğrenmesi

Corresponding Author: Parisa SHARAFI, Türkiye
Manuscript Language: English
×
APA
NLM
AMA
MLA
Chicago
Copied!
CITE
LookUs & Online Makale