Weka Öznitelik Seçim Metotları ile Makine Öğrenmesi Algoritmalarının Performanslarının Karşılaştırılması

Zeynep Güven Aydın; Rüya Şamlı

doi:10.5281/zenodo.14568594

Yazarlar

Zeynep Güven Aydın Doğuş Üniversitesi, Mühendislik Fakültesi, Yazılım Mühendisliği Bölümü, İstanbul/Türkiye
Rüya Şamlı İstanbul Üniversitesi-Cerrahpaşa, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, İstanbul/Türkiye

DOI:

https://doi.org/10.5281/zenodo.14568594

Anahtar Kelimeler:

Hata tahmini, makine öğrenmesi algoritmaları, öz nitelik seçimi, doğruluk oranı, WEKA

Özet

Bu çalışmada yazılım hata tahmini konusunda literatürde yayınlanmış birçok yayında yer alan öznitelik seçimi konusu araştırılmıştır. Öznitelik seçimi, genellikle veri setlerindeki ilgisiz ve gereksiz öznitelikleri azaltarak sınıflandırıcının doğruluğunu arttırmak amaçlı kullanılır Çalışmada NASA veri setleri ve deneysel veri seti üzerinde farklı özellik çıkarım metotları denenerek, seçilen en uygun iki tanesi olan Cfs Subset Eval algoritması ve Temel Bileşen öznitelik seçim metotları ile işlemler gerçekleştirilmiştir. Bunun sonucu olarak hangi algoritmaların başarı oranlarının daha yüksek olduğu tespit edilmeye çalışılmıştır. Elde edilen sonuçlar incelendiğinde, genellikle doğruluk oranlarında bir iyileşme oranı görülürken, bazı algoritmalarda çok az bir fark olduğu görülmektedir.

JM1, KC1, CM1 ve PC1 veri setleri üzerinde farklı öznitelik çıkarım metotları test edildiğinde, tüm veri setlerinde yer alan 22 öznitelik, en uygun metot olan Cfs Subset Eval algoritması ve Principal Component öznitelik seçim metotlarının seçilmesiyle birlikte 8 özniteliğe düşürülmüştür. Daha sonra WEKA platformunda 46 adet sınıflandırma algoritmasının doğruluk oranları hesaplanmıştır. Tüm veri setlerinde doğruluk oranlarında en iyi değişim Bayes Net, Voted Perceptron, K* ve Random Forest algoritmalarında görülmüştür. NASA veri setleri ve deneysel veri setleri üzerinde uygulanan tüm öznitelik seçim metotlarında yazılım metriklerine ait loc, n, v ve defect özniteliklerinin kesinlikle olması gerektiği görülmüştür. Her veri setini oluşturan yazılım metriklerinin hesaplamasında loc (kod satır sayısı), n(tekil operatör ve tekil operand sayısı toplamı), v(program hacmi) ve defect (hata olup olmadığı) özniteliklerinin oldukça önemli olduğu açıkça belli olmuştur.

Referanslar

Çatal Ç., (2008). Yazılım Kusur Kestirimi Probleminde Yapay Bağışıklık Sistemlerinin Uygulanması, Doktora, Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü.

Güven Aydın, Z. B. (2021). Makine Öğrenmesi Yöntemleri İle Yazılım Hata Tahmini, Doktora Tezi, İstanbul Üniversitesi-Cerrahpaşa, Lisansüstü Eğitim Fakültesi

Abe, S., Thawonmas, R. and Kobayashi, Y., (1998). Feature selection by analyzing class regions approximated by ellipsoids, IEEE Trans. On Systems, Man, and Cybernetics-Part C: Applications and Reviews, 28(2), 282 – 287.

Huang, D., Chow, T. W. S., (2005). Efficiently searching the important input variables using Bayesian discriminant. IEEE Trans. on Circuits and Systems-I: Regular Papers, 52(4), 785

Hall, Mark A., (1999). Correlation-based Feature Selection for Machine Learning, Doktora Tezi, University of Waikato, Department of Computer Science.

Gümüşçü, İ. B. Aydilek ve R. Taşaltın, “Mikro-dizilim Veri Sınıflandırmasında Öznitelik Seçme Algoritmalarının Karşılaştırılması,” Harran Üniversitesi Mühendislik Dergisi, 1(1), 1-7, 2016.

Weka Öznitelik Seçim Metotları ile Makine Öğrenmesi Algoritmalarının Performanslarının Karşılaştırılması

Yazarlar

DOI:

Anahtar Kelimeler:

Özet

Referanslar

İndir

Yayınlanmış

Nasıl Atıf Yapılır

Sayı

Bölüm

Lisans

Makale Gönder

Dil

Bilgi

Anahtar Kelimeler