Avrupa Topluluğu Ekonomik Faaliyetlerin İstatistiki Sınıflandırılması Kullanılarak Dengesiz Veri Setlerinde Sınıflandırma Problemine Bakış

Yazarlar

  • Yasin Bektas Mersin University
  • Jale BEKTAŞ

DOI:

https://doi.org/10.46291/ICONTECHvol5iss3pp31-37

Anahtar Kelimeler:

Metin Madenciliği- Dengesiz Veri Setleri- Sınıflandırıcılar- Nace

Özet

Dengesiz ve çok sınıflı veri setlerinde klasik sınıflandırıcıların kullanılması her zaman bir sorun oluşturmuştur. Bu çalışmada Avrupa Topluluğunda Ekonomik Faaliyetlerin İstatistiki Sınıflaması (NACE) kodlarının tanımları üzerinde çok bilinen sınıflandırıcılar ile bir metin madenciliği uygulaması yapılmıştır. Çalışmada öncelikle orjinal verinin dengesiz yapısı üzerinde uygulama yapılmış, daha sonra sınıf bazında ağırlıklandırma yöntemiyle dengeli hale getirilerek sonuç verisi üzerinde tekrar test edilerek performans ölçümü gerçekleştirilmiştir. Testlerde Karar Ağaçları, Naiv Bayes, Destek Vektör Makineleri, Çapsal Tabanlı Fonksiyonlar ve Rastgele Orman algoritmaları gibi yaygın kullanılan sınıflandırıcılar kullanılmıştır.  Çalışma bize Karar Ağaçlarının veri dengelenmesi neticesinde F-skor değerinin %17.43’ den %92’ ye çıkarak en iyi performansı verdiğini göstermiştir.

Referanslar

Agrawal, R., & Batra, M. 2013. A detailed study on text mining techniques. International Journal of Soft Computing and Engineering, 2(6), 118-121.

Berry, M. W. 2004. Survey of text mining. Computing Reviews, 45(9), 548.

Duygu Analizi. In International Artificial Intelligence and Data Processing Symposium (IDAP'16), September (pp. 17-18).

Jusoh, S., & Alfawareh, H. M. 2012. Techniques, applications and challenging issue in text mining. International Journal of Computer Science Issues (IJCSI), 9(6), 431.

Kaynar, O., Görmez, Y., Yıldız, M., & Albayrak, A. 2016. Makine öğrenmesi yöntemleri ile Schnabl, E., & Zenker, A. 2013. Statistical classification of knowledge-intensive business services (KIBS) with NACE Rev. 2. Karlsruhe: Fraunhofer ISI.

Nace. 2008. Konu: Avrupa Topluluğunda Ekonomik Faaliyetlerin İstatistiki Sınıflaması. https://ec.europa.eu/eurostat/ramon/nomenclatures/index.cfm?TargetUrl=LST_CLS_DLD_NOHDR&StrNom=NACE_REV2&StrLanguageCode=TR .Erişim:Ağustos, 2021.

Tobback, E., Naudts, H., Daelemans, W., de Fortuny, E. J., & Martens, D. 2018. Belgian economic policy uncertainty index: Improvement through text mining. International journal of forecasting, 34(2), 355-365.

Uyumsoft, 2020. Konu: Nace Kodlama Sistemi. Konu: https://www.uyumsoft.com/nace-kodu-nedir-ne-ise-yarar/ . Erişim: Ağustos, 2021

Van den Brakel, J. 2010. Sampling and estimation techniques for the implementation of new classification systems: the change-over from NACE Rev. 1.1 to NACE Rev. 2 in business surveys. In Survey Research Methods (Vol. 4, No. 2, pp. 103-119).

Zulfikar, W. B., Irfan, M., Alam, C. N., & Indra, M. 2017.. The comparation of text mining with Naive Bayes classifier, nearest neighbor, and decision tree to detect Indonesian swear words on Twitter. In 2017 5th International Conference on Cyber and IT Service Management (CITSM) (pp. 1-5). IEEE.

Yayınlanmış

2021-09-25

Nasıl Atıf Yapılır

Bektas, Y., & BEKTAŞ, J. (2021). Avrupa Topluluğu Ekonomik Faaliyetlerin İstatistiki Sınıflandırılması Kullanılarak Dengesiz Veri Setlerinde Sınıflandırma Problemine Bakış. ICONTECH ULUSLARARASI DERGİSİ, 5(3), 31–37. https://doi.org/10.46291/ICONTECHvol5iss3pp31-37

Sayı

Bölüm

Articles