Avrupa Topluluğu Ekonomik Faaliyetlerin İstatistiki Sınıflandırılması Kullanılarak Dengesiz Veri Setlerinde Sınıflandırma Problemine Bakış
DOI:
https://doi.org/10.46291/ICONTECHvol5iss3pp31-37Anahtar Kelimeler:
Metin Madenciliği- Dengesiz Veri Setleri- Sınıflandırıcılar- NaceÖzet
Dengesiz ve çok sınıflı veri setlerinde klasik sınıflandırıcıların kullanılması her zaman bir sorun oluşturmuştur. Bu çalışmada Avrupa Topluluğunda Ekonomik Faaliyetlerin İstatistiki Sınıflaması (NACE) kodlarının tanımları üzerinde çok bilinen sınıflandırıcılar ile bir metin madenciliği uygulaması yapılmıştır. Çalışmada öncelikle orjinal verinin dengesiz yapısı üzerinde uygulama yapılmış, daha sonra sınıf bazında ağırlıklandırma yöntemiyle dengeli hale getirilerek sonuç verisi üzerinde tekrar test edilerek performans ölçümü gerçekleştirilmiştir. Testlerde Karar Ağaçları, Naiv Bayes, Destek Vektör Makineleri, Çapsal Tabanlı Fonksiyonlar ve Rastgele Orman algoritmaları gibi yaygın kullanılan sınıflandırıcılar kullanılmıştır. Çalışma bize Karar Ağaçlarının veri dengelenmesi neticesinde F-skor değerinin %17.43’ den %92’ ye çıkarak en iyi performansı verdiğini göstermiştir.
Referanslar
Agrawal, R., & Batra, M. 2013. A detailed study on text mining techniques. International Journal of Soft Computing and Engineering, 2(6), 118-121.
Berry, M. W. 2004. Survey of text mining. Computing Reviews, 45(9), 548.
Duygu Analizi. In International Artificial Intelligence and Data Processing Symposium (IDAP'16), September (pp. 17-18).
Jusoh, S., & Alfawareh, H. M. 2012. Techniques, applications and challenging issue in text mining. International Journal of Computer Science Issues (IJCSI), 9(6), 431.
Kaynar, O., Görmez, Y., Yıldız, M., & Albayrak, A. 2016. Makine öğrenmesi yöntemleri ile Schnabl, E., & Zenker, A. 2013. Statistical classification of knowledge-intensive business services (KIBS) with NACE Rev. 2. Karlsruhe: Fraunhofer ISI.
Nace. 2008. Konu: Avrupa Topluluğunda Ekonomik Faaliyetlerin İstatistiki Sınıflaması. https://ec.europa.eu/eurostat/ramon/nomenclatures/index.cfm?TargetUrl=LST_CLS_DLD_NOHDR&StrNom=NACE_REV2&StrLanguageCode=TR .Erişim:Ağustos, 2021.
Tobback, E., Naudts, H., Daelemans, W., de Fortuny, E. J., & Martens, D. 2018. Belgian economic policy uncertainty index: Improvement through text mining. International journal of forecasting, 34(2), 355-365.
Uyumsoft, 2020. Konu: Nace Kodlama Sistemi. Konu: https://www.uyumsoft.com/nace-kodu-nedir-ne-ise-yarar/ . Erişim: Ağustos, 2021
Van den Brakel, J. 2010. Sampling and estimation techniques for the implementation of new classification systems: the change-over from NACE Rev. 1.1 to NACE Rev. 2 in business surveys. In Survey Research Methods (Vol. 4, No. 2, pp. 103-119).
Zulfikar, W. B., Irfan, M., Alam, C. N., & Indra, M. 2017.. The comparation of text mining with Naive Bayes classifier, nearest neighbor, and decision tree to detect Indonesian swear words on Twitter. In 2017 5th International Conference on Cyber and IT Service Management (CITSM) (pp. 1-5). IEEE.
İndir
Yayınlanmış
Nasıl Atıf Yapılır
Sayı
Bölüm
Lisans
Telif Hakkı (c) 2021 ICONTECH ULUSLARARASI DERGİSİ
Bu çalışma Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License ile lisanslanmıştır.