Türkçe Metinler İçin Pos Etiket Bilgisi İle Cümle Sonu Belirlenmesinde Derin Öğrenme Yöntemlerinin Başarısı

Yasin Bektaş; Selma Ayşe Özel

doi:10.5281/zenodo.8233545

Yazarlar

Yasin Bektaş Mersin Üniversitesi, Erdemli Meslek Yüksekokulu, Bilgisayar Teknolojileri Bölümü, Mersin, Türkiye https://orcid.org/0000-0002-2761-5780
Selma Ayşe Özel Çukurova Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Adana, Türkiye https://orcid.org/0000-0001-9201-6349

DOI:

https://doi.org/10.5281/zenodo.8233545

Anahtar Kelimeler:

Derin Öğrenme, Doğal Dil İşleme, Cümle Sınırı Tespiti, Derlem

Özet

Günümüzdeki teknolojik gelişmelerin bir sonucu olarak dijital dünyada yazılı ve sözlü metinler hızla artmıştır. Bununla birlikte Doğal Dil İşleme (DDİ) uygulamaları günümüzde büyük önem kazanmıştır. DDİ uygulamalarında çözülmesi gereken ilk ve en önemli konu metindeki cümle sonlarının doğru bir şekilde belirlenmesidir. Çoğunlukla cümle sonunda bulunan nokta, ünlem, soru işareti gibi noktalama işaretleri sadece cümle sonunu belirlemede kullanılmazlar. Bu yüzden noktalama işaretlerinin kullanım amacının belirginleştirilmesi de bir problem olarak karşımıza çıkmaktadır. Daha önce yapılan çalışmalarda POS (Part-Of-Speech) etiket bilgilerinin cümle sonuna etkileri incelenmiş ve klasik sınıflandırıcılar ile başarılı sonuçlar elde edilmiştir. Bu çalışmada ise kural tabanlı oluşturulmuş olan 9 adet niteliğe farklı sayılarda POS etiket bilgileri eklenmiş ve Uzun Kısa Süreli Bellek (Long Short Term Memory- LSTM) ve Çift Yönlü Uzun Kısa Süreli Bellek (Bidirectional Long Short Term Memory- BiLSTM) olarak isimlendirilen derin öğrenme yöntemleri ile deneyler gerçekleştirilmiştir. Deneylerde Türkçe Ulusal Derlemi (TUD) ve SETimes isimli paralel derlem kullanılmıştır. TUD 1990-2009 dönemini kapsayan, çok fazla alan ve türden oluşmuş 50 milyon kelimelik bir derlemdir. SETimes ise 9’u güneydoğu Avrupa’ya biri ise İngilizceye ait olmak üzere toplam 10 dilden oluşan bir paralel derlemdir. Belirtilen derlemlerden gelişigüzel seçilen cümle sonu olan ve olmayan 30000 örnekli dengeli alt veri setleri oluşturulmuş ve deneylerde kullanılmıştır. Yapılan deneyler ile Geri Beslemeli Sinir Ağı (Back Propagation Neural Network), RBF (Radial Basis Function) Ağı, Naive Bayes sınıflayıcısı, Karar Ağacı ve Destek Vektör Makinesi (Support Vector Machine) gibi klasik sınıflandırıcılar ile LSTM ve BiLSTM gibi derin öğrenme yöntemleri kıyaslanmıştır. Bunun sonucunda derin öğrenme yöntemlerinin başarısının belirgin bir şekilde klasik sınıflandırıcılardan iyi olduğu gözlenmiştir.

Referanslar

Aksan, Y., Aksan, M., Koltuksuz, A., Sezer, T., Mersinli, Ü., Demirhan, U. U., ... and Kurtoğlu, Ö., 2012. Construction of the Turkish national corpus (TNC). In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), 3223-3227.

Aksan, Y., Özel, S. A., Bektaş, Y., Aksan, M., Demirhan, U. U., Mersinli, Ü., and Yılmazer, H., 2014. Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak/Ücretsiz Yazılımlar ve Performans Analizleri. Akademik Bilişim, Mersin 727-734.

Bektaş, Y., and Özel, S. A., 2018. The Effect of POS Tag Information on Sentence Boundary Detection in Turkish Texts. In 2018 Innovations in Intelligent Systems and Applications Conference (ASYU), Adana, 1-5.

Broomhead, D. S., and Lowe, D., 1988. Radial basis functions, multi-variable functional interpolation and adaptive networks. Royal Signals and Radar Establishment Malvern (United Kingdom).

Cortes, C., and Vapnik, V., 1995. Support-vector networks. Machine learning, 20(3), 273-297.

Demirhan, U. U., 2013. A description of the verb gel-with special reference to pattern grammar (Master's thesis, Sosyal Bilimler Enstitüsü).

Dinçer, B. T., and Karaoğlan, B., 2004. Sentence boundary detection in Turkish. In International Conference on Advances in Information Systems, Springer, Berlin, Heidelberg. 255-262.

Gers, F. A., Schraudolph, N. N., and Schmidhuber, J., 2002. Learning precise timing with LSTM recurrent networks. Journal of machine learning research, 3(Aug), 115-143.

Grishman, R., 1986. Computational linguistics: an introduction. Cambridge University Press, New York, 193p.

Han, J., and Kamber, M., 2006. Data Mining Concepts and Techniques, 2nd ed., Morgan Kaufmann Publishers, San Francisco, p800.

Hand, D. J., and Yu, K., 2001. Idiot's Bayes—not so stupid after all?. International statistical review, 69(3), 385-398.

Hilden, J., 1984. Statistical diagnosis based on conditional independence does not require it. Computers in biology and medicine, 14(4), 429-435.

Hochreiter, S., and Schmidhuber, J., 1997. Long short-term memory. Neural computation, 9(8), 1735-1780.

Kiss, T., and Strunk, J., 2006. Unsupervised multilingual sentence boundary detection. Computational linguistics, 32(4), 485-525.

Lee, D. Y., 2010. What corpora are available. The Routledge handbook of corpus linguistics, Roudledge Press, New York, 650p.

Liu, B., 2011. Web data mining: exploring hyperlinks, contents, and usage data (Vol. 1). Berlin: springer.

Mikolov, T., Karafiát, M., Burget, L., Cernocký, J., and Khudanpur, S., 2010. Recurrent neural network based language model. In Interspeech, Vol. 2, No. 3, 1045-1048.

Mundluru, D., 2008. Automatically constructing wrappers for effective and efficient Web information extraction. University of Louisiana at Lafayette.

Niuniu, X., and Yuxun, L., 2010. Notice of Retraction: Review of decision trees. In 2010 3rd international conference on computer science and information technology, Vol. 5, 105-109).

Quinlan, J. R., 1986. Induction of decision trees. Machine learning, 1(1), 81-106.

Quinlan, J. R., 1993. C4. 5: Programming for machine learning. Morgan Kauffmann, 38(48), 49.

Rumelhart, D. E., Hinton, G. E., and Williams, R. J., 1986. Learning representations by back-propagating errors. nature, 323(6088), 533-536.

Schuster, M., and Paliwal, K. K., 1997. Bidirectional recurrent neural networks. IEEE transactions on Signal Processing, 45(11), 2673-2681.

TDK, 2023.http://www.tdk.gov.tr/icerik/yazim-kurallari/noktalama-isaretleri-aciklamalar, 01/06/2023

Tyers, F. M., and Alperen, M. S., 2010. South-east european times: A parallel corpus of balkan languages. In Proceedings of the LREC workshop on exploitation of multilingual resources and tools for Central and (South-) Eastern European Languages, 49-53.

Wiki, 2023, https://en.wikipedia.org/wiki/File:Recurrent_neural_network_unfold.svg#filehistory, 01/06/2023

Türkçe Metinler İçin Pos Etiket Bilgisi İle Cümle Sonu Belirlenmesinde Derin Öğrenme Yöntemlerinin Başarısı

Yazarlar

DOI:

Anahtar Kelimeler:

Özet

Referanslar

İndir

Yayınlanmış

Nasıl Atıf Yapılır

Sayı

Bölüm

Lisans

Makale Gönder

Dil

Bilgi

Anahtar Kelimeler