Çevrimiçi Öğrenme Ortamlarında Öğrenme Analitiği Verileri Ve Makine Öğrenmesi Kullanarak Akademik Başarının Değerlendirilmesi
Özet
Covid - 19 salgını döneminde daha önce de kullanılan ancak yaygın olmayan çevrimiçi öğrenme ortamlarının sayısı artmıştır. Bu ortamlarda oluşan öğrenme analitiği verileri üzerinde makine öğrenmesi yöntemleri ile öğrenci başarısının tahmini ve sınıflandırma çalışmaları son yıllarda önem kazanmaktadır. Çevrimiçi öğrenme ortamından elde edilen öğrenme analitiği verileriyle öğrenci başarısı arasındaki ilintinin anlaşılması amacıyla; öğrenci başarısının tahmini ve sınıflandırması yapılmıştır. Veri kümesi üzerinde ilinti (korelasyon), özniteliğin önemi, fisher puanı, selectKbest ve bilgi kazancı öznitelik seçim yöntemleri kullanılarak öğrenci başarısı ile ilintili olan özniteliklerin tespiti yapılmıştır. Seçimi yapılan özniteliklerin normalizasyonu ve verilerin one hot encoding (OHE) yöntemi ile temsili sağlanmıştır. Öğrenci başarısının tahmini ve sınıflandırılmasında geleneksel makine öğrenmesi algoritmaları Rastgele orman (Random Forest-RF), Çok katmanlı algılayıcı (Multilayer Perceptron-MLP) ve k-en yakın komşu (k-Nearest Neighbours, k-NN) probleme uygulanmıştır. Bu çalışmada, öğrenci başarısının tahmini ve sınıflandırılması için verilerin OHE temsiline, öznitelik seçimine ve Evrişimsel Sinir Ağı (ESA)-(Convolutional Neural Network-CNN) mimarisine dayalı bir yöntem önerilmektedir. Belirtilen amaç doğrultusunda Başkent Üniversitesi’nin 2020-2021 akademik yılının çevrimiçi öğrenme ortamı olan Moodle verileri ile 2013-2014 yıllarına ait İngiltere’deki Open University çevrimiçi öğrenme veri kümesi kullanılmıştır. Başkent Üniversitesi veri kümesinde OHE temsili ve temsilsiz üçlü sınıflandırma çalışmasında önerilen ESA modeli %92 doğruluk başarım oranı ile geleneksel makine öğrenmesi yöntemlerinden yüksektir. Literatürde Open University veri kümesi üzerinde yapılan ikili, üçlü ve dörtlü sınıflandırma çalışma sonuçları ile önerilen ESA modeli sonuçları karşılaştırılmıştır. İkili sınıflandırmada %95,43 ile en yüksek başarım oranı bulunurken üçlü sınıflandırmada %88 ve dörtlü sınıflandırmada %73,32 değerleri diğer çalışmalara göre daha yüksek olarak bulunmuştur. Öğrenci başarısını tahmininde hata değerlendirme ölçütü olarak belirlenen kök ortalama kare hata (RMSE) ve ortalama mutlak hata (MAE) değerleri önerilen ESA modelinde %1’in altında kalarak diğer modellere göre düşük bir hata oranı vermiştir. Farklı veri kümeleri üzerinde ayrı ayrı kullanılan öznitelik seçimi, verilerin OHE temsili ve ESA mimarisine dayalı yöntem bu çalışmada birlikte kullanılarak literatüre katkı sunmaktadır.
During the Covid-19 pandemic, the use of online learning environments is rapidly increasing. Estimation and classification studies of student success with machine learning methods on learning analytics data generated in these environments have gained importance in recent years. In order to understand the relationship between learning analytics data obtained from the online learning environment and student success; in this thesis, we deal with the estimation and classification of student success using the learning analytic data. With these aims, we propose a method based on One-Hot-Encoding (OHE) representation of data, feature selection, and Convolutional Neural Network (CNN) architecture for the estimation and classification of student success. We determine the features related to student success by using correlation, feature importance, fisher score, selectKbest, and knowledge gain feature selection methods on the data set. We also perform the normalization of the selected features and transform the representation of the data with OHE method. To demonstrate the efficacy of the proposed CNN-based architecture we also employ traditional machine learning algorithms such as Random Forest (RF), Multilayer Perceptron (MLP), and k-Nearest Neighbor, (k-NN) in the analyses. For the learning analytics data, we use the Moodle data, which is the online learning environment of Başkent University of the 2020-2021 academic year, and the Open University online learning dataset of years 2013-2014 in England. The results on the Başkent University dataset show that the proposed CNN model with- and without-OHE in three-class classification (fail, pass, distinction) score is higher than the traditional machine learning methods. We also compare the results of binary (fail, pass), three-class (withdrawn, fail, pass) and four-class (withdrawn, fail, pass, distinction) classification performance of our proposed CNN-based architecture on the Open University dataset. We achieved better results than the literature with the highest accuracy rates of 95.43% in two-class classification, 88% in three-class classification and 73.32% in four-class classification. For the estimation of student's grade, Root mean square error (RMSE) and mean absolute error (MAE) values remained below 1% in the proposed CNN-based model, giving a low error rate compared to other models. As a result, the proposed method achieves promising and better results in the evaluations.