Performa akademik mahasiswa adalah hasil dari banyak faktor, bukan hanya kemampuan intelektual, tetapi juga kebiasaan harian mereka seperti durasi belajar, waktu bermain media sosial, hingga pola tidur. Melalui analisis data dan teknik machine learning, kita dapat mengungkap hubungan tersebut dan memprediksi siapa saja yang berpotensi memiliki performa baik atau sebaliknya.
Artikel ini membahas bagaimana kita mengolah data kebiasaan mahasiswa dan membangun model klasifikasi performa mereka dengan Python.
Dataset yang Digunakan
Dataset berisi 2.000 data mahasiswa dengan informasi berikut:
- student_id: ID unik tiap mahasiswa
- age: Usia mahasiswa
- gender: Jenis kelamin (Male/Female)
- study_hours_per_day: Rata-rata jam belajar per hari
- social_media_hours: Rata-rata jam penggunaan media sosial
- GPA: Nilai IPK (0.0 - 4.0)
- performance: Kategori performa: Low, Medium, High
1. Eksplorasi Data Awal (EDA)
Langkah pertama adalah memuat data menggunakan Python Pandas, dilanjutkan visualisasi korelasi antar variabel dengan Seaborn.
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv('/content/student_habits_performance.csv')
df.head()
Visualisasi korelasi:
sns.pairplot(df, hue='performance', vars=['study_hours_per_day', 'social_media_hours', 'GPA'])
plt.show()
2. Preprocessing Data
Tahapan ini mengubah kategori teks ke angka (encoding) dan memastikan data bersih tanpa nilai kosong.
df['gender'] = df['gender'].map({'Male': 0, 'Female': 1})
df['performance'] = df['performance'].map({'Low': 0, 'Medium': 1, 'High': 2})
3. Membangun Model Klasifikasi
Model Decision Tree digunakan karena mudah dipahami, cocok untuk data tabular, dan bisa menangani variabel numerik maupun kategorikal.