QUIZ DATA MINING
1. Integrasi dan pembersihan data
- Cari IPS setiap semester permahasiswa. ini bisa memudahkan untuk normalisasi data
1) Perkalian SKS dengan Nilai: Pertama, dilakukan perhitungan nilai total untuk setiap
mata kuliah dengan mengalikan jumlah SKS (Satuan Kredit Semester) dari setiap
mata kuliah dengan nilai grade yang diperoleh mahasiswa dalam mata kuliah
tersebut. Ini dilakukan dengan menggunakan kode df_transkip_nilai['nilai_total'] =
df_transkip_nilai['sks_mk'] * df_transkip_nilai['nilai_grade'].
2) Pengelompokkan Data: Data kemudian dikelompokkan berdasarkan NIM (Nomor
Induk Mahasiswa) dan semester. Ini dilakukan dengan menggunakan fungsi
groupby pada dataframe df_transkip_nilai, dengan kolom-kolom 'nim' dan
'semester' sebagai kunci pengelompokan.
3) Aggregasi Data: Setelah pengelompokkan, dilakukan agregasi data untuk setiap
kelompok. Jumlah SKS dan nilai total dijumlahkan untuk setiap kelompok
menggunakan fungsi sum() pada kolom 'sks_mk' dan 'nilai_total'.
4) Reset Index: Indeks dari hasil pengelompokkan dan agregasi di-reset sehingga data
dapat diakses lebih mudah.
5) Perhitungan IPS: IPS (Indeks Prestasi Semester) dihitung dengan membagi nilai
total dengan jumlah SKS untuk setiap kelompok. Hasil perhitungan ini disimpan
dalam kolom baru 'ips'.
6) Menampilkan Hasil: Data IPS per mahasiswa per semester ditampilkan
menggunakan perintah print(ips_per_mahasiswa_semester).
Gabungkan IPS permahasiswa dengan dataset yang lainya ("ms_lulusan") berdasarkan NIM.
1) Merge Data: Menggunakan fungsi pd.merge(), kedua dataset df_ms_lulusan dan
ips_per_mahasiswa_semester digabungkan. Parameter on='nim' menunjukkan
bahwa penggabungan dilakukan berdasarkan kolom 'nim', yang merupakan
identifikasi unik untuk setiap mahasiswa.
2) Metode Penggabungan: Metode yang digunakan adalah 'left join' (how='left'). Ini
berarti semua baris dari df_ms_lulusan akan tetap ada dalam hasil gabungan,
sementara data dari ips_per_mahasiswa_semester akan ditambahkan sesuai dengan
kecocokan kolom 'nim'. Jika ada nim pada df_ms_lulusan yang tidak ada di
ips_per_mahasiswa_semester, kolom-kolom hasil gabungan untuk nim tersebut
akan berisi nilai NaN.
3) Tampilkan Hasil: Hasil penggabungan ditampilkan menggunakan fungsi display(),
sehingga dapat dilihat secara langsung dalam output.
Tambahkan hasil dari durasi studi
masing-masing mahasiswa
hilang dalam dataset dengan menggunakan metode .isnull() diikuti dengan .sum(). Ini
menghasilkan jumlah nilai yang hilang untuk setiap kolom dalam dataset. Output dari
perintah ini memberikan informasi tentang jumlah nilai yang hilang dalam setiap
kolom.
2) Hapus Baris dengan Nilai yang Hilang: Setelah mengidentifikasi nilai yang hilang,
baris-baris yang mengandung nilai yang hilang tersebut dihapus dari dataset
menggunakan fungsi dropna(). Dengan demikian, baris-baris yang memiliki setidaknya
satu nilai yang hilang dihapus dari dataset.
3) Hapus Mahasiswa Pindahan: Selanjutnya, baris-baris yang mewakili mahasiswa
pindahan (diasumsikan sebagai mahasiswa yang memiliki status_masuk == 1) dihapus
dari dataset. Ini dilakukan dengan menggunakan filtering pada kolom status_masuk,
hanya menyertakan baris-baris dengan nilai status_masuk == 0.
4) Tampilkan Hasil: Hasil dari proses penghapusan nilai yang hilang dan mahasiswa
pindahan ditampilkan menggunakan fungsi display(), sehingga dapat dilihat struktur
dan isi dataset yang telah diubah.
1. Standardisasi format tanggal
dan jenis kelamin untuk
analisis lebih lanjut.
tanggal yang standar menggunakan fungsi pd.to_datetime(). Ini membantu dalam
memastikan bahwa nilai-nilai dalam kolom tersebut diinterpretasikan sebagai objek
datetime, memungkinkan analisis waktu yang lebih mudah dilakukan.
2) Penggantian Nilai dalam Kolom 'jenis_kelamin': Nilai dalam kolom 'jenis_kelamin'
diubah dari representasi numerik menjadi representasi kata dengan menggunakan
fungsi replace(). Angka 1 diganti dengan 'Laki-laki', sedangkan angka 0 diganti dengan
'Perempuan'. Ini bertujuan untuk membuat interpretasi data menjadi lebih jelas dan
intuitif.
2. Analisis
1. Cari pola atau tren yang paling mempengaruhi dengan lulusan tepat waktu atau lama
masa studi, misal :
1) Analisis apakah ada hubungan antara nilai rata-rata mata kuliah atau IPS dengan
lulusan tepat waktu.
Uji Hipotesis untuk Nilai Rata-rata Mata Kuliah:
a. Dilakukan uji t-student independen dengan menggunakan stats.ttest_ind().
b. Kelompok pertama adalah mahasiswa yang lulus tepat waktu, diwakili oleh
merged_data[merged_data['status_lulus'] == 'Tepat Waktu']['nilai_total'].
c. Kelompok kedua adalah mahasiswa yang tidak lulus tepat waktu, diwakili oleh
merged_data[merged_data['status_lulus'] == 'Tidak Tepat Waktu']['nilai_total'].
d. Hasil uji hipotesis ditampilkan dalam bentuk nilai t-statistic dan p-value untuk
mengevaluasi signifikansi perbedaan antara kedua kelompok ini.
Uji Hipotesis untuk IPS:
e. Dilakukan uji t-student independen serupa untuk IPS.
f. Kelompok pertama adalah mahasiswa yang lulus tepat waktu, diwakili oleh
merged_data[merged_data['status_lulus'] == 'Tepat Waktu']['ips'].
g. Kelompok kedua adalah mahasiswa yang tidak lulus tepat waktu, diwakili oleh
merged_data[merged_data['status_lulus'] == 'Tidak Tepat Waktu']['ips'].
h. Hasil uji hipotesis juga ditampilkan dalam bentuk nilai t-statistic dan p-value.
Menampilkan Hasil:
i. Hasil dari kedua uji hipotesis ditampilkan dengan menggunakan perintah print()
untuk t-statistic dan p-value dari masing-masing uji hipotesis.
Dengan demikian, kode tersebut memberikan evaluasi statistik tentang perbedaan
nilai rata-rata mata kuliah dan IPS antara kelompok mahasiswa yang lulus tepat waktu
dan yang tidak lulus tepat waktu. P-value yang rendah menunjukkan bahwa perbedaan
antara kedua kelompok tersebut signifikan secara statistik.
2. Analisis apakah ada korelasi positif antara predikat kelulusan 'Pujian' dengan lulusan
tepat waktu
• Uji Korelasi dengan Chi-Square Test:
a. Tabel kontingensi dibuat terlebih dahulu menggunakan fungsi pd.crosstab()
untuk menghitung frekuensi setiap kombinasi predikat kelulusan dan status
kelulusan tepat waktu.
b. Kemudian, dilakukan uji korelasi menggunakan chi-square test dengan
fungsi chi2_contingency(). Hasil uji korelasi mencakup nilai chi-square
(chi2), nilai p (p), derajat kebebasan (dof), dan nilai harapan (expected).
c. Untuk mengukur kekuatan korelasi, dilakukan perhitungan Cramer's V,
yang merupakan akar kuadrat dari chi-square dibagi dengan jumlah total
data dikalikan dengan (jumlah baris kolom terkecil - 1).
• Analisis Deskriptif:
a. Hasil tabel kontingensi ditampilkan menggunakan perintah print(), sehingga
dapat dilihat distribusi frekuensi untuk setiap kombinasi predikat kelulusan
dan status kelulusan tepat waktu.
• Visualisasi Tabel Kontingensi:
a. Tabel kontingensi juga divisualisasikan menggunakan heatmap dari library
seaborn. Setiap sel pada heatmap menunjukkan frekuensi observasi untuk
kombinasi predikat kelulusan dan status kelulusan tepat waktu.
b. Anotasi pada heatmap menampilkan nilai frekuensi untuk setiap sel.
3. Analisis untuk melihat apakah durasi studi lebih pendek berkorelasi dengan predikat
kelulusan yang lebih baik
1) Pisahkan Data Menjadi Dua Kelompok:
• Data dipisahkan menjadi dua kelompok berdasarkan predikat kelulusan, yaitu
'baik' dan 'buruk'. Ini dilakukan dengan membuat dua series: predikat_baik yang
berisi durasi studi untuk predikat kelulusan 'baik', dan predikat_buruk yang
berisi durasi studi untuk predikat kelulusan 'buruk'.
2) Lakukan Uji T:
• Dilakukan uji t-student independen menggunakan fungsi ttest_ind() untuk
membandingkan rata-rata durasi studi antara kedua kelompok.
• Hasil uji t-statistic dan p-value disimpan dalam variabel t_statistic dan p_value.
3) Interpretasi Hasil:
• Dilakukan interpretasi hasil berdasarkan nilai p-value yang dihasilkan.
4) Jika p-value kurang dari 0.05, maka terdapat perbedaan yang signifikan antara
kedua kelompok. Interpretasi lebih lanjut dilakukan berdasarkan tanda t-statistic:
• Jika t_statistic positif, maka rata-rata durasi studi pada kelompok predikat
kelulusan yang lebih baik lebih pendek daripada kelompok predikat kelulusan
yang lebih buruk.
• Jika t_statistic negatif, maka rata-rata durasi studi pada kelompok predikat
kelulusan yang lebih baik lebih panjang daripada kelompok predikat kelulusan
yang lebih buruk.
• Jika p-value lebih besar dari 0.05, maka tidak terdapat perbedaan yang
signifikan dalam durasi studi antara kedua kelompok predikat kelulusan yang
berbeda.
5) Menampilkan Hasil:
• Hasil interpretasi ditampilkan menggunakan perintah print().
4. Hitung rata-rata nilai total untuk masing-masing jenis kelamin dan bandingkan untuk
melihat apakah ada perbedaan signifikan dalam prestasi akademik berdasarkan jenis
kelamin
• Pemisahan Data Berdasarkan Jenis Kelamin:
a. Data dipisahkan menjadi dua kelompok berdasarkan jenis kelamin:
perempuan dan laki-laki. Ini dilakukan dengan membuat dua series:
nilai_perempuan yang berisi nilai total untuk mahasiswa perempuan, dan
nilai_laki_laki yang berisi nilai total untuk mahasiswa laki-laki.
• Perhitungan Rata-rata Nilai Total:
b. Rata-rata nilai total dihitung untuk masing-masing kelompok
menggunakan metode .mean().
• Lakukan Uji T:
c. Dilakukan uji t-student independen menggunakan fungsi ttest_ind() untuk
membandingkan nilai total antara kedua kelompok.
d. Hasil uji t-statistic dan p-value disimpan dalam variabel t_statistic dan
p_value.
• Interpretasi Hasil:
a. Dilakukan interpretasi hasil berdasarkan nilai p-value yang dihasilkan.
• Jika p-value kurang dari 0.05, maka terdapat perbedaan yang signifikan antara
kedua kelompok. Interpretasi lebih lanjut dilakukan berdasarkan tanda t-
statistic:
a. Jika t_statistic positif, maka rata-rata nilai total untuk perempuan lebih
tinggi daripada untuk laki-laki.
b. Jika t_statistic negatif, maka rata-rata nilai total untuk laki-laki lebih tinggi
daripada untuk perempuan.
c. Jika p-value lebih besar dari 0.05, maka tidak terdapat perbedaan yang
signifikan dalam prestasi akademik berdasarkan jenis kelamin.
• Menampilkan Hasil:
a. Hasil interpretasi ditampilkan menggunakan perintah print().
5. atau gabungan dari beberapa variabel yang mempengaruhi lulusatepat waktu
• Identifikasi Nilai yang Hilang:
a. Jumlah nilai yang hilang dalam kolom 'ips' dihitung menggunakan fungsi
isnull().sum().
• Penanganan Nilai yang Hilang:
a. Misalnya, nilai-nilai yang hilang digantikan dengan rata-rata dari kolom 'ips'
menggunakan fungsi fillna().
• Periksa Kembali Kriteria Pemilihan Data:
a. Dilakukan pengecekan kembali apakah ada mahasiswa yang lulus tepat
waktu dalam dataset. Jika tidak ada, pesan akan dicetak bahwa tidak ada
mahasiswa yang lulus tepat waktu dalam dataset. Namun, jika ada, maka
dilakukan perhitungan rata-rata IPS untuk mahasiswa yang lulus tepat
waktu setelah penanganan nilai yang hilang.
• Menampilkan Hasil:
a. Hasil dari penanganan nilai yang hilang dan perhitungan rata-rata IPS
mahasiswa yang lulus tepat waktu setelah penanganan nilai yang hilang
ditampilkan menggunakan perintah print().
3. Laporan dan Presentasi
• Sajikan hasil analisis dalam bentuk laporan tertulis yang lengkap dengan grafik atau
tabel yang mendukung hasil analisis.
• Data yang Digunakan:
a. Data yang digunakan berasal dari dua kolom dalam dataset: 'durasi_studi'
yang berisi durasi studi dalam hari, dan 'predikat' yang merupakan variabel
biner yang menunjukkan apakah mahasiswa tersebut mendapatkan predikat
"Pujian" (1: Ya, 0: Tidak).
• Scatter Plot:
a. Scatter plot dibuat menggunakan fungsi plt.scatter().
b. Variabel 'durasi_studi' diplot pada sumbu x dan variabel 'predikat_pujian'
diplot pada sumbu y.
c. Alpha digunakan untuk mengatur transparansi titik-titik pada plot.
• Judul dan Label SumBu:
a. Judul plot adalah "Hubungan antara Durasi Studi dan Proporsi Mahasiswa
dengan Predikat 'Pujian' yang Lulus Tepat Waktu".
b. Label sumbu x adalah "Durasi Studi (hari)".
c. Label sumbu y adalah "Predikat 'Pujian' (1: Ya, 0: Tidak)".
• Tampilan Tambahan:
a. Grid ditampilkan pada plot menggunakan plt.grid(True) untuk membantu
mempermudah dalam membaca plot.
• Menampilkan Plot:
a. Plot ditampilkan menggunakan fungsi plt.show().
• Rata-rata nilai ips berdasarkan jenis kelamin
• Perbandingan rata-rata nilai total berdasarkan jenis kelamin
Berikut untuk membuka dan mendownload file pdf:
CRT Lahh Kalo Ada Masalah 🫠
BalasHapusmanyala abangku
Hapus