Apa itu Confusion Matrix di Machine Learning?

Confusion matrix adalah sebuah tabel yang sering digunakan untuk mengukur kinerja dari model klasifikasi di machine learning. Tabel ini menggambarkan lebih detail tentang jumlah data yang diklasifikasikan dengan benar maupun salah.

Confusion matrix adalah salah satu tools analitik prediktif yang menampilkan dan membandingkan nilai aktual atau nilai sebenarnya dengan nilai hasil prediksi model yang dapat digunakan untuk menghasilkan metrik evaluasi seperti Accuracy (akurasi), Precision, Recall, dan F1-Score atau F-Measure.

Ada empat nilai yang dihasilkan di dalam tabel confusion matrix, di antaranya True Positive (TP), False Positive (FP), False Negative (FN), dan True Negative (TN). Ilustrasi tabel confusion matrix dapat dilihat pada gambar berikut.

True Positive (TP) : Jumlah data yang bernilai Positif dan diprediksi benar sebagai Positif.

False Positive (FP) : Jumlah data yang bernilai Negatif tetapi diprediksi sebagai Positif.

False Negative (FN) : Jumlah data yang bernilai Positif tetapi diprediksi sebagai Negatif.

True Negative (TN) : Jumlah data yang bernilai Negatif dan diprediksi benar sebagai Negatif.

Interpretasi Confusion Matrix

Misalnya pada saat menonton sepak bola tim favorit Anda, Anda telah memprediksi tim sepak bola favorit Anda menang, dan memang ternyata menang. Itu adalah True Positive (TP).

Jika Anda telah memprediksi tim sepak bola favorit Anda menang, namun kenyataannya kalah, itu adalah False Positive (FP).

Jika Anda telah memprediksi tim sepak bola favorit Anda kalah, namun ternyata menang, itu adalah False Negative (FN).

Jika Anda telah memprediksi tim sepak bola favorit Anda kalah, dan memang ternyata kalah, itu adalah True Negative (TN).

Masih bingung bagaimana penerapannya di dalam dataset? Mari kita ambil contoh lain.

Misalnya, kita memiliki dataset penyakit kanker dari pasien di sebuah rumah sakit lalu kita akan membuat model machine learning dari data tersebut menggunakan sebuah classifier dimana target labelnya adalah Ya untuk yang terkena kanker, dan Tidak untuk yang tidak terkena kanker.

Jika ada data yang berlabel Ya pada dataset dan juga berlabel Ya di hasil prediksi model machine learning, itu adalah True Positive (TP).

Jika ada data yang berlabel Tidak pada dataset, tetapi berlabel Ya di hasil prediksi, itu adalah False Positive (FP).

Jika ada data yang berlabel Ya pada dataset, tetapi berlabel Tidak di hasil prediksi, itu adalah False Negative (FN).

Jika ada data yang berlabel Tidak pada dataset dan juga berlabel Tidak di hasil prediksi, itu adalah True Negative (TN).

Cara menggunakan Confusion Matrix

Seperti telah disinggung di atas, confusion matrix digunakan untuk menghitung nilai akurasi, presicion, recall, dan F1-score. Keempat metode evaluasi tersebut sangat bermanfaat untuk mengukur performa dari classifier atau algoritma machine learning yang kita gunakan untuk melakukan prediksi.

Sekarang mari kita bahas satu per satu cara menghitung metode evaluasi tersebut dengan menggunakan confusion matrix.

Accuracy

Nilai akurasi didapatkan dari jumlah data bernilai positif yang diprediksi positif dan data bernilai negatif yang diprediksi negatif dibagi dengan jumlah seluruh data di dalam dataset.

Precision

Precision adalah peluang kasus yang diprediksi positif yang pada kenyataannya termasuk kasus kategori positif.

Recall

Recall adalah peluang kasus dengan kategori positif yang dengan tepat diprediksi positif.

F1-Score atau F-Measure

Nilai F1-Score atau dikenal juga dengan nama F-Measure didapatkan dari hasil Precision dan Recall antara kategori hasil prediksi dengan kategori sebenarnya.

Semoga bermanfaat!

Apa itu Confusion Matrix di Machine Learning?

Interpretasi Confusion Matrix