metodologi data science

Metodologi Data Science CRISP-DM

Posted by

Metodologi data science adalah langkah-langkah digunakan dalam proyek data science agar dapat menghasilkan hasil yang optimal yang dapat menjawab pertanyaan dari suatu masalah yang ingin diselesaikan. Metodologi ini tidak bergantung pada teknologi atau tools tertentu. Metodologi data science yang dibahas disini adalah metode CRISP-DM yang dikemukakan oleh John Rollins yang merupakan seorang senior Data Scientist di IBM. Gambar di bawah ini merupakan 10 tahapan metodologi data science dengan metode CRISP-DM.

metodologi data science
Metodologi Data Science CRISP-DM. Pic Source: ibmbigdatahub.com

Masing-masing tahapan dalam metodologi data science di atas dimaksudkan untuk menjawab 10 pertanyaan dasar seperti di bawah ini:

  1. What is the problem that you are trying to solve?
  2. How can you use data to answer the question?
  3. What data do you need to answer the question?
  4. Where is the data coming from (identify all sources) and how will you get it?
  5. Is the data that you collected representative of the problem to be solved?
  6. What additional work is required to manipulate and work with the data?
  7. In what way can the data be visualized to get the answer that is required?
  8. Does the model used really answer the initial question or does it need to be adjusted?
  9. Can you put the model into practice?
  10. Can you get constructive feedback into answering the question?

Tahapan dalam metodologi data science merupakan proses berulang, yang mana jika dalam suatu tahapan dirasa masih belum sesuai, bisa kembali ke tahap sebelumnya. Untuk lebih jelasnya, mari kita bahas satu per satu.

Baca juga: Pengenalan Data Science dan Skills yang Dibutuhkan

Business understanding

What is the problem that you are trying to solve?
Masalah apa yang sedang coba diselesaikan?

Metodologi data science yang pertama kali harus dilakukan adalah business understanding. Setiap project harus dimulai dengan pemahaman bisnis yang baik agar sukses menyelesaikan  permasalahan bisnis yang ingin ditangani. Tahap ini memainkan peranan penting dengan mendefinisikan masalah, tujuan, dan kebutuhan solusi dari perspektif bisnis. Untuk lebih jelasnya, mari kita diskusikan menggunakan studi kasus.

Misalnya, perusahaan asuransi ingin menggunakan data science untuk menyelesaikan masalah, katakanlah pertanyaannya: “Bagaimana cara terbaik untuk mengalokasikan dana kesehatan yang terbatas agar dapat memaksimalkan penggunaannya dalam memberikan layanan yang berkualitas?”

Sebelum memulai mengumpulkan data, target dan tujuan dari pertanyaan tersebut perlu didefinisikan terlebih dahulu. Kita memerlukan penjelasan dari si pemberi pertanyaan untuk dalam mengetahui lebih detail target dan tujuannya. Misalnya dalam kasus ini, targetnya adalah menyediakan layanan kesehatan tanpa menaikkan biaya, sedangkan tujuannya adalah meninjau kembali proses yang sudah berjalan untuk mengidentifikasi ketidakefektifan (inefficiencies).

Setelah menentukan target dan tujuan, misalnya tim data scientist memprioritaskan “perawatan kembali pasien” sebagai area yang efektif untuk ditinjau ulang. Dengan bekal target dan tujuan yang sudah ditentukan, ditemukan bahwa 25-35% pasien yang telah selesai menjalani perawatan akan kembali menjalani perawatan dalam waktu satu tahun, sementara 50% pasien akan kembali menjalani perawatan dalam waktu lima tahun. Dan pasien gagal jantung merupakan pasien terbanyak yang kembali menjalani perawatan.

Akhirnya, setelah memahami permasalahan bisnis, selanjutnya adalah mengidentifikasi business requirement. Misalnya dalam kasus ini business requirement-nya disimpulkan sebagai berikut:

  1. Memprediksi kemungkinan pasien gagal jantung menjalani perawatan kembali.
  2. Memprediksi kemungkinan pasien (apapun penyakitnya) menjalani perawatan kembali.
  3. Memahami secara eksplisit hal apa saja yang menyebabkan pasien menjalani perawatan kembali atau tidak.
  4. Mengaplikasikan prediksi kemungkinan pada pasien baru apakah akan menjalani perawatan kembali atau tidak.

Analytic approach

How can you use data to answer the question?
Bagaimana menggunakan data untuk menjawab pertanyaan yang ada?

Setelah mendefinisikan permasalahan bisnis dengan jelas, tahap metodologi data science selanjutnya yang dilakukan data scientist adalah menentukan pendekatan analitik untuk menyelesaikan masalah tersebut. Dalam tahap ini dilakukan pendefinisian masalah dalam konteks statistik atau machine learning untuk memperoleh hasil yang diinginkan.

Memilih analytic approach bergantung pada pertanyaan yang ditanyakan atau permasalahan yang akan coba diselesaikan yang telah didapatkan pada tahap business understanding. Analytic approach dipilih berdasarkan konteks business requirement yang telah didefinisikan yaitu dengan mengidentifikasi jenis pola atau model apa yang paling efektif yang diperlukan untuk menyelesaikan permasalahan tersebut.

Jika permasalahannya adalah untuk menentukan probabilitas dari sebuah tindakan, mungkin bisa menggunakan model prediktif. Jika untuk menunjukkan suatu hubungan, mungkin diperlukan pendekatan deskriptif. Analisis statistik diterapkan jika masalahnya membutuhkan perhitungan. Jika permasalahannya membutuhkan jawaban Yes/No, maka pendekatan klasifikasi adalah yang paling ideal digunakan.

Baca juga: Pengenalan Library Python Untuk Data Science

Data requirements

What data do you need to answer the question?
Data apa yang dibutuhkan untuk dapat menjawab pertanyaan tersebut?

Tahap ketiga di metodologi data science adalah data requirements. Pemilihan pendekatan analitik menentukan data requirements atau data apa saja yang dibutuhkan agar permasalahan dapat terjawab.

Sama halnya ketika kita ingin memasak jenis makanan tertentu, kita tentu harus menyiapkan bahan-bahan yang dibutuhkan yang sesuai dengan makanan tersebut. Penggunaan bahan-bahan yang tidak sesuai tentunya akan mengakibatkan rasa atau hasil yang kurang memuaskan.

Begitu pula dalam tahapan data requirements. Dalam tahap ini, asumsikan kita akan “memasak” dengan data. Misalnya masalah yang perlu diselesaikan adalah resepnya dan data adalah bahan-bahannya, maka yang perlu kita identifikasi adalah data apa saja yang diperlukan, bagaimana mengumpulkan data tersebut, bagaimana mengolah data tersebut, dan bagaimana menyiapkan data tersebut agar sesuai dengan hasil yang diinginkan.

Data collection

Where is the data coming from (identify all sources) and how will 
you get it?

Darimana data tersebut berasal dan bagaimana cara mendapatkannya?

Setelah menentukan data requirements, data scientist mulai mengidentifikasi dan mengumpulkan data yang relevan dengan domain masalah. Tahap ini merupakan tahap ke empat di metodologi data science.

Adakalanya dalam tahap ini, data yang kita butuhkan tidak tersedia. Maka saat menemukan kendala seperti ini, sangat mungkin bagi kita untuk merevisi kembali data requirement dan memutuskan apakah akan mengumpulkan lebih banyak atau lebih sedikit data.

Data understanding

Is the data that you collected representative of the problem to be 
solved?

Apakah data yang telah dikumpulkan merepresentasikan masalah yang akan
diselesaikan?

Dalam proses ini, kita mencoba mempelajari data dan melihat kualitas data yang kita miliki, apakah sudah cukup baik untuk proses modeling atau belum. Pada tahap ke lima dari metodologi data science ini, kita akan mengecek apakah ada missing values, data yang imbalanced, outlier, salah format, dan sebagainya yang harus diperbaiki terlebih dahulu.

Proses data understanding yang populer adalah dengan menggunakan statistik deskriptif dan teknik visualisasi. Teknik ini membantu data scientist memahami isi data, menilai kualitas data, dan menemukan insight awal dari data tersebut.

Data preparation

What additional work is required to manipulate and work with the data?
Proses tambahan apa yang diperlukan untuk memanipulasi data tersebut?

Tahap data preparation terdiri dari semua kegiatan atau proses yang dilakukan untuk membangun dataset yang akan digunakan dalam tahap pemodelan, termasuk membersihkan data, menggabungkan data, dan mengubah data menjadi variabel yang lebih berguna.

Sama halnya dalam proses memasak, tahap ini bisa diasumsikan seperti tahap mempersiapkan bahan-bahan sebelum akhirnya dimasak, seperti mengupas kulit, membuang bagian yang busuk, mencucinya hingga bersih, dan memotong atau mengirisnya agar siap untuk dimasak.

Agar data dapat diproses secara efektif pada tahap pemodelan, data harus dipersiapkan dengan baik dengan membersihkannya dari missing values, invalid values, dan data duplikat serta memastikan bahwa seluruh data telah memiliki format yang benar.

Baca juga: Pengenalan Machine Learning atau Pembelajaran Mesin

Feature engineering juga merupakan bagian dari data preparation. Feature engineering adalah proses transformasi data menjadi fitur-fitur yang lebih representatif dan dalam membantu menyelesaikan masalah dengan lebih baik. Fitur-fitur di dalam data sangat penting untuk model prediktif dan akan berdampak pada hasil yang ingin dicapai.

Data preparation merupakan tahapan yang paling memakan banyak waktu. Sebagian data scientist mengatakan tahap ini bisa menghabiskan sekitar 70% atau bahkan 80% dari keseluruhan proses dalam projek data science.

Modeling

In what way can the data be visualized to get the answer that is 
required?

Dengan cara apa data dapat divisualisasikan untuk memperoleh hasil
yang dibutuhkan?

Modeling atau pemodelan adalah tahap dalam metodologi data science dimana data scientist membuat model untuk menjawab permasalahan. Seperti halnya memasak, tahap ini adalah tahap mencicipi masakan (data) apakah sudah baik ataukah perlu menambahkan bumbu lagi.

Pemodelan data berfokus pada mengembangkan model, baik itu model deskriptif atau prediktif. Contoh model deskriptif misalnya, jika seseorang melakukan A, maka mereka mungkin menyukai B. Sementara itu, model prediktif adalah jenis model yang menghasilkan tipe jawaban Yes/No atau Stop/Go.  Model ini bergantung pada analytical approach yang telah ditentukan sebelumnya, apakah menggunakan pendekatan statistik atau machine learning.

Proses pemodelan untuk model prediktif menggunakan data training. Data training adalah kumpulan data dimana hasil labelnya telah diketahui. Data training bertindak sebagai pengukur apakah model tersebut perlu penyesuaian lagi atau tidak. Proses ini sifatnya iteratif atau bisa diulang hingga mendapatkan hasil yang baik.

Evaluation

Does the model used really answer the initial question or does it need 
to be adjusted?

Apakah model yang digunakan benar-benar sudah menjawab pertanyaan atau
perlu diperbaiki lagi?

Setelah proses pemodelan, tahap selanjutnya adalah mengevaluasi kualitas model dan mengujinya apakah dapat mengatasi permasalahan bisnis dengan tepat.  Evaluasi model dapat memiliki dua fase yaitu, fase diagnostic measures dan fase statistical significance testing.

Baca juga: Cara Import dan Export Data di Python

Diagnostic measures digunakan untuk memastikan model bekerja dengan baik sesuai yang diharapkan, sedangkan statistical significance testing dapat digunakan untuk memastikan bahwa data yang digunakan telah ditangani dan diinterpretasikan dengan benar di dalam model.

Deployment

Can you put the model into practice?
Dapatkah model tersebut Anda praktekkan/terapkan?

Setelah model yang dikembangkan dirasa telah menghasilkan output yang memuaskan dan telah mendapat persetujuan dari stakeholder, model tersebut siap di-deploy atau digunakan di lingkungan bisnis.

Feedback

Can you get constructive feedback into answering the question?
Dapatkah Anda mendapatkan feedback/umpan balik yang membangun untuk
menjawab pertanyaan?

Setelah proses model deployment, perusahaan akan mendapatkan feedback atau umpan balik tentang kinerja model. Dengan menganalisis feedback memungkinkan data scientist memperbaiki model serta meningkatkan akurasi dan kegunaannya.

Semoga bermanfaat!

modul data science ilmudatapy