Cara Mengecek Tipe dan Distribusi Data di Pandas

Pada artikel ini, saya akan membahas method atau function yang penting untuk diketahui saat mulai menganalisis data. Setelah load data ke dalam dataframe, yang sebaiknya dicek pertama kali adalah tipe data dari masing-masing kolom dan distribusi datanya.

Memeriksa tipe data dan distribusi data dapat memberikan kita gambaran singkat mengenai dataset yang akan kita analisis. Selain itu, kita juga dapat melihat apakah ada sesuatu yang berpotensi menimbulkan masalah saat proses selanjutnya, seperti misalnya tipe data yang tidak sesuai.

Ada beberapa jenis tipe data di Pandas, namun tipe data yang utama adalah object, float, int, dan datetime. Tipe data object di Pandas sama dengan string di Python.

Mengapa harus mengecek tipe data?

Pandas secara otomatis menentukan tipe data tiap kolom berdasarkan yang terdeteksi dari data asli. Namun terkadang tipe data tersebut tidak sesuai untuk merepresentasikan fitur kolom. Misalnya, kolom harga yang seharusnya bertipe float atau int karena berisi bilangan kontinu tetapi terdeteksi sebagai tipe object.

Selain itu, kita juga perlu mengecek tipe data untuk menentukan fungsi apa yang cocok untuk diterapkan pada kolom tertentu. Misalnya, fungsi matematika atau perhitungan hanya dapat diterapkan pada data numeric. Jika diterapkan pada data non-numerik maka akan terjadi error.

Cara mengecek tipe data di Pandas

Di Pandas, kita dapat menggunakan method dtypes untuk mengecek tipe data.

dataframe.dtypes

Jika nama dataframe kita adalah df, maka:

df.dtypes

Perintah diatas akan menghasilkan nama-nama kolom yang ada di dalam dataset beserta tipe datanya, misalnya seperti pada gambar di bawah ini.

Dari hasil di atas, kita dapat mellihat fitur atau kolom apa saja yang tipe datanya masih salah.

Untuk melihat informasi lainnya yang juga dapat membantu memberikan gambaran mengenai dataset adalah dengan method info().

df.info()

Output yang akan dikeluarkan method info() adalah seperti di bawah ini.

Menampilkan deskripsi statistik di Pandas

Dalam menganalisis data kita perlu memahami distribusi data pada tiap kolom. Deskripsi statistik akan membantu kita mendeteksi masalah yang mungkin ada seperti adanya outliers atau pencilan yang ekstrim dan deviasi atau penyimpangan yang besar.

Kita dapat menggunakan method describe() untuk menampilkan deskripsi statistik dari dataset.

df.describe()

Outputnya kira-kira seperti ini.

describe() akan menampilkan jumlah data di setiap kolom (count), rata-rata nilai tiap kolom (mean), standard deviasi (std), nilai minimum (min), nilai maksimum (max), serta batas nilai dari masing-masing kuartil (25%, 50%, 75%).

Secara default, describe() tidak menampilkan kolom yang berisi non-numerik. Namun, jika kita ingin melihat ringkasan dari semua kolom, kita bisa menambahkan argumen include yang diberi nilai all di dalam tanda kurungnya.

df.describe(include = "all")

Hasilnya seperti di bawah ini.

Seperti yang terlihat pada gambar di atas, semua kolom termasuk yang bertipe data object juga ditampilkan. Kita dapat melihat bahwa deskripsi statistik yang dievaluasi untuk kolom bertipe object atau non-numerik berbeda dari kolom yang bertipe numerik yakni unique, top, dan frequency.

Unique adalah jumlah objek yang berbeda di kolom tersebut. Top adalah objek yang paling banyak di suatu kolom, sedangkan freq adalah jumlah kemunculan objek top tersebut di kolom tersebut.

Beberapa nilai terlihat memiliki nilai NaN yang merupakan singkatan dari Not a Number. Itu terjadi karena perhitungan statistik tertentu tidak dapat diterapkan pada kolom-kolom dengan tipe data tertentu.

Semoga bermanfaat..

Jika Anda yang sedang belajar data science atau mengolah data dengan bahasa pemrograman Python namun masih suka bingung menulis kode Python-nya, kami telah menyusun Paket E-modul Python Data Science yang didesain khusus untuk pemula dengan penjelasan bahasa Indonesia yang lengkap untuk setiap blok kode-nya. Dapatkan sekarang juga dengan klik di sini!

Cara Mengecek Tipe dan Distribusi Data di Pandas

Mengapa harus mengecek tipe data?

Cara mengecek tipe data di Pandas

Menampilkan deskripsi statistik di Pandas

Keunggulan SQL Dibandingkan Bahasa Pemrograman Lain untuk Database

7 Visualisasi Data yang Wajib Dikuasai dengan Seaborn di Python

Apa Itu Big Data? Mengupas Revolusi Data di Era Digital

5 Algoritma Machine Learning Paling Populer untuk Pemula

5 Jenis Visualisasi Data Populer di Python dengan Matplotlib

Apa Itu Artifical Intelligence? Contoh, Jenis, dan Tantangannya