mengecek tipe data dan distribusi data

Cara Mengecek Tipe dan Distribusi Data di Pandas

Posted by

Pada artikel ini, saya akan membahas method atau function yang penting untuk diketahui saat mulai menganalisis data. Setelah load data ke dalam dataframe, yang sebaiknya dicek pertama kali adalah tipe data dari masing-masing kolom dan distribusi datanya.

Memeriksa tipe data dan distribusi data dapat memberikan kita gambaran singkat mengenai dataset yang akan kita analisis. Selain itu, kita juga dapat melihat apakah ada sesuatu yang berpotensi menimbulkan masalah saat proses selanjutnya, seperti misalnya tipe data yang tidak sesuai.

Ada beberapa jenis tipe data di Pandas, namun tipe data yang utama adalah object, float, int, dan datetime. Tipe data object di Pandas sama dengan string di Python.

Mengapa harus mengecek tipe data?

Pandas secara otomatis menentukan tipe data tiap kolom berdasarkan yang terdeteksi dari data asli. Namun terkadang tipe data tersebut tidak sesuai untuk merepresentasikan fitur kolom. Misalnya, kolom harga yang seharusnya bertipe float atau int karena berisi bilangan kontinu tetapi terdeteksi sebagai tipe object.

Selain itu, kita juga perlu mengecek tipe data untuk menentukan fungsi apa yang cocok untuk diterapkan pada kolom tertentu. Misalnya, fungsi matematika atau perhitungan hanya dapat diterapkan pada data numeric. Jika diterapkan pada data non-numerik maka akan terjadi error.

Baca juga: Pengenalan Library Python Untuk Data Science

Cara mengecek tipe data di Pandas

Di Pandas, kita dapat menggunakan method dtypes untuk mengecek tipe data.

dataframe.dtypes

Jika nama dataframe kita adalah df, maka:

df.dtypes

Perintah diatas akan menghasilkan nama-nama kolom yang ada di dalam dataset beserta tipe datanya, misalnya seperti pada gambar di bawah ini.

Dari hasil di atas, kita dapat mellihat fitur atau kolom apa saja yang tipe datanya masih salah.

Baca juga: Cara Import dan Export Data di Python

Untuk melihat informasi lainnya yang juga dapat membantu memberikan gambaran mengenai dataset adalah dengan method info().

df.info()

Output yang akan dikeluarkan method info() adalah seperti di bawah ini.

Menampilkan deskripsi statistik di Pandas

Dalam menganalisis data kita perlu memahami distribusi data pada tiap kolom. Deskripsi statistik akan membantu kita mendeteksi masalah yang mungkin ada seperti adanya outliers atau pencilan yang ekstrim dan deviasi atau penyimpangan yang besar.

Kita dapat menggunakan method describe() untuk menampilkan deskripsi statistik dari dataset.

df.describe()

Outputnya kira-kira seperti ini.

describe() akan menampilkan jumlah data di setiap kolom (count), rata-rata nilai tiap kolom (mean), standard deviasi (std), nilai minimum (min), nilai maksimum (max), serta batas nilai dari masing-masing kuartil (25%, 50%, 75%).

Baca juga: Cara Menangani Missing Values di Project Data Science

Secara default, describe() tidak menampilkan kolom yang berisi non-numerik. Namun, jika kita ingin melihat ringkasan dari semua kolom, kita bisa menambahkan argumen include yang diberi nilai all di dalam tanda kurungnya.

df.describe(include = "all")

Hasilnya seperti di bawah ini.

Seperti yang terlihat pada gambar di atas, semua kolom termasuk yang bertipe data object juga ditampilkan. Kita dapat melihat bahwa deskripsi statistik yang dievaluasi untuk kolom bertipe object atau non-numerik berbeda dari kolom yang bertipe numerik yakni unique, top, dan frequency.

Baca juga: Pengenalan Matplotlib: Pyplot Interface

Unique adalah jumlah objek yang berbeda di kolom tersebut. Top adalah objek yang paling banyak di suatu kolom, sedangkan freq adalah jumlah kemunculan objek top tersebut di kolom tersebut.

Beberapa nilai terlihat memiliki nilai NaN yang merupakan singkatan dari Not a Number. Itu terjadi karena perhitungan statistik tertentu tidak dapat diterapkan pada kolom-kolom dengan tipe data tertentu.

Semoga bermanfaat..