7 jenis visualisasi data dengan seaborn

7 Visualisasi Data yang Wajib Dikuasai dengan Seaborn di Python

Posted by

Dalam dunia data science, visualisasi data memegang peranan penting untuk memahami pola, tren, dan insight dari dataset. Salah satu library Python yang sangat populer untuk visualisasi data adalah Seaborn.

Dibangun di atas Matplotlib, Seaborn menyediakan API yang lebih sederhana dan mendukung grafik statistik dengan tampilan yang menarik. Di sini, kita akan membahas 7 jenis visualisasi data yang wajib dikuasai menggunakan Seaborn, lengkap dengan contoh kodenya.

1. Histogram

Histogram digunakan untuk memahami distribusi data numerik dengan membagi data ke dalam beberapa interval (bins).

Kegunaan:

  • Mengetahui distribusi data (normal, skewed, dll.).
  • Menganalisis frekuensi nilai tertentu dalam dataset.

Histogram membantu kita memahami bagaimana data tersebar dalam suatu rentang.

Contohnya, jika kita ingin mengetahui apakah panjang sepal pada dataset Iris memiliki distribusi normal atau condong ke salah satu sisi (skewed), histogram akan memberikan gambaran visual yang jelas.

Kombinasi dengan kernel density estimation (KDE) dapat menambahkan garis halus untuk mempermudah analisis distribusi.

Baca juga: 5 Aplikasi Artificial Intelligence Dalam Kehidupan Sehari-hari

Contoh kode Python:

import seaborn as sns
import matplotlib.pyplot as plt

# Dataset contoh
from seaborn import load_dataset
data = load_dataset("iris")

# Membuat histogram
sns.histplot(data['sepal_length'], bins=10, kde=True, color='blue')
plt.title("Distribusi Panjang Sepal")
plt.xlabel("Panjang Sepal")
plt.ylabel("Frekuensi")
plt.show()

2. Scatter Plot

Scatter plot digunakan untuk memvisualisasikan hubungan antara dua variabel numerik.

Kegunaan:

Scatter plot sangat berguna untuk memvisualisasikan hubungan antara dua variabel numerik, seperti panjang dan lebar sepal. Kita juga dapat menggunakan parameter tambahan seperti hue untuk memisahkan data berdasarkan kategori (misalnya, spesies bunga dalam dataset Iris). Hal ini memberikan informasi tambahan tentang distribusi data dalam kelompok-kelompok tertentu.

Contoh kode Python:

# Scatter plot dengan Seaborn
sns.scatterplot(x='sepal_length', y='sepal_width', data=data, hue='species', palette='viridis')
plt.title("Scatter Plot Sepal Length vs Sepal Width")
plt.xlabel("Sepal Length")
plt.ylabel("Sepal Width")
plt.show()

3. Box Plot

Box plot membantu memahami distribusi data, outlier, dan perbedaan antar kelompok kategori.

Kegunaan:

  • Menampilkan informasi seperti median, kuartil, dan outlier.
  • Membandingkan distribusi antar kategori.

Box plot adalah cara efektif untuk melihat distribusi data berdasarkan kategori tertentu. Sebagai contoh, kita dapat melihat bagaimana panjang petal berbeda di antara tiga spesies bunga dalam dataset Iris. Selain median dan kuartil, box plot juga menampilkan nilai-nilai ekstrim (outlier), yang dapat membantu kita mengidentifikasi data yang tidak biasa.

Baca juga: Cara Membuat Bar Plot dengan Matplotlib di Python

Contoh kode Python:

# Box plot dengan Seaborn
sns.boxplot(x='species', y='petal_length', data=data, palette='Set2')
plt.title("Box Plot Panjang Petal Berdasarkan Spesies")
plt.xlabel("Spesies")
plt.ylabel("Panjang Petal")
plt.show()

4. Bar Plot

Bar plot digunakan untuk membandingkan nilai numerik di antara kategori tertentu.

Kegunaan:

  • Menganalisis jumlah atau rata-rata berdasarkan kategori.

Bar plot sering digunakan untuk melihat perbandingan antar kategori. Dalam dataset Iris, kita dapat membandingkan rata-rata lebar sepal untuk setiap spesies bunga. Selain itu, parameter seperti estimator memungkinkan kita untuk mengubah metrik agregasi (seperti menggunakan median atau sum alih-alih rata-rata).

Contoh kode Python:

# Bar plot dengan Seaborn
sns.barplot(x='species', y='sepal_width', data=data, estimator='mean', palette='coolwarm')
plt.title("Rata-Rata Lebar Sepal Berdasarkan Spesies")
plt.xlabel("Spesies")
plt.ylabel("Rata-Rata Lebar Sepal")
plt.show()

5. Heatmap

Heatmap digunakan untuk memvisualisasikan data dalam bentuk matriks, biasanya digunakan untuk korelasi atau data kategorikal.

Kegunaan:

  • Menampilkan korelasi antar variabel numerik.
  • Membantu analisis hubungan variabel dalam dataset besar.

Heatmap sangat berguna untuk menganalisis korelasi antar variabel dalam dataset. Warna dalam heatmap membantu kita dengan cepat mengidentifikasi hubungan positif atau negatif yang kuat. Dengan menambahkan anotasi pada matriks, kita juga dapat mempermudah pembacaan nilai korelasi.

Contoh kode Python:

# Heatmap dengan Seaborn
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Heatmap Korelasi Antar Variabel")
plt.show()

6. Violin Plot

Violin plot menggabungkan box plot dan kernel density plot untuk memberikan gambaran distribusi data dengan lebih detail.

Kegunaan:

  • Memahami distribusi data berdasarkan kategori.
  • Mengidentifikasi pola distribusi ganda (bimodal).

Violin plot memberikan gambaran yang lebih detail dibandingkan box plot, karena menunjukkan distribusi data lengkap dalam bentuk density plot. Misalnya, pada dataset Iris, kita dapat melihat apakah distribusi lebar petal untuk setiap spesies bersifat unimodal atau bimodal, yang mungkin sulit dilihat hanya dengan box plot.

Baca juga: 20+ Function di Pandas Python Yang Perlu Diketahui Pemula

Contoh kode Python:

# Violin plot dengan Seaborn
sns.violinplot(x='species', y='petal_width', data=data, palette='muted')
plt.title("Violin Plot Lebar Petal Berdasarkan Spesies")
plt.xlabel("Spesies")
plt.ylabel("Lebar Petal")
plt.show()

7. Pair Plot

Pair plot digunakan untuk memvisualisasikan hubungan antar semua pasangan variabel dalam dataset.

Kegunaan:

  • Menunjukkan distribusi dan hubungan antar variabel numerik secara menyeluruh.
  • Berguna untuk eksplorasi awal data.

Pair plot adalah alat yang sangat berguna untuk analisis eksplorasi data (EDA). Dengan memplot semua pasangan variabel dalam dataset, kita dapat dengan mudah melihat pola, hubungan, atau bahkan outlier. Pair plot juga dapat diwarnai berdasarkan kategori tertentu, memberikan informasi tambahan tentang data.

Contoh kode Python:

# Pair plot dengan Seaborn
sns.pairplot(data, hue='species', palette='dark')
plt.suptitle("Pair Plot Dataset Iris", y=1.02)
plt.show()

Kesimpulan

Menguasai berbagai jenis visualisasi data dengan Seaborn sangat penting untuk membantu analisis data secara efektif. Setiap jenis plot memiliki fungsi dan keunggulan masing-masing, sehingga penggunaannya dapat disesuaikan dengan tujuan analisis.

Dengan contoh-contoh di atas, Anda dapat mulai mencoba berbagai visualisasi ini pada dataset yang Anda miliki. Jangan lupa untuk terus bereksperimen dan eksplorasi fitur-fitur lain dari Seaborn untuk menghasilkan visualisasi data yang lebih informatif dan menarik!

Jika Anda ingin mempelajari visualisasi data dengan lebih detail dan lengkap, silahkan cek di sini!