visualisasi data di python dengan matplotlib

5 Jenis Visualisasi Data Populer di Python dengan Matplotlib

Posted by

Salah satu bagian penting dalam data science adalah visualisasi data atau data visualization. Saat kita melakukan analisis untuk menemukan insight dari suatu data, kita akan sangat membutuhkan visualisasi agar data yang dimiliki lebih mudah dipahami. Apalagi jika dataset yang sedang dianalisis berukuran sangat besar, tentunya visualisasi data akan sangat membantu.

Matplotlib adalah salah satu library yang populer yang dapat digunakan dengan mudah untuk data visualization. Pada artikel ini saya akan membahas 5 jenis visualisasi data di Python menggunakan Matplotlib yang sering digunakan untuk menampilkan berbagai informasi dari suatu dataset.

Line Plot

Line plot atau line chart adalah jenis plot yang menampilkan informasi berupa rangkaian titik data yang terhubung dengan segmen garis lurus. Line plot merupakan jenis plot dasar dalam visualisasi data. Plot jenis ini dapat digunakan pada dataset yang memiliki nilai kontinu untuk melihat pergerakan data.

Contoh kode Python untuk membuat Line Plot menggunakan dataset Video Game Sales

df_join = df_vg[['Rank','NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']].head(10)
df_join = df_join.set_index('Rank')

# create line plot
df_join.plot(kind='line', figsize=(10, 6))

plt.title('Comparation VG Sales Among Top 10\n', size=16)
plt.ylabel('\nNumber of Sales', size=14)
plt.xlabel('\nTop 10 of VG Sales (Rank 1-10)', size=14)
plt.show()

Baca juga: 2 Cara Implementasi One-Hot Encoding di Python

Output:

contoh line plot dengan matplotlib

Scatter Plot

Scatter plot adalah jenis visualisasi data untuk menunjukkan hubungan antara dua variabel. Dengan scatter plot, Anda dapat melihat distribusi data dan bagaimana trend-nya. Anda juga dapat menggunakan scatter plot untuk melihat hubungan dari beberapa kelompok data dengan memberikan warna yang berbeda untuk membedakan tiap kelompok data.

Contoh kode Python untuk membuat scatter plot menggunakan dataset Iris

fig, ax = plt.subplots(figsize=(10, 6))

df_group = df.groupby('class')
colors = {'Iris-setosa':'red', 'Iris-versicolor':'yellow', 'Iris-virginica':'blue'}

# create scatter plot
for name, group in df_group:
    group.plot(ax=ax, kind='scatter', x='sepal_length', y='sepal_width', label=name, color=colors[name], s=100)

plt.title('Iris Dataset\n', size=16)
plt.xlabel('\nSepal Length (cm)', size=14)
plt.ylabel('\nSepal Width (cm)', size=14)
plt.show()

Output:

contoh scatter plot dengan matplotlib

Bar Plot

Bar plot atau bar chart adalah jenis plot yang direpresentasikan dengan bar, dimana panjang bar adalah representasi dari ukuran sebuah fitur atau variabel. Bar plot biasanya merepresentasikan variabel numerik dan kategori yang dikelompokkan dalam interval.

Baca juga: Algoritma K-Nearest Neighbor (KNN) Untuk Klasifikasi

Contoh kode Python untuk membuat bar plot menggunakan dataset California Housing Prices

count = df_pri['ocean_proximity'].value_counts()
plt.figure(figsize=(10, 6))

# create bar plot
plt.bar(['<1H OCEAN', 'INLAND', 'NEAR OCEAN', 'NEAR BAY', 'ISLAND'], count, color=['royalblue','red','green', 'orange', 'black'])

plt.xlabel('\nOcean Proximity', size=14)
plt.ylabel('\nNumber of House', size=14)
plt.title('Number of House Based on Ocean Proximity\n', size=16)
plt.show()

Output:

contoh bar plot dengan matplotlib

Box Plot

Box plot adalah jenis visualisasi data yang secara statistik merepresentasikan distribusi data melalui lima dimensi utama, yaitu nilai minimum, kuartil 1, kuartil 2 (median), kuartil 3, dan nilai maksimum. Biasanya box plot digunakan untuk memeriksa keberadaan outlier dalam dataset.

Contoh kode Python untuk membuat box plot menggunakan dataset Iris

# create box plot
df['sepal_width'].plot(kind='box', figsize=(8, 6))

plt.title('Box plot of Sepal Width\n', size=16)
plt.show()

Output:

Histogram

Histogram adalah jenis visualisasi data untuk merepresentasikan distribusi frekuensi dari dataset numerik. Sumbu X merepresentasikan bin dari data point, sedangkan sumbu Y merepresentasikan frekuensi atau banyaknya data point pada setiap bin. Ukuran bin dapat disesuaikan agar distribusinya terlihat bagus. Namun, default-nya Python akan membagi menjadi 10 bin.

Baca juga: Pengenalan Arsitektur Matplotlib Python

modul data science ilmudatapy

Contoh kode Python untuk membuat histogram menggunakan dataset California Housing Prices

# create histogram
df_pri['median_house_value'].plot(kind='hist', figsize=(10, 6), bins=50)

plt.title('Histogram of Median House Value - California Housing Prices Dataset\n', size=16)
plt.ylabel('\nNumber of data', size=14)
plt.xlabel('\nPrices', size=14)
plt.show()

Output:

contoh histogram dengan matplotlib

Contoh-contoh di atas adalah visualisasi data sederhana yang dapat dibuat dengan Matplotlib di Python. Anda juga dapat membuat plot-plot yang lebih kompleks dengan mengatur parameternya serta memanfaatkan fungsi-fungsi lain yang dapat diterapkan.

Semoga bermanfaat!

Other Posts
modul data science ilmudatapy