import dan export data di python

Cara Import dan Export Data di Python

Posted by

Analisis data umumnya menggunakan data dari sumber lain dengan beragam format, sehingga data tersebut perlu kita import terlebih dahulu agar dapat diproses.

Tools atau software yang paling umum digunakan untuk analisis data menggunakan Python adalah Jupyter Notebook. Disini saya akan membahas cara import dan export data dengan Python di Jupyter Notebook.

Import data

Import data adalah proses memuat dan membaca data ke notebook. Hal yang harus diperhatikan dalam import data adalah format data dan lokasi penyimpanan file dataset.

Format data yang dapat di-import ke notebook bervariasi seperti .csv, .xlsx, .json, dan sebagainya. Untuk lokasi penyimpanan, ada dua opsi yaitu dari komputer lokal atau dari internet yang berupa link.

Pada contoh kali ini, saya akan menggunakan dataset automobiles yang bisa didapatkan dari repositori UCI pada link berikut  https://archive.ics.uci.edu/ml/datasets/Automobile

Kita bisa mendownload terlebih dahulu dataset tersebut dan menyimpannya di komputer kita, ataupun bisa langsung menggunakan url-nya.

Berikut ini merupakan tampilan saat file dibuka di notepad.

automobile dataset

Seperti yang dapat kita lihat, data tersebut dipisahkan oleh koma, jadi ini termasuk jenis file CSV (Comma Separated Values) sehingga kita dapat menggunakan method read_csv() untuk import data.

Baca juga: Pengenalan Library Python Untuk Data Science

Di Python, untuk mengimport data ke jupyter notebook cukup mudah yaitu hanya dengan tiga langkah.

  1. Import pandas
  2. Definisikan variabel untuk menyimpan path url atau file dataset
  3. Gunakan method read_csv untuk mengimport data
import pandas as pd

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df = pd.read_csv(url)

Jika menggunakan file dari komputer lokal, kita harus menentukan lokasi file tersebut tersimpan.

import pandas as pd

path = "dataset/imports-85.data"
df = pd.read_csv(path)

Kita bisa melihat dataset tersebut dalam bentuk dataframe dengan method head() untk melihat data teratas.

df.head()

Atau tail() untuk melihat data terbawah.

df.tail()

Default dari method head() dan tail() di atas adalah menampilkan 5 baris data teratas ataupun terbawah. Namun, jika kita ingin menentukan jumlah yang spesifik bisa dilakukan dengan memberikan sebuah angka di dalam tanda kurung.

Misalnya :

df.head(10)

atau

df.tail(20)

Baca juga: Cara Mengecek Tipe dan Distribusi Data di Pandas Python

Method read_csv() mengasumsikan setiap data yang dibaca telah mengandung header, sehingga jika ternyata dataset tersebut belum mengandung header seperti dataset automobiles yang kita gunakan, maka otomatis baris pertama dataset tersebut akan dijadikan header seperti terlihat di bawah ini.

modul data science ilmudatapy
Import data Pandas

Untuk mencegah hal itu terjadi, kita bisa menambahkan parameter “header” yang diisi dengan “None” agar data di baris pertama tetap menjadi data yang akan diproses dan mengisi header dengan nilai default.

Import data Pandas

Tentunya untuk memudahkan proses analisis data, kita sebaiknya menamai header setiap kolom dengan nama yang merepresentasikan kolom tersebut.

Jika kita melihat kembali ke alamat url dataset tersebut disini, kita akan menemukan attribute information yang menjelaskan informasi di setiap kolom. Kita bisa mengubah nama kolom sesuai dengan attribute information tersebut.

Perhatikan gambar berikut.

Mengganti Nama Header Kolom Dataframe Pandas

Sekarang dataset yang dibutuhkan telah siap dianalisis.

Baca juga: Cara Menangani Missing Values di Project Data Science

Export data

Selanjutnya, ketika proses analisis telah selesai dilakukan, terkadang kita perlu menyimpan dataset yang mungkin sudah diubah sesuai kebutuhan menjadi file CSV yang baru agar dapat digunakan di kemudian hari. Ini yang dinamakan export data.

Cara untuk mengekspor data juga cukup mudah yaitu dengan menggunakan method to_csv(). Agar data yang akan disimpan tidak membuat kolom tambahan yang berupa index, maka kita harus memberikan nilai False untuk parameter index.

df.to_csv("automobile_data.csv", index=False)

Sekarang kita sudah memiliki file CSV baru bernama “automobile_data.csv” yang berlokasi di folder yang sama dengan file jupyter notebook yang kalian buat.

Method untuk format file yang lain

Pada artikel ini, saya hanya membahas import dan export data untuk data dengan format CSV. Untuk format data yang lainnya bisa menggunakan metode berikut.

Data FormatRead DataSave Data
CSVread_csv()to_csv()
JSONread_json()to_json()
Excelread_excel()to_excel()
SQLread_sql()to_sql()

Semoga bermanfaat..

Other Posts
modul data science ilmudatapy