Analisis data umumnya menggunakan data dari sumber lain dengan beragam format, sehingga data tersebut perlu kita import terlebih dahulu agar dapat diproses.
Tools atau software yang paling umum digunakan untuk analisis data menggunakan Python adalah Jupyter Notebook. Disini saya akan membahas cara import dan export data dengan Python di Jupyter Notebook.
Import data
Import data adalah proses memuat dan membaca data ke notebook. Hal yang harus diperhatikan dalam import data adalah format data dan lokasi penyimpanan file dataset.
Format data yang dapat di-import ke notebook bervariasi seperti .csv, .xlsx, .json, dan sebagainya. Untuk lokasi penyimpanan, ada dua opsi yaitu dari komputer lokal atau dari internet yang berupa link.
Pada contoh kali ini, saya akan menggunakan dataset automobiles yang bisa didapatkan dari repositori UCI pada link berikut https://archive.ics.uci.edu/ml/datasets/Automobile
Kita bisa mendownload terlebih dahulu dataset tersebut dan menyimpannya di komputer kita, ataupun bisa langsung menggunakan url-nya.
Berikut ini merupakan tampilan saat file dibuka di notepad.
Seperti yang dapat kita lihat, data tersebut dipisahkan oleh koma, jadi ini termasuk jenis file CSV (Comma Separated Values) sehingga kita dapat menggunakan method read_csv() untuk import data.
Baca juga: Pengenalan Library Python Untuk Data Science
Di Python, untuk mengimport data ke jupyter notebook cukup mudah yaitu hanya dengan tiga langkah.
- Import pandas
- Definisikan variabel untuk menyimpan path url atau file dataset
- Gunakan method read_csv untuk mengimport data
import pandas as pd
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df = pd.read_csv(url)
Jika menggunakan file dari komputer lokal, kita harus menentukan lokasi file tersebut tersimpan.
import pandas as pd
path = "dataset/imports-85.data"
df = pd.read_csv(path)
Kita bisa melihat dataset tersebut dalam bentuk dataframe dengan method head() untk melihat data teratas.
df.head()
Atau tail() untuk melihat data terbawah.
df.tail()
Default dari method head() dan tail() di atas adalah menampilkan 5 baris data teratas ataupun terbawah. Namun, jika kita ingin menentukan jumlah yang spesifik bisa dilakukan dengan memberikan sebuah angka di dalam tanda kurung.
Misalnya :
df.head(10)
atau
df.tail(20)
Baca juga: Cara Mengecek Tipe dan Distribusi Data di Pandas Python
Method read_csv() mengasumsikan setiap data yang dibaca telah mengandung header, sehingga jika ternyata dataset tersebut belum mengandung header seperti dataset automobiles yang kita gunakan, maka otomatis baris pertama dataset tersebut akan dijadikan header seperti terlihat di bawah ini.
Untuk mencegah hal itu terjadi, kita bisa menambahkan parameter “header” yang diisi dengan “None” agar data di baris pertama tetap menjadi data yang akan diproses dan mengisi header dengan nilai default.
Tentunya untuk memudahkan proses analisis data, kita sebaiknya menamai header setiap kolom dengan nama yang merepresentasikan kolom tersebut.
Jika kita melihat kembali ke alamat url dataset tersebut disini, kita akan menemukan attribute information yang menjelaskan informasi di setiap kolom. Kita bisa mengubah nama kolom sesuai dengan attribute information tersebut.
Perhatikan gambar berikut.
Sekarang dataset yang dibutuhkan telah siap dianalisis.
Baca juga: Cara Menangani Missing Values di Project Data Science
Export data
Selanjutnya, ketika proses analisis telah selesai dilakukan, terkadang kita perlu menyimpan dataset yang mungkin sudah diubah sesuai kebutuhan menjadi file CSV yang baru agar dapat digunakan di kemudian hari. Ini yang dinamakan export data.
Cara untuk mengekspor data juga cukup mudah yaitu dengan menggunakan method to_csv(). Agar data yang akan disimpan tidak membuat kolom tambahan yang berupa index, maka kita harus memberikan nilai False untuk parameter index.
df.to_csv("automobile_data.csv", index=False)
Sekarang kita sudah memiliki file CSV baru bernama “automobile_data.csv” yang berlokasi di folder yang sama dengan file jupyter notebook yang kalian buat.
Method untuk format file yang lain
Pada artikel ini, saya hanya membahas import dan export data untuk data dengan format CSV. Untuk format data yang lainnya bisa menggunakan metode berikut.
Data Format | Read Data | Save Data |
---|---|---|
CSV | read_csv() | to_csv() |
JSON | read_json() | to_json() |
Excel | read_excel() | to_excel() |
SQL | read_sql() | to_sql() |
Semoga bermanfaat..
Jika Anda yang sedang belajar data science atau mengolah data dengan bahasa pemrograman Python namun masih suka bingung menulis kode Python-nya, kami telah menyusun Paket E-modul Data Science dengan Python yang didesain khusus untuk pemula dengan penjelasan bahasa Indonesia yang lengkap untuk setiap blok kode-nya. Dapatkan sekarang juga dengan klik di sini!