Data cleaning is a painful necessary!

Dalam proses mengolah data, membersihkan data adalah pekerjaan paling melelahkan dan membosankan. Tapi, mau tidak mau, suka tidak suka, ia harus dikerjakan. Jika tidak, hasil analisis akan keliru. 

Berikut beberapa ciri-ciri data kotor:

  • Ada cell yang kosong
  • Dalam satu kolom yang sama, ada perbedaan gaya penulisan, misal “Jayapura” dan “Jaya Pura”. Padahal, keduanya merujuk pada satu hal yang sama. 
  • Ada kelebihan spasi si awal, di tengah, maupun di akhir kata. 
  • Ada simbol-simbol aneh 
  • Ada data-data yang berulang dan sama persis

Dan banyak lagi yang jika dibiarkan akan menyulitkan kita menganalisis data. 

OpenRefine (dulu bernama GoogleRefine) adalah salah satu tool gratis yang bisa dipakai untuk membersihkan data. Empath hal mendasar dan penting yang bisa dilakukan dengan OpenRefine adalah:

  1. Download dan install OpenRefine di sini: http://openrefine.org/download.html
  2. Extract file dalam folder Zip tersebut
  3. Klik pada logo OpenRefine atau pilih file yang jenisnya ‘application’
  4. OpenRefine akan terbuka di browser default Anda dengan alamat: http://127.0.0.1:3333
  5. Klik ‘Create a new project’ lulu ‘Choose file’ dan unggah dataset yang ingin Anda bersihkan. 
  6. Beri nama project Anda, lalu klik ‘Create Project

Menghapus Spasi 

Terkadang, ada spasi-spasi yang tidak diinginkan dalam data yang kita punya. Ia bisa di awal, di tengah, atau di akhir data. Untuk menghapusnya:

Klik tanda segitiga di header kolom > Edit cells > Common transforms > Trim leading and trailing whitespace (Untuk spasi di awal dan akhir cell)

Klik tanda segitiga di header kolom > Edit cells > Common transforms > Collapse consecutive white space (Untuk spasi berlebih di tengah-tengah cell)

Menghilangkan Simbol HTML

Untuk data-data yang ditambang dari web, seringkali muncul simbol-simbol HTML yang sulit dipahami maksudnya. Kita tentu bisa memeriksa dan menghapusnya secara manual. Tapi bayangkan jika kita punya ribuan bahkan jutaan cells. Serahkan pekerjaan itu pada OpenRefine saja!

Klik tanda segitiga di header kolom > Edit cells > Common transforms > Unescape HTML entities

Mengubah Uppercase, Lowercase, Littlecase

Untuk mengubah seluruh text di satu kolom menjadi huruf kapital:

Klik tanda segitiga di header kolom > Edit cells > Common transforms > To uppercase

Untuk mengubah seluruh text di satu kolom memiliki huruf kapital di awal kata, diikuti huruf kecil:

Klik tanda segitiga di header kolom > Edit cells > Common transforms > To tittlecase

Untuk mengubah seluruh text di satu kolom menjadi huruf kecil semuanya:

Klik tanda segitiga di header kolom > Edit cells > Common transforms > To lowercase

Clustering

Kadang, data yang kita punya memiliki value yang sama tetapi ditulis dengan gaya berbeda. Misal, dalam satu kolom “Kabupaten”, ada value bernama “Bener Meuriah” dan “Bener Meriah”. Jika tidak disamakan, perbedaan ini tentu akan merusak hasil analisis karena keduanya adalah entitas yang sama dengan penulisan yang benar: “Bener Meriah”.

Kesalahan-kesalahan pengetikan seperti ini bisa diatasi dengan beberapa langkah di OpenRefine. Caranya:

1. Pilih kolom yang ingin dibenahi

2. Klik tanda segitiga di kanan atas kolom

3. Edit cells > Cluster and edit > lalu akan muncul kotak dialog seperti ini:

OpenRefine akan memberikan prediksi value yang benar di “New Cell Value”. Jika prediksi itu benar, klik di kotak “Merge?”. Jika tidak, ketik new value yang benar, lalu klik Merge Selected and Re-Cluster.

4. Ada dua opsi untuk “Method” dan empat opsi untuk “Keying Function”. Dua variabel ini menentukan seberapa jauh perbedaan dari dua value. Silakan dicoba untuk melihat sejauh apa perbedaannya!

Mengunduh Data yang Sudah Bersih

Klik “Export” di kanan atas layar. Lalu pilih dalam format apa Anda ingin mengunduh data. Ada cukup banyak pilihan, mulai dari CSV, Excel, hingga HTML.