Selasa, 25 November 2014

Resume Data Warehouse Pertemuan 8



Materi Presesntasi Data Warehouse
  1. Data Quality
1.1  Apa itu Data Quality?
1.1.1       Menurut Mark Mosley (2008), dalam bukunya “Dictionary of Data Management”, pengertian kualitas data adalah level data yang menyatakan data tersebut akurat (accurate), lengkap (complete), timely (update), konsisten (consistent) sesuai dengan semua kebutuhan peraturan bisnis dan relevan.
1.2  Karakteristik dari Data Quality?
1.2.1       Accuraccy
1.2.1.1   Akurasi data adalah sejauh mana data dengan benar mencerminkan objek dunia nyata atau acara yang dijelaskan.
1.2.2       Accessibility
1.2.2.1   adalah data dapat dengan mudah diakses, dan dimengerti, serta dapat digunakan sesuai dengan keperluan yang dibutuhkan.
1.2.3       Completeness
1.2.3.1   Kelengkapan data adalah sejauh mana atribut diharapkan data yang disediakan.
1.2.4       Consistency
1.2.4.1   Konsistensi data berarti bahwa data di seluruh perusahaan harus sinkron dengan satu sama lain.
1.2.5       Integrity
1.2.5.1   Integrity data berarti bahwa setiap data harus berhubungan atau dapat dihubungkan dengan data - data yang lain sehingga setiap data bisa saling terkait.
1.2.6       Timeliness
1.2.6.1   merepresentasikan waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada warehaouse harus juga dibuat per hari)
1.2.7       Validity
1.2.7.1   Validity data adalah sejauh mana data tersebut dapat di jelaskan dengan benar dan sah sesuai dengan fakta - fakta yang ada sebenarnya.
1.3   
2      Data Quality Critical
2.1   
3      Data Quality Challenges
    Ada beberapa hal yang merupakan tantangan  untuk membangun kualitas data :
    1.  sources of data pollution
  • System conversions
  • Data Aging
  • Heterogeneous System integration
  • Poor database design
  • Incomplete information at data entry
  • input errors
  • internationalzation / Localization
  • Fraud
  • lack of policies

    2. validation Names and addresses
        Masalah yang melekat ketika menginputkan nama-nama dan alamat-alamat :
  • No unique key
  • Many names on one lines
  • Name and the address in a single line
  • Personal and company are mixed
  • Different addresses for the same person
  • Different names and spelling for the same customer
    3. costs of Poor Data Quality
  • Biaya implementasi konsep Data Quality mahal dan membutuhkan usaha yang besar

4.             Data Quality Tools
    Di dalam data quality tool ini berisi algoritma untuk mengurai,mengubah,mencocokan,mengkonsolidasi,dan memperbaiki data

    Ada 2 cara untuk melakukan pembersihan data agar dapat meningkatkan kualitas data :
    1. Data Error Discovery (untuk mengidentifikasi ketidakakuratan dan inkonsistensi data)
        Fungsi dari data error discovery :
  • Mengidentifikasi duplikasi record dengan cepat dan mudah
  • Mengidentifikasi item data yang nilai-nilainya di luar jarak dari nilai legal domain
  • Menemukan inkonsistensi data
  • Memeriksa jarak dari nilai yang diijinkan
  • Mendeteksi inkonsistensi antar item-item data dari sumber yang berbeda
  • Mengijinkan user untuk mengidentifikasi dan mengukur masalah kualitas data
  • Memantau tren kualitas data dari waktu ke waktu
  • Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis
  • Memperbaiki masalah dari referential integrity dari DBMS

    2. Data Correction (untuk membantu memperbaiki data korup/rusak)
  • Menormalkan inkonsistensi data
  • Meningkatkan penggabungan data dari sumber data yang berbeda
  • Mengelompokan dan menghubungkan data-data customer yang memiliki
“ rumah ” yang sama
  • Memberikan pengukuran bagi kualitas data
  • Memvalidasi nilai-nilai yang diijinkan
   

5.             Data Quality Initiative

ETL → Extraction, Transformation, Loading

Ekstrasi Data:
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu :
1.     Ekstraksi data secara otomatis dari aplikasi sumber.
2.     Penyaringan atau seleksi data hasil ekstraksi.
3.     Pengiriman data dari berbagai platform aplikasi ke sumber data.
4.     Perubahan format layout data dari format aslinya.
5.     Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.
Trasformasi Data :
Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut :
1.     Memetakan data input dari skema data aslinya ke skema data warehouse.
2.     Melakukan konversi tipe data atau format data.
3.     Pembersihan serta pembuangan duplikasi dan kesalahan data.
4.     Penghitungan nilai-nilai derivat atau mula-mula.
5.     Penghitungan nilai-nilai agregat atau rangkuman.
6.     Pemerikasaan integritas referensi data.
7.     Pengisian nilai-nilai kosong dengan nilai default.
8.     Penggabungan data.
Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQLscript secara periodik.



Data accuracy. Data harus benar, nilai valid adalah nilai yang akurat. Kesalahan penulisan (typografi) nama adalah contoh ketidakakuratan data, misalnya salah dalam ejaan, singkatan dll.

Data accessibility. Data yang tidak tersedia saat pengambil keputusan membutuhkannya adalah tak berguna.

Data consistency. Data berkualitas harus konsisten. Penggunaan singkatan yang memiliki 2 arti berbeda merupakan contoh yang tepat akan kurangnya konsistensi dapat menimbulkan masalah.
Contoh, perawat yang mungkin menggunakan singkatan CPR untuk cardiopulmonary Resuscitation (teknik penyelamatan hidup yang berguna dalam keadaan darurat, termasuk serangan jantung atau hampir tenggelam, dimana seseorang bernapas atau detak jantung telah berhenti) dan menggunakan CPR untuk computer-based patient record(informasi tentang status kesehatan individu dan perawatan. Ini berfokus pada tugas-tugas yang berkaitan langsung dengan perawatan pasien) di lain waktu, akan membingungkan.

Data Completennes. Data harus relevan dengan tujuan mereka disimpan. Kita bisa menyimpan dengan sangat akurat,  Contoh data tentang warna kesukaan dan jenis rambut dapat diisikan dengan tepat waktu, tapi apakah data ini sesuai dengan kebutuhan untuk perawatan pasien?

Data timeliness. Ketepatan waktu atau up to date, jadi data itu harus teruptodate agar bisa digunakan untuk mengambil keputusan
Contoh, nilai lab untuk pemeriksaan kritis harus tersedia untuk penyedia layanan kesehatan dengan tepat waktu. Hasil akurat yang terlambat disediakan dari tenggat waktu yang seharusnya atau bahkan tersedia setelah kepulangan pasien akan mengecilkan atau meniadakan nilai gunanya bagi perawatan pasien.
Data Integrity
Setiap data harus berhubungan atau dapat dihubungkan dengan data data lain sehingga setiap data bisa saling terkait
Data available
data harus bisa diakses pada saat pengguna membutuhkannya, sehingga
pengguna tidak perlu mencari secara manual untuk mendapatkan informasi.






Referensi :