Materi Presesntasi Data
Warehouse
- Data Quality
1.1 Apa itu Data Quality?
1.1.1
Menurut Mark Mosley (2008), dalam bukunya “Dictionary of Data
Management”, pengertian kualitas data adalah level data yang menyatakan data
tersebut akurat (accurate), lengkap (complete), timely (update), konsisten
(consistent) sesuai dengan semua kebutuhan peraturan bisnis dan relevan.
1.2
Karakteristik
dari Data Quality?
1.2.1
Accuraccy
1.2.1.1
Akurasi
data adalah sejauh mana data dengan benar mencerminkan objek dunia nyata atau
acara yang dijelaskan.
1.2.2
Accessibility
1.2.2.1
adalah
data dapat dengan mudah diakses, dan dimengerti, serta dapat digunakan sesuai
dengan keperluan yang dibutuhkan.
1.2.3
Completeness
1.2.3.1
Kelengkapan
data adalah sejauh mana atribut diharapkan data yang disediakan.
1.2.4
Consistency
1.2.4.1
Konsistensi
data berarti bahwa data di seluruh perusahaan harus sinkron dengan satu sama
lain.
1.2.5
Integrity
1.2.5.1
Integrity
data berarti bahwa setiap data harus berhubungan atau dapat dihubungkan dengan
data - data yang lain sehingga setiap data bisa saling terkait.
1.2.6
Timeliness
1.2.6.1
merepresentasikan
waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada
warehaouse harus juga dibuat per hari)
1.2.7
Validity
1.2.7.1
Validity
data adalah sejauh mana data tersebut dapat di jelaskan dengan benar dan sah
sesuai dengan fakta - fakta yang ada sebenarnya.
1.3
2
Data
Quality Critical
2.1
3
Data
Quality Challenges
Ada beberapa hal yang merupakan tantangan
untuk membangun kualitas data :
1.
sources of data pollution
- System conversions
- Data Aging
- Heterogeneous System integration
- Poor database design
- Incomplete information at data entry
- input errors
- internationalzation / Localization
- Fraud
- lack of policies
2.
validation Names and addresses
Masalah yang melekat ketika menginputkan nama-nama dan
alamat-alamat :
- No unique key
- Many names on one lines
- Name and the address in a single line
- Personal and company are mixed
- Different addresses for the same person
- Different names and spelling for the same customer
3.
costs of Poor Data Quality
- Biaya implementasi konsep Data Quality mahal dan membutuhkan usaha yang besar
4.
Data
Quality Tools
Di dalam data quality tool ini berisi algoritma
untuk mengurai,mengubah,mencocokan,mengkonsolidasi,dan memperbaiki data
Ada 2
cara untuk melakukan pembersihan data agar dapat meningkatkan kualitas data :
1.
Data Error Discovery (untuk mengidentifikasi ketidakakuratan dan inkonsistensi
data)
Fungsi dari data error discovery :
- Mengidentifikasi duplikasi record dengan cepat dan mudah
- Mengidentifikasi item data yang nilai-nilainya di luar jarak dari nilai legal domain
- Menemukan inkonsistensi data
- Memeriksa jarak dari nilai yang diijinkan
- Mendeteksi inkonsistensi antar item-item data dari sumber yang berbeda
- Mengijinkan user untuk mengidentifikasi dan mengukur masalah kualitas data
- Memantau tren kualitas data dari waktu ke waktu
- Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis
- Memperbaiki masalah dari referential integrity dari DBMS
2.
Data Correction (untuk membantu memperbaiki data korup/rusak)
- Menormalkan inkonsistensi data
- Meningkatkan penggabungan data dari sumber data yang berbeda
- Mengelompokan dan menghubungkan data-data customer yang memiliki
“ rumah ” yang sama
- Memberikan pengukuran bagi kualitas data
- Memvalidasi nilai-nilai yang diijinkan
5.
Data
Quality Initiative
ETL → Extraction,
Transformation, Loading
Ekstrasi Data:
Ekstraksi
data adalah proses dimana data diambil atau diekstrak dari berbagai sistem
operasional, baik menggunakan query, atau aplikasi ETL. Terdapat
beberapa fungsi ekstraksi data, yaitu :
1. Ekstraksi data secara
otomatis dari aplikasi sumber.
2. Penyaringan atau seleksi
data hasil ekstraksi.
3. Pengiriman data dari
berbagai platform aplikasi ke sumber data.
4. Perubahan format layout data
dari format aslinya.
5.
Penyimpanan
dalam file sementara untuk penggabungan dengan hasil ekstraksi dari
sumber lain.
Trasformasi
Data :
Transformasi
adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan
diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam
transformasi data adalah sebagai berikut :
2. Melakukan konversi tipe
data atau format data.
3. Pembersihan serta
pembuangan duplikasi dan kesalahan data.
4. Penghitungan nilai-nilai
derivat atau mula-mula.
5. Penghitungan nilai-nilai
agregat atau rangkuman.
6. Pemerikasaan integritas
referensi data.
7. Pengisian nilai-nilai
kosong dengan nilai default.
8.
Penggabungan
data.
Pengisian
Data (Loading)
Proses
terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari
hasil transformasi ke dalam data warehouse. Cara untuk memuat data
adalah dengan menjalankan SQLscript secara periodik.
Data accuracy. Data
harus benar, nilai valid adalah nilai yang akurat. Kesalahan penulisan
(typografi) nama adalah contoh ketidakakuratan data, misalnya
salah dalam ejaan, singkatan dll.
Data accessibility. Data
yang tidak tersedia saat pengambil keputusan membutuhkannya adalah tak berguna.
Data consistency. Data
berkualitas harus konsisten. Penggunaan singkatan yang memiliki 2 arti berbeda
merupakan contoh yang tepat akan kurangnya konsistensi dapat menimbulkan
masalah.
Contoh,
perawat yang mungkin menggunakan singkatan CPR untuk cardiopulmonary
Resuscitation (teknik penyelamatan hidup yang berguna dalam keadaan darurat,
termasuk serangan jantung atau hampir tenggelam, dimana seseorang bernapas atau
detak jantung telah berhenti) dan menggunakan CPR untuk computer-based patient
record(informasi tentang status kesehatan individu dan perawatan. Ini berfokus
pada tugas-tugas yang berkaitan langsung dengan perawatan pasien) di lain
waktu, akan membingungkan.
Data Completennes. Data
harus relevan dengan tujuan mereka disimpan. Kita bisa menyimpan dengan sangat
akurat, Contoh data tentang warna kesukaan dan jenis rambut
dapat diisikan dengan tepat waktu, tapi apakah data ini sesuai dengan kebutuhan
untuk perawatan pasien?
Data timeliness.
Ketepatan waktu atau up to date, jadi data itu harus teruptodate agar bisa
digunakan untuk mengambil keputusan
Contoh, nilai lab untuk pemeriksaan kritis harus tersedia
untuk penyedia layanan kesehatan dengan tepat waktu. Hasil akurat yang
terlambat disediakan dari tenggat waktu yang seharusnya atau bahkan tersedia
setelah kepulangan pasien akan mengecilkan atau meniadakan nilai gunanya bagi
perawatan pasien.
Data Integrity
Setiap data harus berhubungan atau dapat dihubungkan dengan
data data lain sehingga setiap data bisa saling terkait
Data available
data harus bisa diakses pada saat pengguna membutuhkannya,
sehingga
pengguna tidak perlu mencari secara manual untuk
mendapatkan informasi.
Referensi
:
- http://informatika.web.id/etl-extraction-transformation-loading.htm (Brigida Arie Minartiningtyas. Desember 14, 2012)
- http://www.executionmih.com/data-quality/accuracy-consistency-audit.php
Tidak ada komentar:
Posting Komentar