Senin, 08 Desember 2014

Resume Data Warehouse Pertemuan 12

Data Warehouse
Pembahasan : menjalankan SQL server untuk membuat Data Warehouse
Sub Pokok Bahasan :
       Penerapan DTS (tabel yang terbentuk di SQL Server)
       Menganalisa tabel yang terbentuk di SQL Server
Data tranformation service
Sekumpulan utilitas yang memungkinkan proses ExtractTransform, dan Load secara otomatis dari atau ke database.
                DTS tersedia dalam Microsoft SQL Server, namun sejak Microsoft SQL Server 2005 DTS digantikan oleh SQL Server Integration Services (SSIS). Walaupun demikian, DTS masih bisa diinstall sebagai tambahan packages dan dijalankan pada Microsoft SQL Server 2005 dan lebih baru.
DTS berfungsi untuk melakukan import, export dan transport data yang beragam antara satu atau lebih sumber data, seperti misalnya SQL Server, Microsoft Excel atau Microsoft Access.
                Selain itu DTS juga menyediakan hubungan berupa ODBC (Open Database Connectivity) data source yang disupport oleh OLE DB Provider for ODBC dan service seperti logging package execution details, controlling transactions dan penanganan variable global.

Task Dalam Sebuah Package  

Sebuah DTS package biasanya terdiri atas satu task atau lebih. Setiap task mendefinisikan jenis pekerjaan yang akan diberikan selama eksekusi package. Task-task tersebut dikelompokkan berdasarkan fungsinya berikut ini: 

·         Transformasi data 
·         Mengcopy dan mengatur data
·         Menjalankan tasks sebagai jobs dari dalam sebuah package


Conection Untuk Mengakses dan Memindahkan Data 

Agar eksekusi DTS tasks dalam menyalin dan memindahkan data berjalan sukses, sebuah DTS package harus mempunyai hubungan yang valid antara sumber data asal dengan sumber data tujua. Ketika menciptakan sebuah package, user dapat mengkonfigurasikan hubungan dengan memilih jenis hubungan dari daftar yang tersedia pada OLE DB providers dan ODBC drivers. Jenis hubungan yang tersedia antara lain: 



PERBEDAAN DTS DAN SSIS
DTS :
·         DTS adalah sekumpulan dari obyek yang digunakan sebagai alat ETS Tools untuk mengekstrak, mentransform dan memuat informasi dari sebuah database
·         DTS adalah bagian dari Microsoft SQL Server 2000
·         Menggunakan Activex Script
·         Tidak ada cara cepat
·         Transformasi yang tersedia terbatas
·         Tidak didukung fungsi Business Intelegent
·         Hanya bisa dikembangkan di server local
SSIS :
·         SSIS adalah sebuah alat yang disediakan Microsoft untuk mengekstrak data dari sumber lain
·         SSIS adalah komponen dari Microsoft SQL Server 2005
·         Menggunakan Scripting Language
·         Ada cara cepat
·         Tersedianya fitur tranformasi yang sangat besar
·         Didukung oleh fungsi Business Intellegent
·         Dapat dikembangkan di berbagai server menggunakan BIDS

Senin, 01 Desember 2014

Resume Data Warehouse pertemuan 11

                                     DATA TRANFORMATION SERVICES

Data Transformation Services (DTS) adalah sekelompok utilitas dan benda-benda yang digunakan untuk secara otomatis melakukan ekstrak, transformasi dan operasi beban ke atau dari database. DTS secara luas digunakan dengan database Microsoft SQL Server.

DTS terdiri dari satu set utilitas yang disebut alat DTS dan benda-benda yang disebut paket DTS, yang mengotomatisasi ekstrak, transform dan operasi beban ke atau dari database.
Paket DTS adalah komponen logis dalam DTS, di mana setiap objek DTS adalah komponen anak paket. Mereka digunakan ketika data pengguna alter menggunakan DTS. Paket juga memegang benda koneksi, yang memungkinkan paket untuk membaca data dari objek menghubungkan dan embedding basis data sumber (OLE-DB) Data compliant. Fungsi Paket diatur sebagai langkah dan tugas.

DTS alat dalam SQL Server meliputi:

*   DTS penyihir
*   DTS desainer
        Antarmuka pemrograman DTS
DTS mengubah dan beban data dari sumber-sumber yang heterogen seperti konektivitas database open atau file teks saja ke dalam database yang didukung. Hal ini juga secara otomatis data impor atau transformasi secara terjadwal, selain menjalankan fungsi lain seperti melaksanakan program eksternal.

DTS menyediakan kontrol versi dan backup paket bila digunakan bersama dengan sistem kontrol versi.


reverensi :
http://www.techopedia.com/definition/1183/data-transformation-services-dts

Selasa, 25 November 2014

Resume Data Warehouse Pertemuan 8



Materi Presesntasi Data Warehouse
  1. Data Quality
1.1  Apa itu Data Quality?
1.1.1       Menurut Mark Mosley (2008), dalam bukunya “Dictionary of Data Management”, pengertian kualitas data adalah level data yang menyatakan data tersebut akurat (accurate), lengkap (complete), timely (update), konsisten (consistent) sesuai dengan semua kebutuhan peraturan bisnis dan relevan.
1.2  Karakteristik dari Data Quality?
1.2.1       Accuraccy
1.2.1.1   Akurasi data adalah sejauh mana data dengan benar mencerminkan objek dunia nyata atau acara yang dijelaskan.
1.2.2       Accessibility
1.2.2.1   adalah data dapat dengan mudah diakses, dan dimengerti, serta dapat digunakan sesuai dengan keperluan yang dibutuhkan.
1.2.3       Completeness
1.2.3.1   Kelengkapan data adalah sejauh mana atribut diharapkan data yang disediakan.
1.2.4       Consistency
1.2.4.1   Konsistensi data berarti bahwa data di seluruh perusahaan harus sinkron dengan satu sama lain.
1.2.5       Integrity
1.2.5.1   Integrity data berarti bahwa setiap data harus berhubungan atau dapat dihubungkan dengan data - data yang lain sehingga setiap data bisa saling terkait.
1.2.6       Timeliness
1.2.6.1   merepresentasikan waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada warehaouse harus juga dibuat per hari)
1.2.7       Validity
1.2.7.1   Validity data adalah sejauh mana data tersebut dapat di jelaskan dengan benar dan sah sesuai dengan fakta - fakta yang ada sebenarnya.
1.3   
2      Data Quality Critical
2.1   
3      Data Quality Challenges
    Ada beberapa hal yang merupakan tantangan  untuk membangun kualitas data :
    1.  sources of data pollution
  • System conversions
  • Data Aging
  • Heterogeneous System integration
  • Poor database design
  • Incomplete information at data entry
  • input errors
  • internationalzation / Localization
  • Fraud
  • lack of policies

    2. validation Names and addresses
        Masalah yang melekat ketika menginputkan nama-nama dan alamat-alamat :
  • No unique key
  • Many names on one lines
  • Name and the address in a single line
  • Personal and company are mixed
  • Different addresses for the same person
  • Different names and spelling for the same customer
    3. costs of Poor Data Quality
  • Biaya implementasi konsep Data Quality mahal dan membutuhkan usaha yang besar

4.             Data Quality Tools
    Di dalam data quality tool ini berisi algoritma untuk mengurai,mengubah,mencocokan,mengkonsolidasi,dan memperbaiki data

    Ada 2 cara untuk melakukan pembersihan data agar dapat meningkatkan kualitas data :
    1. Data Error Discovery (untuk mengidentifikasi ketidakakuratan dan inkonsistensi data)
        Fungsi dari data error discovery :
  • Mengidentifikasi duplikasi record dengan cepat dan mudah
  • Mengidentifikasi item data yang nilai-nilainya di luar jarak dari nilai legal domain
  • Menemukan inkonsistensi data
  • Memeriksa jarak dari nilai yang diijinkan
  • Mendeteksi inkonsistensi antar item-item data dari sumber yang berbeda
  • Mengijinkan user untuk mengidentifikasi dan mengukur masalah kualitas data
  • Memantau tren kualitas data dari waktu ke waktu
  • Melaporkan kepada user tentang kualitas data yang digunakan untuk analisis
  • Memperbaiki masalah dari referential integrity dari DBMS

    2. Data Correction (untuk membantu memperbaiki data korup/rusak)
  • Menormalkan inkonsistensi data
  • Meningkatkan penggabungan data dari sumber data yang berbeda
  • Mengelompokan dan menghubungkan data-data customer yang memiliki
“ rumah ” yang sama
  • Memberikan pengukuran bagi kualitas data
  • Memvalidasi nilai-nilai yang diijinkan
   

5.             Data Quality Initiative

ETL → Extraction, Transformation, Loading

Ekstrasi Data:
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu :
1.     Ekstraksi data secara otomatis dari aplikasi sumber.
2.     Penyaringan atau seleksi data hasil ekstraksi.
3.     Pengiriman data dari berbagai platform aplikasi ke sumber data.
4.     Perubahan format layout data dari format aslinya.
5.     Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.
Trasformasi Data :
Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut :
1.     Memetakan data input dari skema data aslinya ke skema data warehouse.
2.     Melakukan konversi tipe data atau format data.
3.     Pembersihan serta pembuangan duplikasi dan kesalahan data.
4.     Penghitungan nilai-nilai derivat atau mula-mula.
5.     Penghitungan nilai-nilai agregat atau rangkuman.
6.     Pemerikasaan integritas referensi data.
7.     Pengisian nilai-nilai kosong dengan nilai default.
8.     Penggabungan data.
Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQLscript secara periodik.



Data accuracy. Data harus benar, nilai valid adalah nilai yang akurat. Kesalahan penulisan (typografi) nama adalah contoh ketidakakuratan data, misalnya salah dalam ejaan, singkatan dll.

Data accessibility. Data yang tidak tersedia saat pengambil keputusan membutuhkannya adalah tak berguna.

Data consistency. Data berkualitas harus konsisten. Penggunaan singkatan yang memiliki 2 arti berbeda merupakan contoh yang tepat akan kurangnya konsistensi dapat menimbulkan masalah.
Contoh, perawat yang mungkin menggunakan singkatan CPR untuk cardiopulmonary Resuscitation (teknik penyelamatan hidup yang berguna dalam keadaan darurat, termasuk serangan jantung atau hampir tenggelam, dimana seseorang bernapas atau detak jantung telah berhenti) dan menggunakan CPR untuk computer-based patient record(informasi tentang status kesehatan individu dan perawatan. Ini berfokus pada tugas-tugas yang berkaitan langsung dengan perawatan pasien) di lain waktu, akan membingungkan.

Data Completennes. Data harus relevan dengan tujuan mereka disimpan. Kita bisa menyimpan dengan sangat akurat,  Contoh data tentang warna kesukaan dan jenis rambut dapat diisikan dengan tepat waktu, tapi apakah data ini sesuai dengan kebutuhan untuk perawatan pasien?

Data timeliness. Ketepatan waktu atau up to date, jadi data itu harus teruptodate agar bisa digunakan untuk mengambil keputusan
Contoh, nilai lab untuk pemeriksaan kritis harus tersedia untuk penyedia layanan kesehatan dengan tepat waktu. Hasil akurat yang terlambat disediakan dari tenggat waktu yang seharusnya atau bahkan tersedia setelah kepulangan pasien akan mengecilkan atau meniadakan nilai gunanya bagi perawatan pasien.
Data Integrity
Setiap data harus berhubungan atau dapat dihubungkan dengan data data lain sehingga setiap data bisa saling terkait
Data available
data harus bisa diakses pada saat pengguna membutuhkannya, sehingga
pengguna tidak perlu mencari secara manual untuk mendapatkan informasi.






Referensi :