Terbatasnya pengetahuan teknologi informasi di Indonesia khususnya business intelligence data warehouse data mining menjadi perhatian tersendiri, sehingga berinisiatif memunculkan web-blog ini. Sekedar sharing sistem datawarehouse, datamart, ataupun business intelligent mulai dari ER Desain/Star Schema,ETL, Reporting, hingga training. Tool yang digunakan (Data Stage, (Kettle, Mondrian, BI Server, Weka) Pentaho , Jasper, Sagent, Business Object, dll)
Senin, 12 Juli 2010
Cloning Row di Kettle Data Integration
Walaupun jarang sifatnya, tetapi kadang diperlukan cloning/mengcopy row. Sehingga bisa digunakan bercabang ataupun menjadi output yang lain. Objek yang digunakan adalah clone row yang terdapat di folder Utility->Clone Row.
Kalkulasi di Kettle Data Integration
Union di Kettle Data Integration
Jumat, 09 Juli 2010
Aggregate di Kettle Data Integration
Dalam pengolahan data ke Datamart ataupun source olap digunakan data dalam bentuk aggregate (measure) seperti sum, avg, count, dan lain-lain. Nah ETL disini sebagai OLTP dimana data didapatkan tentunya harus meng-aggregate source data tersebut sebelum di-store ke Datamart/Olap Source. Disini coba dibahas bagaimana menggunakan aggregate di Kettle Data Integration. Nah objek yang digunakan disini adalah Group By yang terdapat di folder Statistics-Group By, bukan lagi menggunakan objek "Aggregate Rows" yang ada di folder Deprecated->Aggregate Row, karena beritanya objek ini akan dihilangkan di versi-versi mendatang. :)
Kamis, 08 Juli 2010
Sequence dan loop di Kettle Data Integration
Belajar dari kasus yang ada ditambah melihat contoh software bawaan Data Integration, kadang proses simultan diperlukan proses sequential ataupun looping (perulangan) dengan kondisi tertentu. Ternyata objek yang digunakan adalah objek input->Generate row.
Double click pada objek generate row, limit menunjukkan batasan maksimum generate, kemudian tambahkan objeck "add sequence" untuk mendapatkan nilai integer dari sequential generate row sebanyak limit. Output bisa ke log, table ataupun tabel database. Run kemudian bisa dilihat hasilnya.Mari kita coba dulu
Double click pada objek generate row, limit menunjukkan batasan maksimum generate, kemudian tambahkan objeck "add sequence" untuk mendapatkan nilai integer dari sequential generate row sebanyak limit. Output bisa ke log, table ataupun tabel database. Run kemudian bisa dilihat hasilnya.Mari kita coba dulu
Variabel di Kettle Data Integration
Seperti halnya tool sejenis dalam aplikasi ETL, kettle juga terdapat setting untuk penggunaan variabel dalam transform. Disini, variabel dapat dibuat di "edit->set environment variables" (Ctrl+Alt+J), "execute tranformation", ataupun di file kettle.properties (versi dibawah 4.0.0), jika menggunakan data integration di "edit->edit the kettle.properties file" (Ctrl+Alt+P)
$HOME/.kettle (Unix/Linux/OSX)
C:\Documents and Settings\\.kettle\ (Windows)
C:\Users\\.kettle\ (Windows Vista)
$HOME/.kettle (Unix/Linux/OSX)
C:\Documents and Settings\
C:\Users\
Data Integration Repository
Pelajaran pertama dari tutorial ETL Kettle, kita coba jelaskan cara membuat transformasi sederhana menggunakan aplikasi Spoon, yang merupakan bagian dari suite Pentaho Data Integrasi.
Transformasi pada contoh kita akan membaca catatan dari tabel di database Oracle, dan kemudian akan memfilter dan output ke dua file teks terpisah. Jadi terdapat filter mirip true/false, dimana salah satu kondisi akan keluar di file yang lain.
Transformasi pada contoh kita akan membaca catatan dari tabel di database Oracle, dan kemudian akan memfilter dan output ke dua file teks terpisah. Jadi terdapat filter mirip true/false, dimana salah satu kondisi akan keluar di file yang lain.
Senin, 05 Juli 2010
Pentaho Data Integration (Kettle)
Pentaho Data Integration
adalah tool yang fleksibel yang bisa digunakan pada sejumlah kasus yang luas meliputi:
• Data warehouse populate data built-in untuk slowly changing dimension dan membuat surrogate key
• Migrasi data antara database yang berbeda dan aplikasi
• Loading set data besar ke dalam database full advantage of cloud, clustered and massively parallel processing environments• Data Cleansing dengan langkah-langkah mulai dari yang sangat sederhana untuk transformasi yang sangat kompleks
• Integrasi data termasuk kemampuan untuk meningkatkan ETL real-time sebagai sumber data untuk Pentaho Reporting
adalah tool yang fleksibel yang bisa digunakan pada sejumlah kasus yang luas meliputi:
• Data warehouse populate data built-in untuk slowly changing dimension dan membuat surrogate key
• Migrasi data antara database yang berbeda dan aplikasi
• Loading set data besar ke dalam database full advantage of cloud, clustered and massively parallel processing environments• Data Cleansing dengan langkah-langkah mulai dari yang sangat sederhana untuk transformasi yang sangat kompleks
• Integrasi data termasuk kemampuan untuk meningkatkan ETL real-time sebagai sumber data untuk Pentaho Reporting
Langganan:
Postingan (Atom)