Senin, 12 Juli 2010

Cloning Row di Kettle Data Integration

Walaupun jarang sifatnya, tetapi kadang diperlukan cloning/mengcopy row. Sehingga bisa digunakan bercabang ataupun menjadi output yang lain. Objek yang digunakan adalah clone row yang terdapat di folder Utility->Clone Row.

Kalkulasi di Kettle Data Integration

Di Data integration ini terdapat objek untuk perhitungan data dari beberapa source sebelumnya, yakni calculator dengan maskimum 3 value jika melihat property dari objek tersebut yakni calculator, dimana objek ini berada di folder Tranform->Calculator.

Union di Kettle Data Integration

Proses ETL kadang diperlukan proses penggabungan dari proses-proses sebelumnya, sebagaimana ETL juga sebagai penggambaran query ataupun proses. Sebagai contoh kita gunakan contoh sebelumnya dengan penambahan objek "append stream" di folder flow->Append Stream.

Jumat, 09 Juli 2010

Aggregate di Kettle Data Integration

Dalam pengolahan data ke Datamart ataupun source olap digunakan data dalam bentuk aggregate (measure) seperti sum, avg, count, dan lain-lain. Nah ETL disini sebagai OLTP dimana data didapatkan tentunya harus meng-aggregate source data tersebut sebelum di-store ke Datamart/Olap Source. Disini coba dibahas bagaimana menggunakan aggregate di Kettle Data Integration. Nah objek yang digunakan disini adalah Group By yang terdapat di folder Statistics-Group By, bukan lagi menggunakan objek "Aggregate Rows" yang ada di folder Deprecated->Aggregate Row, karena beritanya objek ini akan dihilangkan di versi-versi mendatang. :)

Kamis, 08 Juli 2010

Sequence dan loop di Kettle Data Integration

Belajar dari kasus yang ada ditambah melihat contoh software bawaan Data Integration, kadang proses simultan diperlukan proses sequential ataupun looping (perulangan) dengan kondisi tertentu. Ternyata objek yang digunakan adalah objek input->Generate row.
Double click pada objek generate row, limit menunjukkan batasan maksimum generate, kemudian tambahkan objeck "add sequence" untuk mendapatkan nilai integer dari sequential generate row sebanyak limit. Output bisa ke log, table ataupun tabel database. Run kemudian bisa dilihat hasilnya.Mari kita coba dulu

Variabel di Kettle Data Integration

Seperti halnya tool sejenis dalam aplikasi ETL, kettle juga terdapat setting untuk penggunaan variabel dalam transform. Disini, variabel dapat dibuat di "edit->set environment variables" (Ctrl+Alt+J), "execute tranformation", ataupun di file kettle.properties (versi dibawah 4.0.0), jika menggunakan data integration di "edit->edit the kettle.properties file" (Ctrl+Alt+P)

$HOME/.kettle (Unix/Linux/OSX)
C:\Documents and Settings\\.kettle\ (Windows)
C:\Users\\.kettle\ (Windows Vista)


Data Integration Repository

Pelajaran pertama dari tutorial ETL Kettle, kita coba jelaskan cara membuat transformasi sederhana menggunakan aplikasi Spoon, yang merupakan bagian dari suite Pentaho Data Integrasi.
Transformasi pada contoh kita akan membaca catatan dari tabel di database Oracle, dan kemudian akan memfilter dan output ke dua file teks terpisah. Jadi terdapat filter mirip true/false, dimana salah satu kondisi akan keluar di file yang lain.

Senin, 05 Juli 2010

Pentaho Data Integration (Kettle)

Pentaho Data Integration
adalah tool yang fleksibel yang bisa digunakan pada sejumlah kasus yang luas meliputi
:
• Data warehouse populate data built-in untuk slowly changing dimension dan membuat surrogate key
• Migrasi data antara database yang berbeda dan aplikasi
• Loading set data besar ke dalam database full advantage of cloud, clustered and massively parallel processing environments• Data Cleansing dengan langkah-langkah mulai dari yang sangat sederhana untuk transformasi yang sangat kompleks
• Integrasi data termasuk kemampuan untuk meningkatkan ETL real-time sebagai sumber data untuk Pentaho Reporting