Quelloffenes Data Warehouse und Data Mining
Auch in den angrenzenden Bereichen Data Warehousing und Data Mining tut sich im Open-Source-Bereich einiges. "Mit Weka, dessen Ansatz sich auf Machine-Learning konzentriert, und RapidMiner stehen funktional umfangreiche Tools zur Verfügung. Auch R Project ist interessant, eine mächtige Statistikbibliothek, mit der sich komplette Analyseumgebungen zusammenstellen lassen - das setzt jedoch einiges an Fachwissen voraus", meint BI-Berater Michael Weck.
Unter den Data-Warehouse-Alternativen stechen Greenplum und Infobright hervor. Der amerikanische Hersteller Greenplum unterhält mittlerweile etliche Partnerschaften in Europa, unter anderem mit Sun, Talend und GoldenGate. Das Data Warehouse ist für analytisch orientiertes Processing auf sehr großen Datenmengen gebaut. Zu den Kunden gehört Ebay; der Online-Auktionator nutzt die Software für ein Datenvolumen von 6,5 Petabyte.
Noch einen Schritt innovativer kommt die Data-Warehouse-Technik von Infobright daher. Anstatt zeilenorientiert lassen sich die Daten hier spaltenbezogen ablegen. "Unsere Praxiserfahrung zeigt, dass sich mit diesem komplett neuen Ansatz die DW-Performance deutlich erhöhen lässt", so Mimouh. Benchmark-Tests zufolge soll sich die Zugriffsgeschwindigkeit im Vergleich zu einem kommerziellen Data Warehouse um das Fünf- bis Zehnfache steigern lassen. Eine Datenkomprimierungsrate von 10:1 bis 40:1 spart Speicherplatz.