Home
Bericht - Fachbereich 4: HTW Berlin
Contents
1. 84 Abbildung 67 PRD Reportentwurf Szenario 3 84 Abbildung 68 PRD Szenario Verkn pfung des Import Parameters 85 Abbildung 69 PRD Szenario Parameierauswah 85 Abbildung 70 PRD Szenario Auswablergebnts 85 Abbildung 71 PRD Szenario MDX 86 Abbildung 72 PRD Szenario MDX Ausgabe 87 Abbildungsverzeichnis Abbildung 73 PRD Szenario 3 SQL 88 Abbildung 74 Saiku Startbildschirm ierra 90 Abbildung 75 Saiku Datenauswahl eese 92 Abbildung 76 Saiku Modellierungsbereich 93 Abbildung 77 Saiku MDX Editor 93 Abbildung 78 Saiku Hierarchieelement 93 Abbildung 79 Saiku Elementer 94 Abbildung 80 Saiku Filter Limit Sort Optionen 94 Abbildung 81 Saiku Custom Filter 95 Abbildung 82 Salku Ausgaben 95 Abbildung 83 Saiku Dagrammausoabe sess 96 Abbildung 84 Saiku Szenario Ausgangsituation 97 Abbildung 85 Saiku Szenario 1 Elementtiter 98 Abbildung 86 Saiku Szenario 1 Ausgabe Elementtfilter 98 Abbildung 87 Saiku Szenario 1 grafische Ausgabe Elementfilter 99 Abbildung 88 Saiku Szenario 1 Customfilter
2. 5 5 name e AR birthday_hierarchy Abbildung 47 Ubersicht Schema Workbench Die Gr e der Fenster sowie die Platzierung l sst sich individuell bestimmen Bei einer Gr en nderung kann es jedoch vorkommen das Bedienelemente verschluckt werden und erst wieder sichtbar sind wenn die Fenster wieder vergr ert werden Die Oberfl che macht insgesamt einen veralteten Eindruck Im Gegensatz zu PDI basiert sie nicht auf dem Eclipse Framework Eine Aufteilung der Oberfl che mittels Reiter wie z B in PDI ist daher nicht vorhanden vgl Kapitel 3 2 10 Server Dateipfad C PDWH pentaho psw ce 3 5 0 schema workbench 60 4 OLAP Die Bedienung der Schema Workbench erfolgt mit Maus und Tastatur Uber die Symbol leiste welche unterhalb der Men leiste bzw innerhalb jedes Fensters zur Verf gung steht k nnen die jeweiligen Hauptfunktionen aufgerufen werden Weiterhin k nnen diese Funktionen z T auch ber das Kontextmen rechte Maustaste aufgerufen werden Die beim Erstellen eines neuen Schemas entstehende Baumstruktur enth lt eine Ansamm lung hierarchisch zueinander in Beziehung stehender Elemente Tabellen Kennzahlen Dimensionen etc Der Aufruf des Kontextmen s auf den Elementen zeigt s mtliche f r das jeweilige Objekt m gliche Operationen F r jedes hinzugef gte Element k nnen ver schiedene Eigenschaften ber tabellarisch dargestellte Felder vergeb
3. 99 Abbildung 89 Saiku Szenario 1 Ausgabe Customfilter 100 Abbildung 90 Saiku Szenario 1 Ausgabe Filter Kundentyp 100 Abbildung 91 Saiku Szenario 2 101 Abbildung 92 Saiku Szenario 2 Ausgabe 101 Abbildung 93 Saiku Szenario Limit 102 Abbildung 94 Saiku Szenario 4 PeriodsToDate MDX 103 Abbildung 95 Saiku Szenario 4 Modeller 104 Abbildung 96 PDI Marketplace 106 Abbildung 97 PDI Weka Scoring Plugin Eigenschaften 106 Abbildung 98 PDI Weka Fehlermeldung 107 Abbildung 99 Pentaho Wiki Weka Scoring Plugin 107 Abbildung 100 Weka Clustering Ausgabe 110 Abbildung 101 PDI Transformation Clustering 110 Abbildung 102 PDI Weka Scoring Obiekt 111 Abbildung 103 PDI Weka Scoring Ausgabe 111 Abbildung 104 SQL Statement Berechnung Ulmeatz XIX Abbildung 105 Ausgabe Berechnung XIX Abbildung 106 SQL Statement View Turnover XX Abbildung 107 SQL Statement Berechnung Gesamtumsatz je Jahr XX Abbildung 108 Ergebnis Berechnung Ges
4. BL Dimension Lookup Update Step name Dimension lookup update SCD Update the dimension V Connection star webshop 7 Edit New Target schema Browse Targettable dim custome 1 ommit size 00 Database Explorer SG Actions v 4 te star webshop Schemas 4 Tables dim cust dim date dim geo Preview x Rows FS dim mixe Row Count dim prod Show Layout Becas 00 act deliv 5 Views View SQL Synonyms Truncate Table Data Profile Model Visualize Preview first 100 OK i Cancel Abbildung 31 PDI Data Explorer 43 3 ETL Prozess Die wichtigsten Modellierungsobjekte im Datenbankkontext sind Table input Table output Database lookup Dimension lookup update Tabelle 19 PDI Datenbank Modellierungsobjekte Auslesen einer Datenbank Table input Schreiben in eine Datenbank Table output A Modellierungsobjekt zur nderung von Slowly Changing Di bi mensions Dimension lookup update Lookupobjekt Database lookup Table Input Beim Table input f hrt der Assistent den Benutzer durch die Datenbank und generiert automatisch das SQL Statement eine Anpassung ist dennoch m glich Table input e e Step name Table input Connection star webshop gt Edit sa Get SQL select statement SELECT e CUSTOMER ID NAME BIRTHDAY GENDER Database Explorer CUSTOMER_TYPE Customer scd tk Actions en 4
5. Durch die einfache und intuitive Bedienung k nnen Abfragen ad hoc und mit sofortigem Ergebnis dargestellt werden Es handelt sich somit eher um einen OLAP Viewer mit Dia gramm Funktionalit t An dieser Stelle zeigt sich die fehlende Funktionalit t der Commu nity Edition auf dem Gebiet der Visualisierung bzw der Dashboards Das Data Mining mittels Weka wurde aufgrund der Limitierungen in der Community Edi tion nur ohne Integration mit PDI durchgef hrt Es werden die Standardfunktionen des Data Mining z B Clusteranalyse unterst tzt Zusammenfassend ergibt die Evaluation der Pentaho Business Analytics Community Edi tion ein gemischtes Bild Durch den Einsatz von Standardtechnologien Java JDBC XML HTML Javascript und dem Open Source Modell bieten die einzelnen Komponenten ein hohes Ma an Anpassbarkeit Flexibilit t und Kompatibilit t 113 8 Fazit Sollte sich eine verteilte Installation und Nutzung Bl Server HTW Client Tools Studen ten aufgrund fehlender administrativer Funktionalitat insbesondere eines Rollen und Zugriffsmodells als nicht praktikabel erweisen kann diese aufgrund der freien Verf gbar keit aller Komponenten auch durch die Studierenden selbst erfolgen Auch waren sowohl Server als auch Client Tools w hrend der Erprobung weitgehen stabil Die Funktionalit t im Bereich ETL und OLAP ist berzeugend und mit kommerziellen Tools vergleichbar Dem Gegen ber steht die teilweise fehlende Funktionalit t im
6. select dat YEAR sum Turnover as Turnover_of_state geo STATE from webshop fact_delivery_item as fact inner join webshop dim geo as geo on fact GEO ID geo GEO ID inner join webshop dim date as dat on dat DATE ID fact order DATE ID Group by geo STATE dat YEAR Order by geo State dat YEAR Ergebnis Umsatz je State je Jahreszahl Abbildung 104 SQL Statement Berechnung Umsatz Der Umsatz wird je Jahreszahl 2010 2011 2012 je State berechnet YEAR Tumover of state STATE 2010 129753 00 Califomia 2011 91399 00 Califomia 2012 103084 00 Califomia 2010 237222 00 Hawaii 2011 243153 00 Hawaii 2012 193635 00 Hawaii 2010 283519 00 Idaho 2011 264450 00 Idaho 2012 308061 00 Idaho 2010 34790 00 Illinois 2011 35624 00 Illinois 2012 25672 00 Illinois Abbildung 105 Ausgabe Berechnung Umsatz XIX Anhang Als Ergebnis wird eine Liste mit den Ums tzen je Zeile erstellt Ziel ist es Spalten und Zeilen in SQL zu vertauschen dies w re einfach zu l sen indem ein Pivot Befehl ver wendet werden k nnte Use webshop create view turnover_year as select dat YEAR as Jahr sum Turnover as Turnover_of_state geo STATE from webshop fact_delivery_item as fact inner join webshop dim geo as geo on fact GEO ID geo GEO ID inner join webshop dim date as dat on dat DATE ID fact order DATE ID Group by geo STATE dat YEAR Order by geo State dat YEAR z View erstellt Abbildung 106 SQL Statement View Turnover year Es werden zus
7. 14 dim delivery date delivery year dim delivery date 2812 6 15 16 17 SELECT 18 NON EMPTY idim delivery date Halbjahri 2818 dim delivery date Halbjahri 2011 dim delivery date Halbjahri 2012 19 NON EMPTY Hierarchizeii state Members ON ROWS 29 FROM webshop 21 where Measures profit state Halbjahr1_2010 Halbjahr1_2011 Halbjahr1 2012 California 2 090 1 388 1 837 Hawaii 5 092 4 982 5 013 Idaho 6 109 5 158 6 572 Illinois 778 656 497 Indiana 4 156 6 064 6 117 Abbildung 94 Saiku Szenario 4 PeriodsToDate MDX Die Umsetzung mittels Modeller Funktionen ist nicht m glich Man kann zwar die einzel nen Monat betrachten jedoch findet die Aggregation stets nur auf All Level statt 103 6 Visualisierung und Dashboards Spaten Y delivery year Q delivery month Q gt profit Filter nd 2010 1 2 3 4 5 6 state profit profit profit profit profit profit profit California 5 307 491 753 300 111 235 200 Hawaii 10 027 854 792 879 991 804 772 Idaho 11 406 518 1 098 866 1 106 1 037 1 484 Auswahl f r delivery_month Suchen Verf gbare Elemente Ausgew hlte Elemente dim_delivery_date 2010 10 dim_delivery_date 2010 11 dim_delivery_date 2010 12 dim_delivery_date 2010 7 dim_delivery_date 2010 8 dim_delivery_date 2010 9 Abbildung 95 Saiku Szenario 4 Modeller Generell lassen sich mittels des Modellers keine Calculated Members
8. Connection input_dimgeo z Edit Nee Lookup schema EI 58 Lookup table dim time Browse Enable cache The key s to look up the value s E Table field Comparator Fieldi Field2 1 HOUR 2 MINUTE order_time_hour_cut nou order_time_minute_cut Values to return from the lookup table Field New name Default Type 1 TIMEID fk_dimORder_TIME_ID Integer Do not pass the row if the lookup Fail on multiple results Order by OK Cancel Get Fields Get lookup fields Abbildung 44 Transformation Fact_Delivery_item Lookup Dim_Time 56 3 ETL Prozess Die Berechnung des Profits erfolgt mittels Calculator Objekten Da im Calculator Objekt nur fest definierte Berechnungen mit maximal drei Feldern m glich sind war es n tig die Berechnung in 6 Steps durchzuf hren Zun chst wird der Umsatz aus quantity und sa les_price errechnet Da es nicht direkt m glich war die Versandkosten auszugeben m s sen diese ber den Faktor fixedrate zun chst auf den Umsatz aufgeschlagen werden Anschlie end wird der Umsatz davon abgezogen und brig bleiben die Versandkosten Zun chst wird der Profit pro St ck noch ohne Versandkostenabschlag ausgerechnet und anschlie end mit der Positionsmenge multipliziert Abschlie end werden davon die Ver sandkosten abgezogen Ergebnis ist der Profit pro Position e Turnover quantity sales_price e Turnover plus shipping turnover turnover fi
9. Tabelle 24 Attribute Produktlevel column NAME Name der Spalte zur Identifizierung des Le vels Produktname 68 4 OLAP dim_product Table Tabelle 25 Attribute Tabelle Produktdimension dim_product Name der Dimensionstabelle Neben der Produkt Hierarchie hat die Produktdimension auch noch eine Produzenten Hierarchie mit mehreren Levels Uber welche die einzelnen Produkte ausgewertet werden k nnen Die Level sind untereinander abh ngig Jeder Produzent kann somit einzeln oder mit Bezug zu seinen Produkten f r Analysen ausgew hlt werden F r jedes Produkt und f r jeden Produzenten k nnen so Analysen mit Bezug auf die Kennzahlen der Lieferposition in der Faktentabelle durchgef hrt werden Degenerierte Dimension Die Granularit t der Faktentabelle wird durch eine Lieferposition repr sentiert Um auch auf Ebene der Lieferung Auswertungen durchf hren zu k nnen wurde eine sog degene rierte Dimension erstellt Sie enth lt lediglich eine Hierarchie mit zwei Leveln die abwei chend konfiguriert sind dim_delivery Dimension Tabelle 26 Attribute der Lieferdimension 69 4 OLAP default Hierarchie Tabelle 27 Attribute der default Hierarchie hasAll Gibt an ob die Hierarchie ein all Member hat allMemberName All Delivery IDs Name des all Members delivery id Level Tabelle 28 Attribute des Lieferlevel delivery id Name des Levels column delivery_id Name der Spalte zur
10. ber das entsprechende Transport und Logistikunternehmen dargestellt 82 5 Reporting amp Grup See Group_four Group ane Group free Group m o Homes Scherer I TNT ues DHL Hemes BP Schenker BE TNT M ups Gewinn je Produktkategorie ire Group four Gap oe Gou hee Gou wa Abbildung 64 PRD Ausgabe Szenario 2 Diagramme Die Prozentwerte des Kreisdiagramms werden automatisch berechnet indem der kom plette Kreis den Gesamtgewinn darstellt und die Werte je Produktkategorie ins Verh ltnis gesetzt werden Die Grundlage beider Charts ist folgendes SQL Statement Query Name Query_Gewinn_Produktgruppe_Versand Static Query Query Scripting Query 1 SELECT 4 Sum fact_delivery_item PROFIT AS Gewinn 5 mixed SHIPPING COMPANY 6 dim mixed PRODUCT_GROUP 7 FROM 8 dim mixed INNER JOIN fact delivery item ON dim mixed MIXED ID fact delivery Iren ID 9 GROUP BY 10 dim mixed PRODUCT GROUP a din mixed SHIPPING COMPANY Abbildung 65 PRD Query Szenario 2 83 5 Reporting 5 5 3 Szenario 3 Filtern mittels Parameter Mit Parameter in der SQL Abfrage kann die Abfrage flexibel durch die Eingabe des Be nutzers gesteuert werden um so das Data Set zu ver ndern durch die Bedingung in der Where Klausel Der Parameter wird durch parameter in der Where Klausel hinzuge
11. 63 4 OLAP 4 3 3 JDBC Explorer Der lesende Zugriff auf eine relationale Datenbank wird mittels des sog JDBC Explorers unterst tzt File New JDBC Explorer Es k nnen lediglich die vorhandenen Tabel len und deren Felder inkl Datentypen angezeigt werden File Edit View Options Windows Help S sjaj JDBC Explorer My SQL jdbc mysql iocalhost 3306 webshop defaultF et n m EI Default Schema oe EI dim customer IN BIRTHDAY TIMESTAMP 3 CUSTOMER 10 INTEGER 10 3 CUSTOMER TYPE VARCHAR 255 Customer scd tk BIGINT 3 GENDER VARCHAR 255 3 NAME VARCHAR 255 3 date from TIMESTAMP 3 date_to TIMESTAMP 3 load Date TIMESTAMP 3 version INTEGER 10 e Cam date o Com geo o dim mixed Com product CH dim time o fact delivery item Abbildung 50 PSW JDBC Explorer Der JDBC Explorer erm glicht es w hrend der Modellierung des Mondrian Schemas die Strukturen des zugrunde liegenden relationalen Datenmodells nachzuschlagen 64 4 OLAP 4 4 Dokumentation Die Schema Workbench besitzt keinerlei in die Anwendung integrierte Hilfefunktion Im Dateisystem im Verzeichnis der Schema Workbench psw ce 3 5 0 schema workbench doc finden sich zwei PDF Dateien mondrian_technical_guide pdf und schema workbench pdf welche eine rudiment re und teilweise veraltete Dokumentation sowohl von Pentaho Mondrian als auch der Schema Wor
12. Diese werden mittels Drag amp Drop in den Modellierungsbereich Spalten Zeilen Filter gezogen Direkt unter dem Modellierungsbereich erfolgt die Ausgabe der Generierung Rechts von der Ausgabe kann der Darstellungsmodus ausgew hlt werden Dabei kann zwischen Tabella rischen und Grafischen Modus gewechselt werden Im grafischen Modus k nnen ver schiedene Diagrammtypen ausgew hlt werden Diese werden automatisch mit den Daten der Tabelle gef llt und ausgegeben Im tabellarischen Modus k nnen in der Tabelle zu s tzlich Sparklines automatisch eingef gt werden Zur berpr fung der Daten k nnen zudem einfache statistische Kennzahlen ausgegeben werden E Beispiele und Muster 9 Analysenbeispiele Arbeiten mit Kettle amp B Berichte B Business Regeln Chart Examples Dashboard Examples Datenquellen Druck M glichkeiten B sve E3 web Service D Steel Wheels Analyse E3 Dashboards Reporting WB cde components B styles E templates widgets E plugin samples 80 CDE B9 webshop localhost 3080 pentaho Horr webshop EN Dimensionen 0 dim_customer Ll dim delivery Ld dim delivery date 0 dim delivery time LA dim geo LA dim mixed L dim order date L dim order time dim product Kennzahlen w r Measures 9 quantity profit 9 returned 9 shipping cost turnover Abbildung 74 Saiku Startbildschirm C E aggregation D A a
13. E3 Web Service 5 Steel Wheels 3 cde plugin samples B webshop Manage Existing Quadrant Slice and Dice Abbildung 10 User Console Oberflache Im Marketplace lassen sich von der Community oder externen Anbietern Plugins einspie len Derzeit sind nur wenige Plugins der Anbieter WebDetails Analytical Labs und Open vorhanden Der gr te Anbieter WebDetails wurde im April 2013 von Pentaho bernommen und die Tools wurden in die Enterprise Edition 5 0 integriert 20 2 Bl Server 2 3 Funktionalitat Mittels der Admin Console k nnen verwendete Server berwacht und Verwaltungsdienste gesteuert werden In der Community Edition sind die M glichkeiten sehr stark einge schr nkt Es ist lediglich eine Userverwaltung und ein Serverstatus vorhanden Die User Console bietet in der Community Edition keine Tools zur Erstellung von Dash boards an Zur Erstellung von Reports und Analysen werden jeweils Tools mitgeliefert die bereits nicht mehr offiziell unterst tzt werden Mittels des Marketplace lassen sich jedoch diese Funktionen durch Community L sungen ersetzen Alternativ lassen sich auch Er weiterungen direkt im Filesystem auf dem Server einpflegen 2 4 Dokumentation Eine Dokumentation als Dokument wird in den Archiven nicht angeboten Die Community Seite des Bl Servers bietet Informationen zur Versionierung Aktualisierungen und Zu gang zum Wiki bzw zum Forum Die Wiki Artikel sin
14. Ilinois 052 34 790 USD 0 52 35 624 USD 038 25 672 USD Indiana 328 220 558 USD 479 331 124 USD 4 06 277 750 USD lowa 106 71 531 USD 132 91 335 USD 128 87 523 USD Kansas 0 88 59 345 USD 0 99 68 318 USD 085 58 116 USD Louisiana 395 266 003 USD 52 359 617 USD 37 253 192 USD Maryland 549 369 616 USD 484 334 586 USD 477 326717 USD Massachusetts 063 42 268 USD 066 45443 USD 086 58 939 USD Minnesota 274 184080 USD 301 207997 USD 327 223977 USD Mississippi 3 66 96 246 550 USD 346 239307 USD 338 231 085 USD Abbildung 73 PRD Szenario 3 SQL Ausgabe Die L sung dieses Reports basiert auf SQL Abfragen hier k nnten auch MDX Abfragen verwendet werden Die Prozentwerte entsprechen dem Anteil am Gesamtumsatz des entsprechenden Jahresumsatzes 88 6 Visualisierung und Dashboards 6 Visualisierung und Dashboards 6 1 Ubersicht In der vorliegenden Community Edition hat Pentaho keine aktiv unterst tzten Dashboard Funktionen Bis 2008 wurde zur Modellierung von Dashboards JPivot genutzt Es folgte der Wechsel in der Enterprise Edition auf ClearView von LucidEra 2009 wurde LucidEra von Pentaho bernommen und vollst ndig integriert Ein unterst tzter Ersatz f r die Community Edition direkt von Pentaho gibt es nicht Mittels des Marketplace k nnen ent sprechenden Funktionen hinzugef gt werden Der Marketplace bietet zwei Plugins die Dashboard Funktionen implementieren Zum einen den Community Dash
15. PRODUCT 10 ON DELETE NO ACTION ON UPDATE NO ACTION CONSTRAINT time id FOREIGN KEY delivery TIME ID REFERENCES webshop dim time TIME ID ON DELETE NO ACTION ON UPDATE NO ACTION CONSTRAINT order TIME ID FOREIGN KEY order TIME ID REFERENCES webshop dim time TIME ID ON DELETE NO ACTION ON UPDATE NO ACTION CONSTRAINT order DATE ID FOREIGN KEY order DATE 10 REFERENCES webshop dim date DATE 10 ON DELETE NO ACTION ON UPDATE NO ACTION ENGINE z InnoDB DEFAULT CHARACTER SET utf8 CREATE INDEX idx_dim_customer_lookup ON dim_customer XVII Anhang CUSTOMER_ID SET SQL MODEZQOLD SQL MODE SET FOREIGN KEY CHECKSz QYXOLD FOREIGN KEY CHECKS SET UNIQUE CHECKSzQQOLD UNIQUE CHECKS XVIII Anhang A2 SQL Grundlage fur Reports Um die Reports verwenden zu k nnen m ssen zwei Views in MySQL hinzugef gt wer den Zum einen die Ums tze je State View_1 turnover_year und die Berechnung zwi schen den Jahreswerten View_2 turnover_year_delta Im SQL Script wird eine Delta Berechnung zwischen den Jahreszahlen durchgef hrt MySQL kennt keinen Pivot Befehl um Spalten und Zeilen zu vertauschen und entspre chend zu summieren Durch die Verwendung von Views und einer Anwendung von IF Bedingungen im SQL Script siehe Turnover_Year_Pivot sql wurden die Ergebnisse oh ne MDX Abfragen nur mit SQL erstellt Am Beispiel wird dies f r den n chsten Report beschrieben
16. SQL MODE TRADITIONAL ALLOW INVALID DATES CREATE SCHEMA IF NOT EXISTS webshop DEFAULT CHARACTER SET utf8 USE webshop DROP TABLE IF EXISTS webshop dim customer CREATE TABLE IF NOT EXISTS webshop dim customer CUSTOMER D bigINT 11 NULL DEFAULT null VARCHAR 255 NULL DEFAULT null BIRTHDAY DATETIME NULL DEFAULT null GENDER VARCHAR 255 NULL DEFAULT null CUSTOMER TYPE VARCHAR 255 NULL DEFAULT null Customer scd tk bigint 20 not null version int 11 DEFAULT null date from datetime DEFAULT null date to datetime DEFAULT null load Date datetime DEFAULT null PRIMARY KEY Customer scd tk KEY dx dim customer scd jk Customer scd tk ENGINE InnoDB DEFAULT CHARACTER SET utf8 Table webshop dm daie XIII Anhang DROP TABLE IF EXISTS webshop dim_date CREATE TABLE IF NOT EXISTS webshop dm date DATE ID INT 11 NOT NULL DATE DATETIME NULL DEFAULT NULL DAY INT 11 NULL DEFAULT NULL MONTH INT 11 NULL DEFAULT NULL YEAR INT 11 NULL DEFAULT NULL PRIMARY KEY DATE ID ENGINE z InnoDB DEFAULT CHARACTER SET utf8 DROP TABLE IF EXISTS webshop dim gen CREATE TABLE IF NOT EXISTS webshop dim_geo GEO ID INT 11 NOT NULL LAT VARCHAR 255 NULL DEFAULT NULL LON VARCHAR 255 NULL DEFAULT NULL ZIPCODE VARCHAR 255 NULL DEFAULT NULL CITY VARCHAR 255 NULL DEFAULT NULL ST
17. String env solutionRoot String env username String Parameters Import Parameters zm Export Parameters Details Import Parameter Outer Name Inner Name Outer Name Inner Name param state param_state Abbildung 68 PRD Szenario 3 Verkn pfung des Import Parameters Beim Ausf hren des Reports mit den entsprechenden Daten wird dem Benutzer die M g lichkeit gegeben ein State auszuw hlen Hier im Beispiel wird California ausgew hlt aus allen m glichen US Bundesstaaten state Cantona cae Abbildung 69 PRD Szenario 3 Parameterauswahl Im Balkendiagramm werden die Umsatze der einzelnen Jahre 2010 2011 und 2012 dargestellt Zusatzlich wurde die Differenz zwischen den Jahren berechnet State 2010 Delta 2011 2010 2011 Delta 2012 2011 2012 California 129 753 38 354 91 399 11 685 103 084 130000 120000 110000 100000 90000 Casa Abbildung 70 PRD Szenario 3 Auswahlergebnis 85 5 Reporting Im SQL Script wird eine Delta Berechnung zwischen den Jahreszahlen durchgef hrt MySQL kennt keinen Pivot Befehl um Spalten und Zeilen zu vertauschen und entspre chend zu summieren Durch die Verwendung von Views und einer Anwendung von IF Bedingungen im SQL Script siehe Turnover_Year_Pivot sql wurden die Ergebnisse er stellt Einmal wurden die Reports mit einer MDX Abfrage und einmal nur mit SQL erstellt Am
18. Wi LDAP Input W LDIF Input e Load file content in memory z Microsoft Access Input 3 amp Microsoft Excel Input a Mondrian Input ZU OLAP Input Lay Property Input E RSS Input SCHW Input amp Salesforce Input 7 SAP Input 6 SAS Input Table input Text file input X XBase input V XML Input Stream StVO X Yarl Input Validation Credit card validator Data Validator Mail Validator PS XSD Validator 4 5 Output Automatic Documentation Output Delete amp Insert Update Json output Ili LDAP Output amp Microsoft Access Output dB Microsoft Excel Output E Microsoft Excel Writer Pentaho Reporting Output di Properties Output RSS Output S3File Output Salesforce Delete Salesforce Insert a Salesforce Update A Salesforce Upsert BD Serialize to file 3 SQL File Output Synchronize after merge a Table output Text file output Update Zi XML Output 4 F5 Utility 13 Change file encoding Clone row T Delay row Edi to XML Execute a process AX If field value is null E Mail f Metadata structure of stream FR Null if e Process files Run SSH commands Send message to Syslog Gl Write to log Mapping L Mapping sub transformation Ly Mapping input specification In Mapping output specification 4 E Deprecated 3 Aggregate Rows 25 Get previous row fields LucidDB Bulk Loader 28 Streaming XML Input XML Input Transform 2 Add a checks
19. f gt Query Name Query Turnover per Year Delta Static Query Query Scripting Query 3 SELECT 4 turnover year delta STATE 5 turnover year 1 2010 6 turnover_year_delta Delta_2011 2010 7 turnover year 1 2011 8 turnover year delta Delta 2012 2011 E turnover year delta 2012 10 FROM 11 turnover year delta 12 WHERE 13 turnover_year_delta STATE param_state Abbildung 66 PRD Query Szenario 3 Filter Als Sub Report wurde hier ein Report mit einem Balkendiagramm verwendet fae an yew fonat Deis Me H HVU O gt r e a Turmower_ Inhrenzait_ 0310201 Asrni ET onte SateegoroIN Aurecherg 4 6 45 68 45 E m Deg 1 Abbildung 67 PRD Reportentwurf Szenario 3 Der Parameter wird zwischen dem Sub Report und dem eigentlichen Report zugeordnet d h der Wert des Parameters wird dem Sub Report Ubermittelt und das Data Set des Sub Reports basiert dann nur noch auf dem Wert des Parameters 84 5 Reporting Turnover_Jahreszahl_03102013_AuswahlX Untitied Subreporb X Structure Data iiL I U Automatic 5 100 0 5 1 0 1 5 2 0 2 5 3 0 3 5 40 45 50 55 60 6 5 70 7 5 BD 85 90 env pentahoBaseURL String D env requestURL String env rotes String DN env roles array Stringi env senerBaseURL
20. vgl 1 4 3 Star Schema Aufgrund des multidimensio nalen Ansatzes ergeben sich Unterschiede und Erweiterungen zum relationalen Modell auf die im Folgenden genauer eingegangen wird Es wird davon ausgegangen dass be reits eine Datenbankverbindung besteht Die entsprechenden Zugangsdaten k nnen in Anhang 0 nachgelesen werden Ein Beispielschema von Pentaho befindet sich unter biserver ce pentaho solutions steel wheels analysis steelwheels mondrian xml Das neu erstellte Schema wurde unter dem Dateienamen webshop_schema xml im Dateisystem abgelegt siehe Anhang 0 Im Folgenden werden lediglich die wichtigsten Eigenschaften des Modells exemplarisch anhand ausgew hlter Elemente erl utert Alles weitere kann auf dieser Grundlage am vollst ndigen Modell bzw der Struktur der XML Datei nachvollzogen werden vgl Anhang A3 Als Erstes wurde in der Schema Workbench ein Cube Element hinzugef gt und in web shop umbenannt Dieses gilt Obersters Element in der Hierarchie 4 5 1 Faktentabelle und Measures Dem Cube werden die Elemente Table sowie mehrere Measure hinzugef gt Das Ta ble Element verweist auf die Faktentabelle die Measure Elemente auf die gleichnamigen Kennzahlen aus dem relationalen Modell Auf die Nutzung von zusatzlichen Calculated Measures d h Kennzahlen die auf Ebene von Pentaho Mondrian aus dem relationalen Modell berechnet werden wurde verzichtet Fur jedes Measure muss neben dem
21. 14 Felder und Beschreibung _ 18 Tabelle 15 PDI Input Modellierungsobjekte 26 Tabelle 16 PDI Manipulations Modellierungsobjekte 30 Tabelle 17 PDI Filter Sortierungs Modellierungsobjekte 33 Tabelle 18 PDI Flusssteuerungs Modellierungsobjekte 37 Tabelle 19 PDI Datenbank Modellterungsobiekie 44 Tabelle 20 PDI Job Modellierungsobjekte 48 Tabelle 21 Aggregatfunktionen der Measures 67 Tabelle 22 Attribute Produkidmension 67 Tabelle 23 Attribute Produkthierarchie AEN 68 Tabelle 24 Attribute Produkilevel 68 Tabelle 25 Attribute Tabelle Produktdimension 69 Tabelle 26 Attribute der Lieferdimension 69 Tabelle 27 Attribute der default Hierarchie 70 Tabelle 28 Attribute des Lieferlevel AEN 70 Tabelle 29 Attribute 71 Tabelle 30 PRD bersicht 76 Tabelle 31 Saiku Modellierungsobjekte 91 VIII Abk rzungsverzeichnis Abk rzungsverzeichnis API CSV JAR JDBC MDX OLAP PDI PGP PRD PSW RDBMS ROLAP SQL XML XML A Application Programming Interface Comma Separate
22. 367 194 USD 337 008 USD 326 717 USD Massachusetts 42 268 USD 45 443 USD 58 939 USD Abbildung 72 PRD Szenario 3 MDX Ausgabe Als Ergebnis wird eine Liste mit den Ums tzen je Zeile erstellt Es werden zus tzlich die Abfragen als Views gespeichert um sp ter auf diese referenzie ren zu k nnen Um die Prozentwerte berechnen zu k nnen sollten die Gesamtums tze berechnet wer den um die einzelnen Ums tze der US Bundesstaaten zu den Gesamtums tzen ins Ver h ltnis setzen zu k nnen MySQL unterst tzt nicht die Verwendung eines Pivot Befehls sondern hier wird eine IF Bedingung mit einer Sum Funktion kombiniert F r die Delta Berechnung und die Prozentwerte wurde eine weitere View angelegt Die gespeicherten Views sind zum einen die Ums tze je State turnover_year und zusatz lich die Berechnung zwischen den Jahreswerten turnover_year_delta Als Ergebnis wird ein Report mit einer Liste erstellt in der die Prozentwerte aufgelistet werden Es wurde nur noch die W hrung und das Prozentzeichen als Label hinzugef gt 87 5 Reporting 5 Turnover_Jahreszahl_ProzentX 2 gt aja 125 v EE Gesamtumsatz 2010 Gesamtumsatz 2011 Gesamtumsatz 2012 6 730 317 USD 6 916 811 USD 6 844 933 USD California 193 129 753 USD 132 91 399 USD 151 103 084 USD Hawaii 352 9 237222 USD 3 52 243 153 USD 283 193 635 USD Idaho 421 283 519 USD 382 264 450 USD 45 308 061 USD
23. 8 star webshop date to 3 Schemas load Date 4 5 Tables FROM dim customer B dim customer E dim date ES dim geo ES dim mixed Ef dim product dim time FES fact delivery item Views 3 Synonyms Line 1 Column 0 Enable lazy conversion Replace variables in script Insert data from step um Se Limit size 0 OK Preview Cancel Abbildung 32 PDI Table Input Objekt SQL Assistenz 44 3 ETL Prozess Table Output Beim Table Output f hrt der Assistent ebenso den Benutzer zur Zieltabelle Anschlie end k nnen die Spalten des Datenflusses mit den Tabellenspalten gemappt werden Setzt man den Haken bei specify Database Fields nicht so erfolgt ein automatisches Map ping bei dem jedoch Quell und Zielname identisch sein m ssen Des Weiteren ist es m glich vor jedem Insert die Tabelle mittels Truncate Table automatisch zu leeren 8 Table output fo ls Step name Connection dimdate Edit New Target schema Browse Targettable dir date Browse Commit size 2000 Truncate table Specify database fields Main options Database fields Fields to insert Tablefield Stream field Get fields 1 DAY Day Enter field mapping 2 MONTH Month nn 3 YEAR Year 4 DATE ID Date ID 5 DATE Date Abbildung 33 PDI Table Output Objekt Dimension Lookup Petanho erm glicht eine einfache Implementierung des Slowly Changing Dimension
24. Ab label Kundennummer f Functions horizontal line Environment e 8 Group Group Header Details Body Details Header E Details I vertical line Abbildung 54 PRD Structure Data Reiter 74 5 Reporting Grunds tzlich sind Reports aufgebaut aus Zeilenkopf Reportkopf Detailbereich Report fuBbereich und einen SeitenfuBbereich Der Benutzer wird bei der Ausrichtung der Steuerelemente mit Inch Angaben k nnen auf cm Angaben ge ndert werden und karier ten Hintergrund unterst tzt Die Ausrichtung der Steuerelemente im Bericht ist wesentlich e 3 Untitied Reporb X dell BI 57 100 05 10 15 20 25 30 28 40 45 50 55 60 E Page Header M Ah 80 s Report Header E I Abbildung 55 PRD Modellierungsbereich ber die Parameter k nnen SQL Statements parametrisiert werden Dabei k nnen die Parameter vom Benutzer beim Erstellen eines Diagramms vorher abgefragt werden um so z B einen bestimmten State US Bundesstaat oder eine Jahreszahl auszuw hlen 75 5 Reporting 5 3 Funktionalitat Zu den Standard Steuerelementen die am h ufigsten verwendet werden z hlen Textfel der und Bezeichnungsfelder und f r Formatierungen sind es das Band und die Linien Elemente Mit den Ressource Elementen sind mehrsprachige Reports m glich die Labels werden dann entsprechend in der ausgew hlten Sprache ausgegeb
25. Bereich Visualisierung und Dashboards Als Vor und Nachteil zugleich kann die Modularit t gesehen werden Die inkonsistenten Oberfl chen und Bedienkonzepte sowie fragmentierten Dokumentationen bedeuten eine lange Einarbeitungszeit Weiterhin ist zwischen den Komponenten eine manuelle Integra tion mittels Schnittstellen und oder Dateien n tig Auf der anderen Seite hat jedes Tool einen relativ klar abgegrenzten Aufgabenbereich und eigene Ergebnisartefakte Damit k nnen Teilbereiche wie z B OLAP abgegrenzt und ohne zus tzlichen funktionalen Overhead einer integrierten Bl Suite betrachtet werden Die Komplexit t des Gesamtthe mas wird dadurch zerlegt und kann leichter vermittelt werden Insbesondere in den Teilbe reichen ETL und OLAP erscheint daher ein Einsatz zu Lehrzwecken in der HTW durchaus sinnvoll 114 Anhang Anhang AO Arbeitsumgebung Zugangsdaten des Servers Remotedesktop ip 141 45 20 245 User pentaho Pass d5h7 1xy MySQL Credentials User root Pass password Userconsole url http localhost 8080 pentaho User joe Pass password Adminconsole url http localhost 8099 User admin Pass password Connectiondefinition Hostname localhost Port 3306 dbname webshop Driverclassname com mysal jdbc Driver username root password password url jdoc mysql localhost 3306 webshop Anhang Anderungen an Dateien Definition des Publisher Passwort C PDWH pentaho biserver pentaho
26. Die Kundenliste enth lt die Felder Kundennummer den Kundennamen das Geburts datum und den Kundentyp ber die Where Klausel der SQL Query kann das Data Set eingeschr nkt werden um kundenindividuelle Berichte zu erstellen 81 5 Reporting Report Exportieren Ansicht Hilfe ala Ba Kundenliste Kundennummer Kundenname Geburtsdatum Kundentyp 1 000 001 591 Mo Feb 1900 00 00 MEZ 1990 So Apr 17 00 00 00 MESZ 1988 Mi Jun 05 00 00 00 MESZ 1985 Mo Sep 27 00 00 00 MEZ 1982 Myers 1 000 001 678 Meadows business 1 000 001 727 Morin business 1 000 001 796 business Mefarland Abbildung 62 PRD Szenario 1 Ausgabe unformatiert Anschlie end k nnen noch Formatierungen wie hier etwa eine grau Schattierung und Format nderung f r die Kundennummer und die Anzeige des Geburtsdatums vorgenom men werden Report Exportieren Ansicht Hilfe 818 amp 25 Kundenliste Kundennummer Kundenname Kundentyp 100000 1591 19 02 1990 100000 1678 17 04 1988 1000001727 i 05 06 1985 100000 1796 27 09 1982 business Abbildung 63 PRD Szenario 1 Ausgabe formatiert 5 5 2 Szenario 2 Darstellungen mittels Diagramme Als Beispiele f r die Diagramme wurden ein Balken und ein Kreisdiagramm erstellt Im Kreisdiagramm wird der Gewinn summiert auf die f nf Produktgruppen dargestellt Im Balkendiagramm wird der Umsatz je Produktgruppe und durchgef hrter Versand und Transport
27. Hierarchize dim_ delivery date 2010 dim delivery date 2011 dim delivery date 2012 ON COLUMNS NON EMPTY Filter Hierarchize dim geo state Members Measures Profit lt 40000 ON ROWS FROM webshop WHERE CrossJoin Measures profit dim_ customer type hierarchy business S4_SortStateProfitDESC SELECT NON EMPTY Hierarchize dim_ delivery date 2010 dim delivery date 2011 dim delivery date 2012 ON COLUMNS NON EMPTY Order Hierarchize dim_geo state Members Measures profit DESC ON ROWS FROM webshop WHERE Measures profit XXVIII Anhang S5_TopPercentStateProfit SELECT NON EMPTY Hierarchize dim delivery date 2012 ON COLUMNS NON EMPTY TopPercent Hierarchize dim_geo state Members 50 Measures profit ON ROWS FROM webshop WHERE Measures profit S6_PeriodsToDateEditor with member dim delivery date Halbjahrl 2010 as aggregate PeriodsToDate dim delivery date delivery year dim delivery date 2010 6 member dim delivery date Halbjahrl 2011 as aggregate PeriodsToDate dim delivery date delivery year dim delivery date 2011 6 member dim delivery date Halbjahrl 2012 as aggregate PeriodsToDate dim delivery date delivery year dim delivery date 2012 6 SELECT NON EMPTY dim delivery date Halbjahrl 2010 dim delivery date Halbjahrl 2011 dim de livery
28. Kundendaten mit 27 zugeh rigen Bundesstaaten generiert Circa 30 der Kunden haben den Kundentyp 1 Das Ge schlecht ist gleichverteilt Die Kombination zipcode city und state ist real existierend Alle sonstigen Daten sind fiktiv oder stehen in keinen Zusammenhang Tabelle 3 Quelldatenstruktur Customer Beschreibung Datentyp Wertebe reich Format Customer_ID gt 100000000 Name 255 Zeichen Street_Address 255 Zeichen zipcode 5 Zeichen state 255 Zeichen gender 255 Zeichen birthday YYYY MM DD A B D E F GERI H 1 CustomerID Name Street Addrizipcode city state Gender birthday customert 2 1000000001 Galvan P O Box 155 94029 Menlo Park California F 1956 12 29 3 1000000002 Frey P O Box 491 94030 Millbrae California M 1953 12 24 1 4 1000000003 Estes 25 E Narrow 94031 Millbrae California M 1953 04 05 5 1000000004 Snijders 441 5 94037 Montara California F 1972 07 01 1 6 1000000005 Mcdowell 782 94038 Moss Beach California M 1941 05 12 1 Abbildung 2 Quelldatengenerierung Customer 1 Einleitung Shipping company Es wurden 5 Versandunternehmen in Excel erstellt Die Versandkostenpauschale wurde zur einfacheren Nutzung als Prozentwert hinterlegt Zuk nftige Berechnungen der Versandkosten erfolgen somit als prozentualer Anteil vom Umsatz Tabelle 4 Quelldatenstruktur Shipping company Beschreibung Datentyp Wertebe reich Format fixed rate Versandkostenpau Numeric THE IHE schale in 9
29. Schritte gew hlt oder verschiedene Wege zur L sung desselben Problems verwendet insbesondere bei Textinputs und Stringoperationen 3 5 1 Laden der Dimensionen Dim_Customer In die Dimension Dim_Customer werden die Kundendaten hinterlegt Grunds tzlich wer den die Daten aus der CSV Datei geladen und zun chst bereinigt Das hei t in dem Fall das die nicht ben tigten Informationen zu Adresse Postleitzahl Stadt und Bundesstaat entfernt werden Anschlie end werden die Genderstrings mit K rzeln ersetzt Anschlie Bend wird der als Zahl vorliegende Kundentyp in ein String umgewandelt und durch einen Alias ersetzt 0 private 1 business Abschlie end wird mittels Dimension Lookup Ob jekt das Ergebnis in der Datenbank gespeichert 6 Wikipedia bietet eine gute bersicht der Blogs https en wikipedia org wiki Pentaho Social_Media_Communication 7 Siehe http wiki pentaho com display EAI Pentaho Data Integration Steps 50 3 ETL Prozess Read Customer csy Sort CustomerID Sorted Mergd CustomerID cross Join Remove adres zip city state Read Customer Errorfiles csv D ta Validator Sort rows 2 get load date Replace Gender o S Read validate name csv Write Customer error output csv Dimension lookup update SCD II Replace Customertype Abbildung 36 Transformation Dim Customer Vor dem durchf hren des Dimension Lookup ist eine Anpassung an das Datenbanksche ma notwendig Diese l sst sich mittels des
30. Wz43023 UzU EzUJ 2013 08 09 14 06 04 Sort Zip 0 Finished processing Oz0 R 43629 W 43629 U 0 0 2013 09 09 14 06 05 Merge Join 0 Finished processing O 0 R 45629 W 2000 U 0 E 0 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 08 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 08 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 b
31. at com mysql jdbc ServerPreparedStatement executeBatch Serially ServerPreparedStaternent java 827 doud at com mysgljdbc PreparedStatement executeBatch PreparedStatement java 1467 dguy at org pentaho di trans steps tableoutput TableOutputwriteToTable TableOutput java 315 dguy Zur Visualisierung der Performance eignet sich neben den Step Metrics der Performance Graph Dieser stellt die o g Metriken f r einen ausgew hlten Step grafisch dar Execution Results Q Execution History JJ Logging 4 Step Metrics 1 Metrics Read Input Output Updated Rejected Written 1200 1000 800 Steps Change Customertype l Data Valdator 0 Dimension lookup update SCD 1 0 Read Customer csv l Read Customer Errorfiles csv Read validate name cul Remove adress zip city state 0 Replace Customertype 0 Replace Gender Sort CustomerID 600 Rows per second 400 200 Performance Graph dim_customer Change Customertype 0 u Abbildung 30 PDI Performance Logging Displayed run time is 5 seconds a snapshot is taken every 1000 mil o Written C Written Avg 42 3 ETL Prozess 3 3 5 Datenbanken Beim Arbeiten mit Datenbanken unterst tzt Pentaho Data Integration mit vielen Assistenz funktionen Bei jedem Modellierungsobjekt im Datenbankkontext hat man die M glichkeit die Datenbank zu durchsuchen und analysieren sowie eine Vorschau anzeigen zu lassen
32. chst k n nen die Fehlereigenschaften hinterlegt werden Diese bestehen aus den vier Eigenschaf ten e Beschreibung Fehlername e Inputfield e Fehlercode frei definierbarer Code e Fehlerbeschreibung kurze Beschreibung des Fehlers 39 3 ETL Prozess Im Type Register l sst sich ein Datentypcheck konfigurieren dabei l sst sich der erwar tete Typ einstellen sowie m gliche Trenn und Gruppierungszeichendefinieren Im Data Register wird eine Pr fung der konkreten Werte vollzogen Die Werte k nnen auf folgen des gepr ft werden e Null Werte e numeric Data e Min Max Stringlange e Min Max Value e erwarteter Suffix Prafix String e nicht erlaubter Suffix Prafix String e erlaubte Werte o entweder Uber das Kontextmenu eintragbar oder o aus eingehenden Schritt einlesbar e Regular Expression Check Data Validator Stepname Data Validator Select a validation to edit V Report all errors not only the first f J E Output one row concatenate errors with separator Validation description max_length null_check Name of field to validate state regex regex not allowed Error code 2 Ee Ger via file Error description String length above expectedallowed max p Type Verify data type Data type Conversion mask Decimal Symbol Grouping Symbol Data Null allowed Only null values allowed Only numeric data expected Max string length m 4 Min string length Maximum value Minimum va
33. date Halbjahrl 2012 ON COLUMNS NON EMPTY Hierarchize dim_geo state Members ON ROWS FROM webshop where Measures profit XXIX
34. den Kennzahlen Measures Alle genannten Elemente m ssen dem Schema einzeln hinzugef gt und als attribute value pair in einer Tabelle konfiguriert wer den Dabei wird u a ein Mapping auf die Tabellen und Schl sselfelder des relationalen Schemas durchgef hrt wird Eine automatische Vervollst ndigung von Feldnamen oder eine Einschr nkung auf m gliche Felder gibt es nicht Die genaue Kenntnis des relationa len Modells bzw der Feldnamen wird daher vorausgesetzt Die Eingaben werden nach Verlassen des Eingabefeldes sofort auf Kompatibilit t mit der Mondrian Engine gepr ft bzw validiert Sollten die hinzugef gten Elemente nicht richtig oder unvollst ndig konfigu riert sein wird dies mit einem roten x beim fehlerhaften Element und einer in rot gehal tenen Fehlermeldung am unteren Fensterrand angezeigt File Edit View Options Windows Help Table fact_delivery_item Ke dim customer Ke dim delivery date Ke A dim_order_date gt dim delivery time o A dim_order_time Ke dim_geo dim product Or producer_hierarchy producer Abbildung 48 PSW bersicht Schema Editor 62 4 OLAP Ein fertig modelliertes Mondrian Schema kann mittels File Save as als XML Datei im Filesystem an beliebiger Stelle gespeichert werden 4 3 2 Bereits wahrend der Modellierung und unabhangig vom Deploymen
35. der Modellierungsbereich Links daneben die Modellierungsleiste mit den verf gbaren Modellierungsobjekten Unter dem Modellierungsbereich wird ein Fehlerlog angezeigt womit bereits fr hzeitig Warnungen und Fehler angezeigt werden D Peris Eegen egene Te e On yew format Data Yyesow Weg gt x Ak x amp gt Report i B IV tte LIES D vo 05 10 15 20 25 30 A8 46 45 50 45 Bete Ki 6 Pape enter 17 Let LI a Report he ater eat T Catan Meviages von ta I Tea pot does mit anne que Abbildung 53 PRD bersicht Arbeitsbereich Auf der rechten Seite im Report Designer gibt es die Reiter Structure und Data Der Reiter Structure zeigt die Steuerelemente und ihre Anordnung im jeweiligen Bereich des Berichtes Der Reiter Data enthalt das Data Set mit der jeweiligen Connection und den Feldern der entsprechenden Query Um eine Query als Grundlage eines Reports verwenden zu k nnen ist diese vorher auszuw hlen Structure Data Structure Data Master Report Data Sets 9 F3 Page Header GJ JDBC MySQL_webshop_Database_Connection horizontal line Query_Kundenliste Ab label Kundenliste F3 Report Header Ab label Kundentyp 3 CUSTOMER 10 Long NAME String Ab label Geburtsdatum BIRTHDAY Timestamp Ab label Kundenname TN CUSTOMER TYPE String
36. eins 9 ouejuaq 5 uononpoud 104 pains uonip3 as ud ayug iqede pa ueApe ppe pue uoddns 1581 saj2A gt aseajas UMO abeuew 5331N0534 euJ9ju uondo siy Buisooy gt SJBWO YSN esn uononpoud sud uonenjeaa J0j pains uonip3 Aunuwo gt sape dn pue saunjeay 01 3ueurennu3 sap aseajay pebeuew pue A dewpeoy Santi oyezu d paysay 04 55 22 eerpeuruuj sayepdn aseajay 3u8ju0 jo aseg abpajmouy 1 ubisag 10j e ueisissy uoneyuaun og jeuoissajoJd 0 5 22 1 SVIS yoddns asud ayug 2 euiuQ uonip3 asud ayug SWNIOJ Alunwwoy woddns s auyeg Baue pue oyejuag bunjnsuo Buture1j uiooisse 5 S92IAJ8S JeuoissajoJd uondo paysoy pnoj gt puewag uo quawAojdaq BIEMYOS s qeis pue Daun vo pue ysay uos11edwoy 12npoud uonip3 esidajo3u3 9 Aunwwo oyejuad paseg uonduasqns 150040 e 1505 50901 1u04j dn ON e uonip3 809999999999 9 9 sisKjeue Seg o a21nos uado 345 eui Japun 9 qejreAe uoneoridde inok yew pabijqo uoneoijdde jepsawwo
37. seperate date keelen 2 split order date tp day month year a Lo split Ween i day month year merge dellvery_date amp si Read Customer csv read delivery item Read praduct csv Read shipping company csv merge order date T 1 E Select customer id name zipcode remove producer change metadata date hour minute i a a a a sort deliv ry id elivery_id 2 NUT sort ah 2 sort company id 2 1 d I 1 1 Fo innerjoin delivery 19 sort Customer id 2 innerjoin Customer ID sort product ID innerjoin product id sort company id innerjoin cqrnpany_id Abbildung 42 Transformation Fact Delivery item Extraktion 55 3 ETL Prozess Anschlie end werden Lookups auf die bestehenden Dimensionen durchgef hrt um die zugeh rigen ID s zu extrahieren DL_dimDate_delivery DL dim date order DL dim time deet DL dim time order DL dim mixed H dim Product DL dim Customer DL dim Geo Abbildung 43 Transformation Fact Delivery item Lookups Das Database Value Lookup Objekt ist sehr einfach zu konfigurieren Zun chst wird die Connection und Lookuptabelle ausgew hlt AnschlieBend werden die Tabellenfelder defi niert auf die der Lookup durchgef hrt werden soll und welchen Werten sie entsprechen sollen AbschlieBend wird die R ckgabespalte der Tabelle ausgew hlt R Database Value Lookup tota Step name
38. ty false name dim_order_date gt Hierarchy namez default visible true hasAll true prima ryKey DATE_ID gt Table namez dim date alias gt lt Table gt Level name year visible true column YEAR type Integer uniqueMem bers false lev elType TimeYears hideMemberlf Never gt lt Level gt Level namez month visible true column MONTH type Integer unique Members false levelType TimeMonths hideMemberlf Never gt XXII Anhang lt Level gt Level name day visible true column YEAR type Integer uniqueMem bers false lev elType TimeDays hideMemberlf Never gt lt Level gt lt Hierarchy gt lt Dimension gt Dimension type TimeDimension visible true foreignKey delivery_TIME_ID highCardinali ty false name dim_delivery_time gt lt Hierarchy name default visible true hasAll true prima ryKey TIME_ID gt Table name dim_time alias gt lt Table gt Level name hour visible true column HOUR type Integer unique Members false lev elType TimeHours hideMemberlf Never gt lt Level gt Level namez minute visible true column MINUTE type Integer uniqueMembersz false levelType TimeMinutes hideMemberlf Never gt lt Level gt lt Hierarchy gt lt Dimension gt Dimension type TimeDimension visible true foreignKeyz order TIME ID highCardinali tyz false namez dim order time Hierarchy namez default
39. und die erstellten Cluster anzusehen Kunden werden nach den von Weka ge w nschten angebotenen Cluster Methoden K Means EM Hierarchical Clustering usw Cluster Parametern und gew nschten Clusteranzahl gruppiert 110 7 Data Mining E r7 CSV file input Weka Scoring Step name Weka Scoring Model file Fields mapping Model Load import model Save model in step me Update Save updated ook In 7 Open File Accept model filename fro File nar Cache loaded modelsinn Open from Folder file C PDWH pentaho Weka x Output prob Name Type Modified 4 C Weka Cluster_Model_Customer model 14 10 2013 15 54 Batch scoring ba 4 m Filter WEKA binary serialized model file Abbildung 102 PDI Weka Scoring Objekt PDI gibt das Ergebnis dieses Clustering anschlie Bend als Tabelle aus input15 inputi6 class class 0_predicted_prob class 1_predicted_prob class 2_predicted_prob class 3_predicted_prob class 4_p 040 098 8 0 002 0 0 0 100 006 2 0 0 0096 0 9904 0 016 000 1 0 0 9981 0 D 067 000 4 0 0 0 0 047 000 1 0 0 9412 0 0588 0 020 020 6 0 0 0 D 066 000 4 0 0 0 0 000 057 0 0 9961 D 100 100 5 0 0 0 0 026 085 0 0 9961 0 0 D 018 001 9 0 0 0 0 0065 000 085 8 0 002 0 0 0 000 002 5 0 0 0 0 021 000 9 0 0 0 0 100 024 7 0 D 000 017 3 0 0 0 1 000 007 3 0 0034 0 0 992 000 016 9 0 0 0 0 lt Abbildung 103 PDI Scoring Ausgabe 111 8 Fa
40. visible true hasAll true prima ryKey TIME_ID gt Table name dim_time alias gt lt Table gt Level name hour visible true column HOUR type Integer unique Members false lev elType TimeHours hideMemberlf Never gt lt Level gt Level namez minute visible true column MINUTE type Integer uniqueMembersz false levelType TimeMinutes hideMemberlf Never gt lt Level gt lt Hierarchy gt lt Dimension gt Dimension type StandardDimension visible true foreignKeyz GEO ID highCardinali tyz false name dim_geo gt Hierarchy namez default visible true hasAllz true primaryKeyz GEO ID XXIII Anhang lt Table name dim_geo gt lt Table gt Level name state visible true column STATE type String unique Members false lev elType Regular hideMemberlf Never gt lt Level gt Level name zipcode visible true column ZIPCODE type String uniqueMembers false levelType Regular hideMemberlf Never gt lt Level gt Level namez city visible true column CITY type String uniqueMem bers false lev elType Regular hideMemberlf Never gt lt Level gt lt Hierarchy gt lt Dimension gt lt Dimension type StandardDimension visiblez true for eignKeyz PRODUCT ID highCardinali tyz false name dim_product gt lt Dimension gt Dimension type StandardDimension visiblez true foreignKey MIXED_ID highCardinali tyz false n
41. week 23 59 59 Last working day of next week 23 59 59 First day of next week 00 00 00 US Last day of next week 23 59 59 US First day of last quarter 00 00 00 Last day of last quarter 23 59 59 First day of this quarter 00 00 00 Last day of this quarter 23 59 59 First day of next quarter 00 00 00 Last day of next quarter 23 59 59 First day of last year 00 00 00 Last day of last year 23 59 59 First day of this year 00 00 00 Last day of this year 23 59 59 First day of next year 00 00 00 Last day of next year 23 59 59 Previous job entry result Previous job entry exit status Previous job entry nr Previous job entry nr errors Previous job entry nr lines input Previous job entry nr lines output Previous job entry nr lines read Previous job entry nr lines updated Previous job entry nr lines written Previous job entry nr lines deleted Previous job entry nr lines rejected Previous job entry nr rows Previous job entry stopped Previous job entry nr files Previous job entry nr files retrieved Previous job entry log text 29 3 ETL Prozess 3 3 2 Manipulation PDI bietet viele M glichkeiten zum Hinzuf gen Ver ndern und Entfernen von Feldern Dabei ist festzuhalten das es nicht den einen richtigen Weg oder das richtige Objekt f r eine T tigkeit gibt sondern viele Objekte sich in ihrer Funktion berschneiden Die Model lierungsobjekte lassen sich daf r prinzipiell in den Kategorien Feld nderung Sortieren und F
42. zu Reporting und Dashboardfunktionen Die Admin Console bietet eine Rechtever waltung und Monitoring Funktionen Als Infrastruktur wird ein Apache Tomcat Server ver wendet 2 2 Oberfl che und Bedienbarkeit Admin Console Die Oberfl che der Admin Console ist schlicht in Men band und Verwaltung getrennt ber der Verwaltung wird grafisch der Serverstatus angezeigt Mittels den Buttons Rechts oben lassen sich die Anzeigen Aktuallisieren und die Hilfe aufrufen pentaho spen source business intelligence Services Scheduler Roles Users Administration oles etails Admin Role Name Anonymous Authenticated escription ssigned Users Abbildung 9 Admin Console Oberflache 19 2 Bl Server User Console Nach Log in erwartet den User ein Welcome Screen der direkt eine Erstellung von neuen Reports oder Analysen bietet Auf der Linken Seite werden die dem User freigegebene Ordnerstrukturen angezeigt In diesen liegen die Reports Dashboards Die Men leiste erm glicht den schnellen Zugriff auf die wichtigsten Funktionen wie Durchsuchen der Ordner neue Dateien anlegen Verwaltung des eigenen Arbeitsbereichs und Zugriff auf den Marketplace mit Administratorrechten File ew Tools Help 1 1 ees se BI Developer Examples 5 Analysis Business Rules E3 Chart Examples Dashboard Examples Data Integration with Kettle Data Source E3 Printing E Reporting SVG
43. 11589 Abbildung 86 Saiku Szenario 1 Ausgabe Elementfilter Bei der Visualisierung wird deutlich dass die hohen Werte aus Tennessee die Interpre tierung der weiteren Bundesstaaten erschweren Grund ist der einheitliche Ma stab aller Diagramme 98 6 Visualisierung und Dashboards di Spalten delivery year Q Export Ihi Filter d i tht North Carolina North Dakota Oklahoma Oregon Pennsylvania 80 000 5 80 000 4 80 000 5 80 000 4 80 000 4 Wit 60 000 4 60 000 4 60 000 4 60 001 60 000 4 40 000 4 40 000 4 40 000 4 We An A 20 000 4 20 000 4 20 000 4 20 000 4 LR SS m gem cc ENS JAn South Carolina South Dakota Tennessee Texas Utah 80 000 4 80 000 4 80 000 5 80 000 4 80 000 4 Mt 60 000 4 60 000 4 60 000 4 60 000 4 60 000 40 000 4 40 000 4 40 000 4 40 000 4 40 000 5 st 20 000 4 20 000 4 20 000 4 20 000 4 20 000 4 0 m 0 m o 0 c JL X Abbildung 87 Saiku Szenario 1 grafische Ausgabe Elementfilter Um die Bundesstaaten mit normalen Profit zu betrachten wird ein Zeilenfilter angelegt der nur noch die Bundesstaaten ausgibt die einen Gesamtprofit ber alle Jahre von weniger als 40 000 haben Spalten Y delivery year Q Filter x Custom Limit gt Clear Filter Sort Custom Filter for ROWS Hawaii 10 027 10 058 7 760 Idaho 11 406 10 883 12885 Illinois 1539 1424 12001 N RER Indiana 8979 13 244 115
44. 2 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by buil 2013 09 09 14 06 06 DBOutput dim gea ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui Abbildung 29 PDI Error Logging dguy Because of an error this step can t continue Voud org pentaho di core exception KettleException doud Error batch inserting rows into table dim geo dguy Errors encountered first 10 doud Duplicate entry 38948 for key PRIMARY dguy dguy Error updating batch dguy Duplicate entry 38948 for key PRIMARY doud dguy dguy at org pentaho di trans steps tableoutput TableOutput writeToTable TableOutput java 404 dguy at org pentaho di trans steps tableoutput TableOutput processRow TableOutput java 128 doud atorg pentaho di trans step RunThread run RunThread java 50 dguy at java lang Thread run Thread java 22 doud Caused by org pentaho di core exception KettleDatabaseBatchException doud Error updating batch dguy Duplicate entry 38948 for key PRIMARY dguy dguy at org pentaho di trans steps tableoutput TableOutput writeToTable TableOutput java 320 dguy 3more doud Caused by java sql BatchUpdateException Duplicate entry 38948 for key PRIMARY dguy
45. 28 162 7 US 99661 Sand Point Alaska AK Aleutians East 013 55 3192 160 Abbildung 7 Quelldaten Geolocation 13 4206 4365 3056 4914 1 Einleitung 1 4 3 Star Schema Um verschiedene analytische Fragestellungen im Kontext des Evaluationszenarios be antworten zu k nnen wurde ein Star Schema mit mehreren Dimensionen und Kennzah len modelliert dessen physisches Datenmodell im Folgenden dargestellt naher erlautert wird Primar und Fremdschl sselfelder werden nicht n her erl utert sondern k nnen der Abbildung des physischen Datenmodells entnommen werden geo id int lat varchar 255 lon varchar 255 zipcode varchar 255 city varchar 255 state varchar 255 time id int lt pk gt hour int minute int date id int date datetime day int month int int gt delivery date id i mixed id int spe delivery time id shipping company varchar 255 order date id i product_group varchar 255 order time id turnover quantity product id int zok name varchar 255 producer varchar 255 Abbildung 8 Physisches Datenmodell Star Schema 14 1 Einleitung Faktentabelle fact_delivery_item Ein Eintrag in der Faktentabelle reprasentiert eine Lieferposition Es wurde somit die feinstm gliche Granularit t gew hlt Dies erm glicht eine gro e Flexibilit t da einerseits die Bestandteile einer Lieferung auf Positionsebene analysiert werden k nnen anderer seits mi
46. 3 5 0 verf gbar ist ein eigenst ndiges in Java geschriebenes Client Tool das als Modellierungs Frontend fungiert und im Weiteren naher erlautert wird 9 vgl http mondrian pentaho com documentation architecture php 59 4 OLAP 4 2 Oberflache und Bedienbarkeit Nach Aufruf der Datei workbench bat ffnet sich das Hauptfenster der Schema Work bench die nur in Englisch verf gbar ist Es besteht aus einer Men leiste mit den typi schen Elementen File View Options usw Von der Men leiste aus lassen sich weite re Fenster innerhalb des Hauptfensters ffnen wodurch mehrere Fenster nebeneinander dargestellt werden k nnen File Edit View Options Windows Help aner Al Schema webshop webshop_schema xml T NS UDF RARA i Ar d its o Default Schema EI dim customer D BIRTHDAY TIMESTAMP D CUSTOMER ID INTEGER 10 Table fact delivery item D CUSTOMER TYPE VARCHAR 255 dim_customer apti D Customer scd tk BIGINT 9 on name_hierarchy a D GENDER VARCHAR 255 D NAME VARCHAR 255 3 date from TIMESTAMP Table dim custom TN date_to TIMESTAMP ke aA type_hierarchy D load Date TIMESTAMP bs GA gender_hierarchy D version INTEGER 10 gt CC dim date dim geo o An customer id hierarchy CH dim mixed dim delivery date co aig im_time default o fact delivery item Ke A dim_order_date Cube Attribute Value webshop
47. 6 A B Cc 1 company id company name fixed rate 2 1 DHL 15 3 2 Hermes 2 7 4 3 TNT 3 5 4 UPS 4 6 5 Schenker 5 Abbildung 3 Quelldatengenerierung Shipping company 1 Einleitung Product In den Produktdaten sind neben dem Namen und der ID auch der Ein und Verkaufspreis sowie Produzent und Produktgruppe hinterlegt Automatisch generiert wurden der Pro duktname und der Einkaufspreis Die Produkt_id wurde als laufende Nummer im Excel erzeugt Der Verkaufspreis wurde in Excel als das 1 05 bis 1 5 fache des Einkaufspreises berechnet Ein negativer Profit ist somit nicht m glich Bei der Generierung der Pro duct_name Spalte wurde bereits eine Produktgruppe generiert zu erkennen am im Namen Da nicht alle Namen diese enthalten wurde die Spalte product_group erstellt und mit 5 Produktgruppen gef llt Die Hersteller und Produktgruppenwerte wurden zun chst in Excel erfasst und dann auf alle Produkte gleichverteilt Insgesamt wurden 450 Produkte erzeugt mit 10 Herstellern und 5 Produktgruppen Tabelle 5 Quelldatenstruktur Product Beschreibung Datentyp Wertebe reich Format product id Produktnummer gt 1000 product_name Produktname 255 Zeichen A B D E F 1 product id product name purchase pric sales price producer product group 2 1000 7up Diet 355 MI 10 27 14 79 Nestle Group_four 3 1001 Alize Red Passion 223 85 235 04 Anheuser B Group five 4 1002 Anisette Mcguiness 13 32 18 25 Dean Foods Group_three 5 1003 App
48. 89 Measures Pront lt 40000 lowa 2802 3581 3846 Kansas 2656 2597 2038 Louisiana 10 557 14 246 10 654 A Massachusetts 1 632 2 021 2 382 Z Minnesota 7728 8556 9188 OK Cancel Mississippi 10 977 10 082 9550 Montana 3057 3215 358 4 Abbildung 88 Saiku Szenario 1 Customfilter Die Bundesstaaten Maryland South Carolina und Tennessee werden somit gefiltert Die Visualisierung ergibt nun besser interpretierbare Diagramme In Louisiana sind beispiels weise gleich starke Schwankungen von und nach 2011 zu erkennen w hrend in Minne sota ein leichtes stetiges Wachstum erkennbar ist 99 California 20 000 5 10 000 4 lowa 20 000 4 10 000 4 Hawaii 20 000 4 10 000 4 0 a m Kansas 20 000 4 10 000 4 o LR CU wem 20 000 4 20 000 4 Idaho Louisiana u E E o Abbildung 89 Saiku Szenario 1 Ausgabe Customfilter 20 000 4 10 000 4 6 Visualisierung und Dashboards Illinois ME mmm 20 000 4 10 000 4 Massachusetts 2010 2011 1 2012 Indiana 20 000 4 10 000 4 a oA Minnesota 20 000 4 10 000 4 Eine weitere M glichkeit die Daten zu Filtern ist die in die Profitsumme einbezogenen Daten zu verringern Hier wird exemplarisch nur der Kundentyp Business betrachtet Durch die Beschrankung auf den Kundentyp Business erscheinen die zuvor gefilterten Bundesstaaten Maryland und South Carolina wieder in den Auswertungen Der zuvor ge setz
49. ATE VARCHAR 255 NULL DEFAULT NULL PRIMARY KEY GEO ID ENGINE z InnoDB DEFAULT CHARACTER SET utf8 DROP TABLE IF EXISTS webshop dim_mixed CREATE TABLE IF NOT EXISTS webshop dim_mixed XIV Anhang MIXED_ID INT 11 NOT NULL SHIPPING COMPANY VARCHAR 255 NULL DEFAULT NULL PRODUCT GROUP VARCHAR 255 NULL DEFAULT NULL PRIMARY KEY MIXED_ID ENGINE InnoDB DEFAULT CHARACTER SET utf8 DROP TABLE IF EXISTS webshop dim_product CREATE TABLE IF NOT EXISTS webshop dim_product PRODUCT_ID INT 11 NOT NULL NAME VARCHAR 255 NULL DEFAULT NULL PRODUCER VARCHAR 255 NULL DEFAULT NULL PRIMARY KEY PRODUCT_ID ENGINE InnoDB DEFAULT CHARACTER SET utf8 DROP TABLE IF EXISTS webshop dim_time CREATE TABLE IF NOT EXISTS webshop dim_time TIME ID INT 11 NOT NULL HOUR INT 11 NULL DEFAULT NULL MINUTE INT 11 NULL DEFAULT NULL PRIMARY KEY TIME ID ENGINE z InnoDB DEFAULT CHARACTER SET utf8 XV Anhang Table webshop fact_delivery_item DROP TABLE IF EXISTS webshop fact_delivery_item CREATE TABLE IF NOT EXISTS webshop fact_delivery_item DELIVERY ID INT 11 NOT NULL DELIVERY ITEM ID INT 11 NOT NULL PRODUCT D INT 11 NOT NULL delivery DATE ID INT 11 NOT NULL GEO 10 INT 11 NOT NULL MIXED 10 INT 1 NOT NULL delivery TIME ID INT 11 NOT NULL Customer s
50. Basis bestehender Listen Die Orts Finanz und Kundendaten beziehen sich auf hollandische und amerikanische Daten Zus tzlich ist es m glich eigene Format Strings zu definieren Die Ausgabe ist auf 5000 Zeilen limitiert und erfolgt im csv oder Excel Format Dieser Generator ist explizit daf r ausgelegt Testdaten f r Datenbanken zu erstellen migano com migano com generiert Personen und Ortsdaten aus dem deutschen Sprachraum Im Gegensatz zu den anderen Generatoren l sst sich auch der F llgrad der Spalten definie ren Die Ausgabe wird auf 1000 Zeilen limitiert und erfolgt im csv Format 1 4 2 Datenmodell und Erzeugung der Quelldaten Aus dem oben genannten Konzept resultiert ein einfaches Datenmodell mit 5 Tabellen Diese Daten sollen am Ende der Generierung als csv Dateien vorliegen Eine eigene Speicherung in einer Datenbank erfolgt somit nicht product_group Identifier_1 pi order_dste delivery date Identifier 1 pi H delivery item delivery item id lt pi gt lt M gt quantity return Identifier_1 pi shipping company company id Epi lt M gt company name fixed rate Identifier 1 lt pi gt Abbildung 1 ER Modell Webshop 1 Einleitung Customer Die Generierung der Ortsdaten erfolgte unabh ngig von den Personendaten um die Ver teilung der Standorte selbst steuern zu k nnen So sind in eventuellen sp teren Analysen Ergebnisse besser interpretierbar Es wurden 2000
51. Beispiel wird dies f r den n chsten Report beschrieben siehe Anhang A2 SQL Grundlage f r Reports Der Umsatz wird je Jahreszahl 2010 2011 2012 je State berechnet Als Ergebnis wird eine Liste mit den Ums tzen je Zeile erstellt Ziel ist es Spalten und Zeilen mit SQL zu vertauschen dies w re einfach zu l sen indem ein Pivot Befehl ver wendet werden k nnte Query Name Query _Turnover_Year_2010_2011_ 2012 Static Query Query Scripting Query SELECT NON EMPTY CrossJoing dim_delivery_date delivery_year 201 0 dim_delivery_date delivery_year 201 1 dim_delivery_date delivery_year 201 2 Measures turnover ON COLUMNS NON EMPTY Hierarchizeg dim_geo state Members ON ROWS FROM webshop Abbildung 71 PRD Szenario 3 MDX Query Die MDX Abfrage ist schnell zu erstellen und mit MDX k nnen komplizierte Abfragen ein facher erstellt werden 86 5 Reporting 3 Turnover Jahreszahl X Z amp 4 125 v Umsatztabelle 2010 bis 2012 State Umsatz 2010 Umsatz 2011 Umsatz 2012 California 129 753 USD 91 399 USD 102 161 USD r Hawaii 233 492 USD 246 883 USD 191 782 USD Idaho 283 519 USD 264 450 USD 308 061 USD Illinois 34 790 USD 35 04 USD 25 672 USD Indiana 214 679 USD 335 629 USD 279 124 USD lowa 71 531 USD 91 335 USD 87523 USD Kansas 59 345 USD 68 318 USD 58 116 USD Louisiana 266 003 USD 359 617 USD 253 192 USD Maryland
52. Buttons SQL generieren siehe Abbildung 32 PDI Table Input Objekt SQL Assistenz und auf dem SQL Server ausf hren Hier wird als Lookupfield die CustomerlD verwendet Ist diese in den neuen Quelldaten enthalten und hat einen anderen Wert als die bisherige wird ein neuer Eintrag erstellt und mittels Insert bef llt Der Prim rschl ssel ist fortan Customer csd tk Dieser wird automatisch bef llt mit dem Wert table maximum 1 Dim Geo In diesem ETL Paket werden den in den Kundendaten hinterlegten Standortdaten die Lati tude und Longitude hinzugef gt Im Input Read geolocation Textfile wird die US txt ein gelesen Es soll angenommen werden die vorliegenden Spalten haben kein eindeutiges Trennzeichen Bereits im Input wird erkannt das der String in die Teile Sonstiges und Latlon getrennt werden kann Innerhalb des Latlon Strings wird zun chst das Minus als Trennzeichen erkannt entfernt und anschlie end als Konstante wieder ein und angef gt Anschlie end wird der Zipcode aus dem Sonstige String extrahiert und zu Integer kon vertiert AbschlieBend werden die Latitude und Longitude mit den verf gbaren Zipcodes aus der Customer csv vereint und in der Tabelle Dim geo abgelegt 51 3 ETL Prozess Read customer csv Select values Sort Zipcode Merge Join Sort Zip Metadata zip to Integer Trim Strings Lascia uu D DBOutput dim geo Abbildung 37 Transformation Dim Geo Dim Mixed Da nur sehr wenig Produktgrup
53. Design Tab verwendet Beim Starten des Tools werden oberhalb des Modellierungsbereichs noch offene Modellierungen in Reitern orga nisiert angezeigt Oberhalb davon ist eine Auswahl anderer Perspektiven m glich Die Modell und Visualize Perspektiven erm glichen eine direkte Modellierung eines Metamodells zur grafischen Darstellung als Report oder Dashboard Da dort Elemente der Business Edition zug ng lich und die Benutzung dieser sehr instabil fehlerhaft ist ist anzunehmen dass es nicht beabsichtigt ist diese in der Community Edition verf gbar zu haben Server Dateipfad C PDW H pentaho pdi ce 4 4 0 stable data integration Spoon bat 24 3 ETL Prozess AM Spoon pdirepositary Welcome File Edit View Action Tools Help a Gi Perspective 9 Data Integration S Model Visualize ime XX dim date e JR View wa Design Ca We 22 initial loading 3X dim customer lt Dim geo 2X Dim Mixed SC Di Design ir 1 b A Explorer i E gt fleV C PDWH pentaho pdi ce 44 0 stable data integration docs English welcome kettle document maphtml Transformations XX dim customer XX Dim geo 3X Dim Mixed XX Dim Time 3K dim date XX dim product 3X Fact delivery positi amp Jobs initial loading Need Support Pentaho offers a variety of professional support plans designed to help you to overcome al
54. EE 80 5 5 1 Szenario 1 Erstellung einer 81 5 5 2 Szenario 2 Darstellungen mittels Diagramme 82 5 5 3 Szenario 3 Filtern mittels 84 6 Visualisierung und Dasbboarde AEN 89 bersicht ats ee ero Athen an RU tul 89 6 2 Oberfl che und Bedienbarkeit AAA 90 6 3 Funktionalit t ee ee een 91 6 31 DateriausWabhl iac ba a Ee rna wx caida 92 6 3 2 ele E E le DEE 93 83 SAUSgaBB eto alu 95 LR EE EE 97 6 5 Umsetzung EE e EE 97 6 5 1 Szenario 98 6 5 2 2 SOLE iuda cede ee aa aa a 101 E Oda uae 102 6 5 4 Szenario 4 103 7 Data Miningessssssen sn 105 Ta N ee LEE 105 7 2 Funktionalit t 106 7 3 DOKUMENMEATO Maes coun 107 7 4 Umsetzung E te EE 108 Macr ER 112 TATUM MM ME X AO Arbeitsumgebung Ae X A1 SQL Create Sep oe deae ee XIII A2 SQL Grundlage f r Reports cereo een XIX XML Struktur Mondrian XXII A4 Unterschiede zwischen der Enterprise und der Community Edition von udo dte rin saa dor ri d n n ec XXV A5 Pentaho Data Integratio
55. Einrichtung s mtlicher Komponenten automati siert durchf hrt Weiterhin enth lt die Enterprise Edition s mtliche Komponenten in einer einzigen Installationsdatei Insbesondere Werkzeuge zur grafischen Visualisierung und Auswertung z B Dashboard sind in der Community Edition nicht verf gbar Gleiches gilt f r Funktionen zur verteilten Zusammenarbeit Repository Zugriffskontrollen durch Rech te und Rollen sowie Administration und Monitoring Alle diese Features sind lediglich in der Enterprise Edition vollst ndig implementiert bzw nutzbar Da f r die Durchf hrung des Projekts ausschlie lich die Community Edition von Pentaho genutzt werden soll k nnen die o g Funktionen nicht oder nur in Ans tzen evaluiert wer den Auf die daraus resultierenden Einschr nkungen wird bei Bedarf in den jeweiligen Kapiteln n her eingegangen 1 Einleitung Im Gegensatz zur Enterprise Edition besteht die Community Edition aus einer losen An sammlung von Server und Clienttools die einzeln von der Projekthomepage herunterge laden ggf installiert konfiguriert und miteinander integriert werden m ssen Im Rahmen des Projekts werden folgende Komponenten der Community Edition verwen det Tabelle 2 verwendete Komponenten Dateiname inkl Version Funktionalit t Business Intelligence Server biserver ce 4 8 0 zip Frontend Administration inkl Mondrian Integration OLAP Engine Schema Workbench psw ce 3 5 0 zip OLAP Modelling Saiku An
56. F r die n chste Hauptversion 3 0 ist eine Unterst tzung der Periodenfunktionen im Modeller angek n digt 24 Siehe http blog analytical labs com post 6 14068 1 1926 the road to saiku 3 104 7 Data Mining 7 Data Mining 7 1 Ubersicht Data Mining ist die systematische Anwendung mathematischer und statistischer Metho den auf einen Datenbestand mit dem Ziel neue Muster zu erkennen die vorzugsweise in Data Warehouses oder Data Marts abgelegt sind blicherweise k nnen diese Muster nicht durch das klassische Durchsuchen von Daten ermittelt werden da die Beziehungen zu komplex sind bzw zu viele Daten bestehen F r die Analyse der Daten werden allgemeine und effiziente Methoden bereitgestellt Die Systeme sollen dabei in der Lage sein die geeigneten Methoden selbstst ndig auszu w hlen die Daten zu analysieren und zu visualisieren Als g ngige Verfahren des Data Minings sind Clustering Entscheidungsb ume Assoziationsanalysen und Neuronale Net ze zu nennen In Pentaho werden viele BI Komponenten zwar unterst tzt jedoch wurden f r die Data Mining Komponente keine Funktionen integriert Diese wird im Pentaho ber die Schnitt stelle zur statistischen Software Weka erm glicht Die Data Mining Komponente ging aus dem Projekt Weka der neuseel ndischen Universit t Waikato hervor 105 7 Data Mining 7 2 Funktionalitat Weka ist als Data Mining Tool besonders geeignet f r die Erstellung von Cluster K
57. File Content Error Handling Filters Fields Additional output fields Filetype CSV r Separator Insert TAB Enclosure Escape Header V Number of header lines 1 Footer 1 Wrapped lines Paged layout printout Compression None No empty rows Include filename in output Rownum in output Format DOS v Encoding Limit g Be lenient when parsing dates V The date format Locale de DE d Result filenames Add filenames to result OK Previewrows Cancel Abbildung 13 PDI Text File Input Reiter Content Im Reiter Error Handling wird das Verhalten bei Auftreten eines Fehlers definiert Es kann grunds tzlich in Ignorieren und Logging unterschieden werden Das Logging entfernt die Zeilen vom Hauptfluss und legt diese in einer Datei ab Zus tzlich f gt es den fehlerhaften Zeilen eine Fehlernummer feld sowie beschreibung hinzu Order und Dateistruktur lassen sich dabei entweder manuell anpassen oder aus einer Variablen auslesen Der Reiter Filters erm glicht es nur spezifische Zeilen zu lesen oder diese auszulassen Dabei wird die entweder die komplette Zeile oder nur eine spezifische Position nach einem Filterbegriff durchsucht Im Reiter Fields werden die Metadaten der Felder definiert Dies kann entweder manuell erfolgen oder mittels automatischen Auslesens 28 3 ETL Prozess Im Reiter Additional Output Fields k nnen weitere Felder mit Metadaten der Datei erstellt we
58. Identifizierung des Le vels Produktname muss manuell einge geben werden bezieht sich auf Spalte aus Faktentabelle uniqueMembers Gibt an ob Member ber alle Parents ein zigartig sind levelType Art des Levels hideMemberlf Bestimmt ob Level versteckt ist oder nicht 70 4 OLAP delivery item id Level Tabelle 29 Attribute Lieferpositionlevel Atribute Value Beschreibung delivery item id Name des Levels column delivery_item_id Name der Spalte zur Identifizierung des Le vels Produktname muss manuell einge geben werden bezieht sich auf Spalte aus Faktentabelle uniqueMembers _ true Gibt an ob Member Uber alle Parents ein zigartig sind levelType Art des Levels hideMemberlf Bestimmt ob Level versteckt ist oder nicht Die degenerierte Dimension dim delivery enth lt keine Tabelle und bezieht sich daher auf die Faktentabelle Durch die beiden Level der Hierarchie kann auf Ebene der Liefe rung aggregiert werden Weiterhin k nnen auch alle Positionen einer Lieferung ausgewer tet werden Aufgrund der fehlenden Tabelle wird die Dimension nicht validiert Das Modell wird von der Schema Workbench als fehlerhaft angesehen obwohl es funktionsf hig ist Der Validierungsalgorithmus kennt den Sonderfall der degenerierten Dimension nicht Pentaho Mondrian verarbeitet das Schema jedoch problemlos und mit der gew nschten Funktionalit t 4 14 vgl http mondrian pentaho com documentation schem
59. Kon zepts mittels dem Dimension Lookup Update Objekts Mittels des Assistenten kann wie auch bei den vorherigen Objekten automisch die Zieldatenbank ausgewahlt werden An schlie end erfolgt die Auswahl des Schl sselfelds und der Lookup Felder dabei kann jedem Feld eine andere Aktion zugewiesen werden Somit lassen sich auch Hybridtypen erstellen Die Generierung des Werts des Technical Keys kann dabei entweder als auto increment oder als Tablemax 1 erfolgen 45 3 ETL Prozess Fur SCD Typ 2 lassen sich das g ltige Start und Enddatum beliebig festlegen sion Lookup late Step name Dimension lookup update SCD I Update the dimension V Connection star webshop New Target schema Browse Target table den customer ha Commit size 100 Enable the cache V Cache size in rows fl Cache all ennn Keys Fields Key fields to look up row in dimension Dimension field Field in stream 1 CUSTOMER ID Customer ID Keys Fields Lookup Update fields Dimension field Stream field to compare with Type of dimension update 1 Name Name Insert 2 Gender Gender Insert 3 birthday birthday Insert 4 CUSTOMER_TYPE customertype Insert 5 load_Date load_Date Date of last insert or update without stream field as sc m Technical key field Customer scd tk Creation of technical key Use table maximum 1 5 Use auto increment field Version field version Stre
60. Namen und dem Verweis auf die Spalte in der Fak tentabelle auch ein sog aggregator festgelegt werden Er bestimmt wie der Feldinhalt fur spatere Abfragen aggregiert wird Zur Auswahl stehen dabei typische Aggregatsfunk tionen wie SUM COUNT AVG etc 66 4 OLAP Tabelle 21 Aggregatfunktionen der Measures quantity SUM profit SUM returned COUNT shipping_cost SUM turnover SUM 4 5 2 Dimensionen und Hierarchien Dem Cube wurden s mtliche bekannte Dimensionen aus dem relationalen Schema hin zugef gt Jede Dimension muss mindestens eine Hierarchie besitzen um validiert zu werden Eine Hierarchie kann ein oder mehrere Level besitzen und muss eine Dimensi ons Tabelle referenzieren Am Beispiel der Produkt Dimension werden die Elemente und deren Konfiguration dargestellt dim product Dimension Tabelle 22 Attribute Produktdimension foreignKey PRODUCT ID Fremdschl sselfeld aus Faktentabelle type StandardDimension Dimensionstyp visible Sichtbarkeit 67 4 OLAP product_hierarchy Hierarchie Tabelle 23 Attribute Produkthierarchie product_hierarchy Name der Hierarchie hasAll Gibt an ob die Hierarchie ein all Member hat allMemberName All Producers Name des all Members primaryKey PRODUCT ID Schl sselfeld aus der Dimensionstabelle welches Member identifiziert und referen ziert kann erst ausgew hlt werden wenn der Hierarchie eine Tabelle zugeordnet ist product Level
61. Prof Dr Ingo Cla en t Studiengang Wirtschaftsinformtik Hochschule fiir Technik eue und Wirtschaft Berlin FB Informatik Kommunikation und Wirtschaft University of Applied Sciences Projektbericht Titel Evaluation von Pentaho Business Analytics fiir den Einsatz in der Lehre an der HTW Berlin Autoren Frederic Ruschke Tino Dietze Sebastian Rabus Cedric Xavier Tchoutouo Kougan Inhaltsverzeichnis Inhaltsverzeichnis Hee le Tel tele ee TEE IV ELE ee le VIII Abk rzungsverzeichnis seen IX 1 Einleitung REEL 1 1 1 Zeeund Umfa g E 1 1 2 Rahmenbedingungen und Vorgehen 1 1 3 Pentaho Business Analytics Community 3 dod E valuatiorisszenadltO eser aerae sek EE 6 1 4 1 Business Domain und Grundlage der Quelldaten 6 1 4 2 Datenmodell und Erzeugung der Quelldaten 7 1 4 SEET EE 14 2 HBIPSEIVEL is 19 eq bersicht asien ana 19 2 2 Oberfl che und Bedienbarkeit 19 2o EHnktonalllal saspe dea Pea AS EAR D AME 21 2 4 Dokumentation EE 21 2 5 Umsetzung Szeriario auus sane eeaeee eeaeee ennenen nennen 21 Se ETESPIOZSSE EE 24 3 1 6131 EEN 24 3 2 Oberfl che und Bedienbarkeit 24 Suo ite E EE 25 SC
62. Q Web services lookup 73 Joins Wi Join Rows cartesian product CS Merge Join gt Merge Rows diff Z gt Sorted Merge J XML Join 4 Data Warehouse 19 Combination lookup update Dimension lookup update 4 Bulk loading Q ElasticSearch Bulk Insert 3 Greenplum Bulk Loader Greenplum Load 18 Infobright Loader 1e Ingres VectorWise Bulk Loader amp LucidDB Streaming Loader 19 MonetDB Bulk Loader MySQL Bulk Loader Oracle Bulk Loader 1 PostgreSQL Bulk Loader 3 Teradata Fastload Bulk Loader Anhang 4 88 Statistics Analytic Query JH Group by 3 Memory Group by Output steps metrics 3 Reservoir Sampling Sample rows Univariate Statistics 4 88 Big Data W Avro Input amp Cassandra Input amp Cassandra Output KR CouchDb Input E Hadoop File Input Hadoop File Output Y HBase Input tH HBase Output Nits HBase Row Decoder ig MapReduce Input o MapReduce Output Sr MongoDb Input MongoDb Output amp SSTable Output 4 E Agile MonetDB Agile Mart Table Agile Mart Palo E Palo Cell Input Se Palo Cell Output amp Palo Dim Input ei Palo Dim Output 89 Job If Copy rows to result Get files from result T Get rows from result Get Variables He Set files in result Set Variables a Inine Injector Socket reader DA socket writer XXVI Job General START ig DUMMY gt Example plu
63. R MUL hoo RE 26 3 3 2 ManipHIaIOElsia ior Moro ORAE ee 30 3 3 3 FlusSSTOUOPUDI austri tree ed eges ede depende dee 37 3 3 4 Datenpr fung und 39 3 35 see 43 Qa Oe Ol BEE EE E 48 3 4 D kumienlalion an RAin 50 3 5 Umsetzung SZSIM AC aan 50 3 5 1 Laden der Dimensionen 50 3 5 2 Laden der Faktentabelle sel 55 S OLA MU TIO OPCION 58 AN Ao E e ret a E ELA ha E 58 4 2 Oberfl che und Bedienbarkeit 60 4 3 FUNK TONGUE einnehmen 61 4 3 56hema le EENEG 61 4 3 2 MDX QUETIES cccccecscccesscassccecssescareseassansasseusateaucarsensausarsaneaus 63 2 23 29 B 21E ab 46 A see deduc due due due due due due dedu dd edd dede dd cau 64 4 4 Dokumentation eeeeeeee essere eene nena rina nasa rena 65 4 5 Umsetzung Gzenarg ee 66 4 5 1 Faktentabelle und Meaeures 66 4 5 2 Dimensionen und Hierarchien 67 Inhaltsverzeichnis 4 5 3 Publishing auf Server nenn 72 TUDO ULI ae oc Ie ep IR 73 EE 73 5 2 Oberfl che und Bedienbarkeit 73 5 3 Funktionalit t esse anna 76 5 4 DOKUMENTAOn SS c cL 80 5 5 Umsetzung SzerallO
64. Remove digits from string FLOOR A Return the length of a string NYL A B Load file content in binary Date A B Days Add time B to date A Year of date A Quarter of date A Month of date A variable substitution in string amp Day of year of date A Unescape XML content Day of month of date A Escape HTML content Day of week of date A Unescape HTML content Week of year of date A Escape SQL content ISO8601 Week of year of date A Date A Date B working days 1508601 Year of date A Date A B Months Check if an XML file A is well formed Check if an XML string amp is well formed Get encoding of file A Dameraulevenshtein distance between String and String B NeedlemanWunsch distance between String and String Jaro similitude between String A and String B JaroWinkler similitude between String and String B SoundEx of String A RefinedSoundEx of String amp Date A B Hours Date amp B Minutes m fall Abbildung 17 PDI Calculator Objekt Funktionen Das Formular Objekt wird dagegen nur durch die Auswahl an Funktionen jedoch nicht an der Anzahl Felder limitiert Die Auswahl der Funktionen ist umfassend und beinhaltet auch logische Funktionen sodass auch verschachtelte Formeln definierbar sind Sa 4 Basic computation AIR a f Comparisons gt Date Time Information Logical Mathematical Text E m D 32 3 ETL Prozess Abbildung 18 PDI Formular Obj
65. Webservices Erstellt eine Datei Verschiebt Dateien von nach definierten Ordnern Regex nutz bar l scht Dateien Ordner Regex nutzbar l dt Dateien Uber FTP erfolgreiche Ausf hrung definierbar ber Fehleranzahl mindest Anzahl Dateien vollst ndiger Erfolg speichert Dateien ber FTP verschl sselt Dateien mit PGP pr ft Dateisignatur mit PGP entschl sselt Dateien mit PGP Abbruchobjekt schreibt definierbaren Logeintrag 49 3 ETL Prozess 3 4 Dokumentation PDI bietet bereits im Installationsarchiv diverse Hilfsangebote Im Verzeichnis pdi ce 4 4 0 stable data integration samples werden mehr als 200 Beispiele f r Transformatio nen Jobs und Mapping angeboten Die Handb cher sind im Verzeichnis pdi ce 4 4 0 stable data integration docs English in diversen Sprachen verf gbar nicht auf Deutsch Diese sind jedoch nicht Community Edition spezifisch Online sind im Infocenter http infocenter pentaho com help index jsp weitere Anleitungen und Hilfestellungen verf gbar Des Weiteren sind die Community und die Entwicklerblogs sehr aktiv und bieten einige Tutorials Im Pentaho Wiki sind zudem ausf hrliche Beschreibungen der im PDI verf g baren Objekte 3 5 Umsetzung Szenario Die in Kapitel 1 4 2 bereitgestellten Daten sollen nun extrahiert transformiert und an schlie end in das in Kapitel 1 4 3 beschriebene Starschema geladen werden Zum Zweck des Funktionstests wurden nicht immer die idealen
66. a php Degenerate_dimensions 71 4 OLAP 4 5 3 Publishing auf Server Um das Schema als Datenquelle auf dem Bl Server verwenden zu k nnen muss es Zu n chst ver ffentlicht werden Daf r muss das Publisher Passwort auf dem Server gesetzt sein und eine Datenbankverbindung in der Administrator Console eingetragen sein 5 Da nach kann das Schema mittels File New Publish auf den Server kopiert werden Repository Login Server URL Inttp Nocalhost 8080 pentaho Publish Password Pentaho Credentials User joe Password 999999 Remember these Settings OK Cancel Abbildung 51 PSW Repository Login Das aktuelle Publish Password sowie URL und die Pentaho Credentials richten sich nach der jeweiligen Konfiguration des Bl Servers in der virtuellen Maschine siehe Anhang AO Nach dem Ver ffentlichen steht das Schema auf dem Server f r die Nutzung durch die dort integrierten OALP Frontends zur Verf gung 15 vgl http wiki pentaho com display ServerDoc1x Configuring Publish 72 5 Reporting 5 Reporting 5 1 Ubersicht Der Report Designer ist ein Stand Alone Tool Die aktuellste Version und verwendete sta bile Version ist 3 9 1 Bei der Standardvariante von Pentaho muss der Report Designer extra heruntergeladen werden entpackt und einfach gestartet werden Zum Report Designer gibt es einen User Guide in englischer Sprache wo unter ande
67. alysen und visuelle Auswertungen durchf hren zu k nnen Abschlie end wird die Funktionalit t von Pentaho im Hinblick auf Reporting und Data Mi ning untersucht und ein Fazit bzgl der Vor und Nachteile sowie der Nutzbarkeit in der Lehre gezogen Um eine konsistente Dokumentation und bessere Lesbarkeit zu erreichen wird ein stan dardisiertes Vorgehen bei der Evaluation von Pentaho genutzt Zu Beginn werden die Plattform und die Komponenten vorgestellt Im weiteren Verlauf werden die Client und Server Tools anhand folgender Punkte auf verschiedene Eigenschaften untersucht e bersicht Plattform und Architektur Deployment Artefakte e Oberfl che und Bedienbarkeit Screenshot Startbildschirm Erl uterung der wichtigsten Bedienelemente Konsistenz e Funktionalit t Umfang Besonderheiten Kernfunktionen e Dokumentation Hilfefunktion im Tool Verf gbarkeit und Vollst ndigkeit e Umsetzung des Szenarios Unter dem Punkt Umsetzung Szenario wird die konkrete Nutzung des jeweiligen Tools im Hinblick auf das Evaluationsszenario beschrieben Er ist daher immer der letzte Teil eines Kapitels Auf die Untersuchung von Performanceaspekten wird verzichtet da diese unter den 0 9 Rahmenbedingungen Nutzung einer limitierten virtuellen Maschine nicht objektiv bewer tet werden k nnen 1 Einleitung 1 3 Pentaho Business Analytics Community Edition Bei der Pentaho Business Analytics Suite handelt es sich um eine Bus
68. alytics Version 2 5 aus Pentaho MDX Analyse Marketplace Report Designer prd ce 3 9 0 zip Der Business Intelligence Server inkl der OLAP Engine Mondrian stellt laut Pentaho eine BI Plattform dar Data Integration auch bekannt als Kettle deckt ETL ab Die Schema Workbench und das Saiku Analytics Plugin sind der multidimensionalen Modellierung und Auswertung zuzuordnen Der Report Designer und Weka dem Reporting bzw Data Mi ning Eine weitergehende Beschreibung der Tools findet sich im jeweiligen Kapitel in die sem Dokument Die genannten sowie weitere Komponenten der Community Edition k nnen unter folgen den Links heruntergeladen werden http wiki pentaho com display COM Getting Started Downloads http wiki pentaho com display COM Latest Stable Builds Die Verzeichnisstruktur der Komponenten auf der virtuellen Maschine ist in Anhang AO dargestellt 1 Einleitung 1 4 Evaluationsszenario 1 4 1 Business Domain und Grundlage der Quelldaten Als Business Domain wird ein Handelsunternehmen zugrunde gelegt welches Lebensmit tel ber das Internet verkauft Es handelt sich also um ein Webshop Szenario Das Han delsunternehmen kauft Artikel bei seinen Lieferanten und verkauft diese mit Gewinn an Kunden weiter Es wird lediglich der Verkauf von Waren betrachtet Der Einkauf wird aus Gr nden der Vereinfachung nicht ber cksichtigt Die Kerntransaktion im Szenario ist dabei die Lieferung von bestellten Artikeln Diese Art
69. am Datefield Date range start field date from Min year 1900 Use an alternative start date E Table daterange end date_to Max year 2199 1 o Jl emer Il garg sar Abbildung 34 PDI Dimension Lookup Update Objekt 46 3 ETL Prozess Database Lookup Beim Database Lookup Objekt wird zunachst die Lookuptabelle gewahlt AnschlieBend werden die zu durchsuchenden Tabellenspalten definiert und mit den Datenflussspalten gemappt Abschlie end wird die Spalte des R ckgabewerts wieder mit dem Datenfluss gemappt Bei der Auswahl kann PDI einen ber die Buttons Get Fields und Get lookup Fields Assistieren KR Database Value Lookup ce f zs Step name Connection input dimgeo Edit New Lookup schema Lookup table dim_mixed Enable cache The key s to look up the value s amp Table field Comparator Field1 Field2 1 SHIPPING_COMPANY 2 PRODUCT_GROUP company_name product_group Values to return from the lookup table Field New name Default Type 1 MIXED ID fk dimMixed Integer Do not pass the row if the lookup fails 1 Fail on multiple results Order by OK Cancel GetFields Get lookup fields Abbildung 35 PDI Database Lookup Objekt 47 3 ETL Prozess 3 3 6 Job Pentaho definiert einen Job als Organisationseinheit f r Transformationen vergleichbar mit dem Packet im Microsoft SSIS Mit einem Job k nnen zudem auch weitere J
70. ame dim_mixed gt lt Dimension gt Measure name quantity column QUANTITY aggregator sum visi ble true gt lt Measure gt Measure name profit column PROFIT aggregator sum visible true gt lt Measure gt Measure name returned column RETURNED aggregator count visi ble true gt lt Measure gt Measure namez shipping cost column SHIPPING_COST aggrega torz sum visible true gt Measure Measure name turnover column TURNOVER aggregator sum visi ble true gt lt Measure gt lt Cube gt lt Schema gt XXIV Anhang oyejuad YIM jenos ag A4 Unterschiede zwischen der Enterprise und der Community Edition von Pentaho UOISJ8A SIU algejjene Auljeuon gt uny 21 IYI 015 gt gt gt gt gt gt uonip3 up peojumop wo gt oyejuad mmm Aepo jg 1 nal Sales pue uonnjosai sesjuejenb yey 1oddns o sabuey gt apo Kyunwwo Jue suo gt pue s gepipaidun s o Ajjenuew 35a pue apo pjinq a1 01 pa3N e 9 1 40 sAejap Sax Sange Ajjenyusag 79 o o o o S 989 uonip3 Dune ssej3 plom Sie Hoddns jeuolssajosd oyezuad jeet pue 104 SNOS Jou yey auemyos paunsse Ayjenb pue paure1uo j ss pe ueApe uonip3
71. amtumsatz je Jahr XX Abbildung 109 SQL Statement Pivot Umwandlung XX VI Abbildungsverzeichnis Abbildung 110 Ergebnis Pivot Umwandlung XXI Abbildung 111 SQL Statement Delta Berechnung und Prozentwerte XXI Abbildung 112 Ergebnis Delta Berechnung und Prozentwerte XXI Abbildung 113 angelegte Views der Datenbank Webshop XXI VII Tabellenverzeichnis Tabellenverzeichnis Tabelle 1 Funktionsunterschiede Community vs Enterprise Edition 3 Tabelle 2 verwendete Komponenten 5 Tabelle Quelldatenstruktur Customer eese 8 Tabelle 4 Quelldatenstruktur Shipping 9 Tabelle 5 Quelldatenstruktur Product 10 Tabelle 6 Quelldatenstruktur Delivery AEN 11 Tabelle 7 Quelldatenstruktur Delivery em 12 Tabelle 8 Felder und Beschreibung fact delivery item 15 Tabelle 9 Felder und Beschreibung dim product 15 Tabelle 10 Felder und Beschreibung dim Cusiomer 16 Tabelle 11 Felder und Beschreibung _ 16 Tabelle 12 Felder und Beschreibung _ 17 Tabelle 13 Felder und Beschreibung _ 17 Tabelle
72. as ganze Modell muss noch einmal eingespielt werden da das Weka Mo dell als Vorlage verwendet wird 26 Server Dateipfad pdi ce 4 4 0 stable data integration plugins steps 109 7 Data Mining EB weka Clusterer Visualize 13 59 02 EM iris x petallength Num v Eo ut T v Colour Cluster Nom Select Instance Clear Save Plot iris clustered Class colour clusterO clusterl cluster cluster Abbildung 100 Weka Clustering Ausgabe Als Beispiel wird hier ein Clustering der Kundendaten durchgef hrt Die Datei wird unter dem Namen Cluster model customer auf dem Server im Ordner Weka gespeichert Dieses Clustermodell kann nun im Pentaho Data Integration ber das Plugin eingelesen Zuerst muss eine Transformation erstellt werden Dabei erfolgt das Einlesen des Weka s Modells ber das Modellierungsobjekt Weka Scoring File Edit View Action Tools Help re Perspective Data Integration f View 7 Design ES Welcome 7X dim customer bai Model 9 Visualize Cluster Kunde 52 Steps we ISF bag Ee E 10 v Melissa Data CSV file input Weka Scoring Data Mining Input Output 5 Transform J Weka Scoring Utility Flow Abbildung 101 PDI Transformation Clustering In den Reitern Fields mapping und Model ist das Cluster Modell und die Darstellung exakt bernommen worden genau wie von Weka erstellt SchlieBlich ist das Modell aus zuf hren
73. ay Reporting Report Designer 18 Server Dateipfad pentaho report designer docs report_designer_user_quide pdf 80 5 Reporting 5 5 1 Szenario 1 Erstellung einer Kundenliste Die Kundenliste soll alle Gesch ftskunden mit dem Anfangsbuchstaben M die sp ter als 1980 geboren wurden und einem Kundennummernbereich zwischen 10000001500 und 10000002000 enthalten Dazu wird f r die Data Source eine neue Query angelegt ee Er Se Data Source Globes Scrpeng Coamectoos Edit Security no o9 MySQU webshop Database Coasectios Query Kundeakste SampieOata Otypersossc SamplieOata Loca SaempleData Memory SaempieOata My OL Query Name srirct amp dia _custonet CUSTOMER Ip dia Customer NAME dim customer BIFNDOAY dim customer CUSTOMER TYPE ram din Customer 224 COSTORER_TYVE busin AND Tear A8 AND LIKE s 12 AND COSTOMER 1b BETVEEN 1000001500 AMD 100000000 Max Preview Rows Preview Abbildung 60 PRD Szenario 1 Query Auf der linken Seite wird der Bericht mit den verwendeten Steuerelementen dargestellt und kann nach Fertigstellung schnell in einer Druckansicht Seitenvorschau mit den Er gebnissen der Query am Bildschirm angezeigt werden port ech Ir cot Gen format Det fr en mem HHH O gt patt ke Kuovteskate 0009200 Strectere GOPS s 33548233 A ET Abbildung 61 PRD Szenario 1 Reportentwurf
74. board Editor von Webdetails und zum anderen Saiku von Analytical Labs Wie bereits im Kapitel 2 2 beschrieben wurde Webdetails im April 2013 von Pentaho aufgekauft worden Da zum derzeitigen Zeitpunkt nicht klar ist ob die Plu gins von Webdetails noch in der kommenden Community Edition verf gbar sind wird in dieser Ausarbeitung nur Saiku betrachtet Saiku wurde von 2008 an als Pentaho Analysis Tool entwickelt und 2010 als Saiku ver f fentlicht Saiku ist zum einen als Stand Alone Tool vorhanden zum anderen auch als Plu gin f r u a Pentaho Es verwendet die OLAP4J 1 1 0 API und ist durch XML A kompati bel zu Mondrian 4 MS SQL SSAS PALO und SAP BW 20 Saiku liegt in der Plugin Version 2 5 vor Saiku verwendet als eigenes Dateiformat saiku welches auf XML basiert Neben der Speicherung der Ergebnisse im saiku Format in der Ordnerstruktur auf dem Server k nnen auch Exporte durchgef hrt werden Diese k nnen in den Formaten xls csv und pdf erfolgen Auf http dev analytical labs com ist zudem stets die aktuellste Version als Livetest ver f gbar I Siehe http www informationweek com software soa webservices pentaho buying saas from lucidera 220301067 Siehe http www olap4j org 89 6 Visualisierung und Dashboards 6 2 Oberflache und Bedienbarkeit Die Oberflache ist klar strukturiert und leicht zu bedienen Auf der linken Seite erfolgt die Auswahl der Datenquelle und Auflistung der Dimensionen und Kennzahlen
75. cd tk bigINT 11 NOT NULL TURNOVER DECIMAL 10 2 NULL DEFAULT NULL QUANTITY INT 11 NULL DEFAULT NULL DECIMAL 10 2 NULL DEFAULT NULL RETURNED VARCHAR 255 NULL DEFAULT NULL SHIPPING COST DECIMAL 10 2 NULL DEFAULT NULL order TIME ID INT 11 NOT NULL order DATE ID INT 1 NOT NULL PRIMARY KEY DELIVERY ID DELIVERY ITEM 10 INDEX time id delivery TIME ID ASC INDEX Product id idx PRODUCT ID ASC INDEX Date id idx delivery DATE ID ASC INDEX Geo id GEO ID ASC INDEX Mixed id MIXED_ID ASC INDEX Customer scd Customer scd tk ASC INDEX fk fact delivery item dim timet dx order TIME ID ASC INDEX fk fact delivery item dim date1 idx order DATE ID ASC CONSTRAINT Customer scd tk FOREIGN KEY Customer scd tk REFERENCES webshop dim customer Customer scd tk ON DELETE NO ACTION ON UPDATE NO ACTION CONSTRAINT Date d FOREIGN KEY delivery DATE ID REFERENCES webshop dm date DATE ID XVI Anhang ON DELETE NO ACTION ON UPDATE NO ACTION CONSTRAINT Geo id FOREIGN KEY GEO _ID REFERENCES webshop dim geo 10 ON DELETE NO ACTION ON UPDATE NO ACTION CONSTRAINT Mixed id FOREIGN KEY MIXED 10 REFERENCES webshop dim mixed MIXED ID ON DELETE NO ACTION ON UPDATE NO ACTION CONSTRAINT Product id FOREIGN KEY PRODUCT ID REFERENCES webshop dim product
76. d Values Java Archive Java Database Connectivity Multidimensional Expressions Online Analytical Processing Pentaho Data Integration Pretty Good Privacy Pentaho Report Designer Pentaho Schema Workbench Relational Database Management System Relational Online Analytical Processing Scripted Query Language Extensible Markup Language XML for Analysis 1 Einleitung 1 Einleitung 1 1 Ziele und Umfang Im Masterstudiengang Wirtschaftsinformatik an der HTW Berlin werden zu Ausbildungs zwecken verschiedene Datawarehouse und Business Intelligence Tools eingesetzt Im Rahmen der Lehrveranstaltung Projekt Datawarehouse P DWH im SoSe 2013 bei Prof ClaBen soll die Open Source Business Intelligence Suite von Pentaho auf ihre Eignung f r den Lehreinsatz hin gepr ft werden Dies umfasst insbesondere die Gebiete e Extraktion Transformation und Laden von Quelldaten ETL e Multidimensionale Modellierung und Analyse OLAP e Reporting und Dashboards e Data Mining die in verschiedenen Lehrveranstaltungen behandelt werden Die bisher an der HTW Berlin in den o g Gebieten eingesetzten Programme sind meist kommerzielle Closed source Anwendungen insbesondere von Microsoft und SAP Das Projekt bzw seine Ergebnisse sollen damit eine Entscheidungsgrundlage daf r schaffen ob ein Open Source Produkt in Teilbereichen zu Lehrzwecken genutzt werden k nnte 1 2 Rahmenbedingungen und Vorgehen Das Projekt wird in weiten Teilen auf Infrast
77. d gr tenteils f r die Version 2 x bis 3 x geschrieben 2 5 Umsetzung Szenario In diesem Kapitel werden alle Aktionen beschrieben die zur Einrichtung der Arbeitsum gebung n tig sind Zur Einrichtung der Arbeitsumgebung wurde zun chst eine 32 Bit Java Version installiert Die Installation und Konfiguration von Pentaho teilt sich in den Berei chen Servertools und Clienttools Siehe http wiki pentaho com display ServerDoc2x BI Server 2 x 3 x Community Documentation Siehe http community pentaho com projects bi_platform 21 2 Bl Server Zur Benutzung des MySQL Servers ist es notwendig bei jedem Tool eine aktuelle Trei berdatei zu hinterlegen Diese muss in den toolspezifischen Pfad abgelegt werden e Bl Server biserver ce tomcat lib e Admin Console administration console jdbc e Data Integration data integration libext JDBC e Report Designer report designer lib jdbc e Schema Workbench pentaho design tools schema workbench drivers e Aggregation Designer agg designer drivers e Metadata Editor metadata editor libext JDBC Bl Server Der Pentaho Bl Server nutzt als Infrastruktur einen Apache Server Dieser muss zun chst als Dienst angemeldet werden Dazu wird eine Eingabeaufforderung mit Administrator Rechten ge ffnet und im Verzeichnis biserver ce tomcat bin die service bat mit dem Parameter install ausgef hrt Anschlie end die tomcat6w exe als Administrator starten und in den Reitern S
78. da die verwendeten Variablen f r die Diagramme grundlegend aus berechneten Funktionen min max sum usw berechnet werden und die Grundlage bilden iCeamectices Edit Security Avatatie Queries o MySQL webshop Database Coasectice Query A Sengem SampleData Hyperscesc ampleData SampleData Memory SampieData MySQL Query Name Query 1 Static Query Qoery Scripting Query SELECT ORDERFACT TOTALPRICE AS SALES OPDERPACT QUANTITYORDERED PRODUCTS BUTPRICE AS COST OPDERFACT QUANTITYORDERED PRODUCTS PRODUCTLINE OPDERFACT ORDERDATE PRODUCTS PRODUCTHARE FRUM PRODUCTS INNER JOIN ORDERFACT OM PROCOCTS PRODOCTCODE ORDERFACT PRODUCTCODE ORDER HY PRODUCTS PRODUCTLINE ASC OPDERFACT PDERDATE ASC a PRODUCTS PRODUCTHANE ASC d i Max Preview Rows 2 cian Abbildung 56 PRD Connectionmanager Neben SQL Statements k nnen auch MDX Statements verwendet werden Dazu ist eine Verbindung zur Datenbank herzustellen und die Schema Datei mit einzu binden Pfad auf dem Server C PDWH pentaho olap webshop_schema xml Structure Data f lg BE Datas fxi Functi Paste Strg Enviro D JDBC en D enl Metadata D en Pentaho Data Integration OLAP OLAP Advanced aho Analysis D em XML Denormalized Den Table Pentaho Analysis Denormalized iem Advanced H OLAP4J Legacy E Param
79. di Spaten Y Zeilen Filter de Die Oberflache basiert vollstandig auf HTML und Javascript und ist somit leicht individua lisierbar Des Weiteren lassen sich alle Bereiche ausblenden sodass nur der Ausgabebe reich sichtbar ist 90 6 Visualisierung und Dashboards 6 3 Funktionalitat Die Hauptfunktionen zur Erstellung von Dashboards mittels Saiku lassen sich in die drei Gruppen Datenauswahl Modellierung und Ausgabe beschreiben Die Men leiste bietet zudem zus tzliche Optionen Tabelle 31 Saiku Modellierungsobjekte Option Beschreibung legt ein neue Saiku Dashboard an ffnet ein Saiku Dashboard speichert ein Saiku Dashboard f hrt eine Abfrage manuell aus Schalter f r automatisches Ausf hren der Abfrage aus einblenden des Modellierungsbereichs aus einblenden der Datenauswahl gruppiert Parent Hierarchie Ebene aus einblenden von NULL Werten Spalten und Zeilen vertauschen Abfrage als MDX anzeigen f hrt Drill Through auf markierter Zeile durch wie Drill Through aber mit Ausgabe als csv Datei Export als xlsx Datei Export als csv Datei Export als pdf Datei 91 6 Visualisierung und Dashboards T Wechsel zum MDX Editor erm glicht markierte Felder mit Tags zu versetzen 6 3 1 Datenauswahl Zur Datenauswahl ist es zun chst n tig dass ein OLAP Schema ver ffentlicht ist Das Schema bzw der Cube ist anschlieBend in der Drop Down Liste verf gbar Die Auflis tung erfolgt dabei nach
80. e ui A s 149 s2nos UsdO 1581 pue ypied sa51nosai asnoy u sauinbay e 9p02 9214 o uonip3 Ayunwiwo gt Buuaisn Buuopuow pue snsoubeiq uonensiurupy pezijenue 5uinpaups gor 113 payewojyny uQ ubis ajbuis Kopang 3 dVQ1uiM uoneinbyuo Ay naas suoissiuuag paseq ajoy pue ast syoday pny uoneudx3 3u83u05 payewojny Aroy soday yuayuo gt Losodan Buyeys weay pue Aroy soday ped 19 ago 405 uoddns sisKjeuy 3 Bunioday Big 10 uone1683u doopey 1eubiseg 5 uonezijensiA y uoneaojdx3 sisfjeu peyeonsiudos s1aj e3suj payewoyny sainjea4 pe2ueApy asueor 350 mo pue Buisua2r woddns uonenjea3 oe 3314 uonenje 3 e uebi jeu sseuisng amp 21nos uadQ XXV A5 Pentaho Data Integration Ubersicht Modellierungsobjekte Transformation Input CSV file input ZE Data Grid IB De serialize from file 93 Email messages input M ESRI Shapefile Reader Fixed file input DE Generate random credit card nv S Generate random value F Generate Rows Get data from XML 13 Get File Names E Get Files Rows Count Ek Get repository names Get SubFolder names P Get System Info Get table names G Google Analytics CSV Input HL Input Json Input
81. ekt Funktionen Die Existenz beider Objekte scheint durch Performanceunterschiede begr ndet zu sein 5 Mittels Group By lassen sich die aus SQL bekannten Aggregationen und Gruppierungen auf den Datenstrom anwenden Es Group By fo e Step name Group by Include all rows a 10 tmpdir e Always give back a result row The fields that make up the group Group field Get Fields 1 Aggregates Name Subject Type Value Get lookup fields 1 um Average Mean Minimum Maximum LE Number of Values N IE OK Cancel Abbildung 19 PDI Group By Objekt Sortieren und Filtern Zum Selektieren und Filtern von Zeilen Spalten sind in Pentaho Data Integration vier Mo dellierungsobjekte vorhanden Diese unterscheiden sich in den M glichkeiten die Filter bedingungen und ausgehenden Datenfl sse zu konfigurieren Tabelle 17 PDI Filter Sortierungs Modellierungsobjekte Selektieren Entfernen und Metadatenanderung von Spalten x Select values 5 Siehe http rpbouman blogspot de 2009 1 1 pentaho data integration javascript html 33 3 ETL Prozess Sortieren und Entfernen von Duplikaten nur auf Schl sselfeld Zei len basiert Filtert doppelte Zeileninhalte nach definierten Spalten alle Spalten Trennung der Datenfl sse Zeilenbasierter Filter voll konfigurierbarer Filter Trennung der Datenfl sse nach Filterergebnis true false Filter rows Mittels Select Valu
82. eld Calculation Field A Field B Field C Value type Length Prec 1 profit_final A B profit_2 shippingcosts n ok JI Cancel Abbildung 16 PDI Calculator Objekt 31 3 ETL Prozess Die Auswahl der Formeln beschr nkt sich dabei auf die Grundrechenarten Datumsopera tionen und String Metriken Filter Selectthe calculation type to perform Filter Selectthe calculation type to perform Set field to constant value A Create a copy of field A A B 100 A A B 100 Byte to hex encode of string A Hex to byte decode of string A Char to hex encode of string Hex to char decode of string Checksum of a file A using CRC 32 Checksum of a file A using Adler 32 Checksum of a file A using MD5 Checksum of a file A using SHA 1 Levenshtein Distance source A and target B Metaphone of A phonetics Double metaphone of A phonetics Metaphone of phonetics Double metaphone of A phonetics Absolute value ABS A B Remove time from a date A A B Date A Date B in days A B A B C ASB First letter of each word of a string Ain capital A A UpperCase of a string amp SQRT A LowerCase of a string A 100 A B Mask XML content from string amp Protect CDATA XML content from string amp Remove CR from a string A B C Remove LF from a string A SQRT A A B B Remove CRLF from a string amp ROUND A Remove TAB from a string A ROUND A B Return only digits from string A
83. en Tabelle 30 PRD bersicht Steuerelemente Steuerelement Beschreibung Bezeichnungsfeld berschriften k nnen hinzugef gt werden Textfeld Feldinhalte aus der Datenbank k nnen abgebildet wer m mE RK Re KS KS resource label resource field resource message Imagefield Images k nnen den Berichten hinzugef gt werden Imagefield Kreis Kreise Rechtecke und Linien dienen dazu Bereich oder Ta bellen zu erzeugen oder einzukreisen pe fe 5 Reporting Tabelle Balkendiagramm Band Mit dem Band k nnen einheitliche Hintergr nde definiert werden Es k nnen in Berichten Unter Sub Berichte erstellt werden Erstellung eines Inhaltsverzeichnisses Erstellung eines Indexes ist m glich Ein Export ist als pdf html xls xlsx rtf txt und csv Datei m glich Des Weiteren l sst sich der Report auch direkt ausdrucken Als Datengrundlage besteht eine Auswahl zwischen Advanced Database Sources JDBC Custom Java Script Named Java Method Invocation Hibernate und External Beim Erstellen von Reports wird der Benutzer ber mehrere Auswahlm glichkeiten zum Erstellen von Berichten unterst tzt Der Benutzer w hlt eine m gliche Variante von Look and Feel f gt Einstellungen zur Data Source hinzu und passt das Layout und das Format an 77 5 Reporting SQL Kenntnisse sollten vorhanden sein
84. en Output in CSV Dateien in einen spezifischen Pfad ablegen mit dynamischen Ordner Dateinamen Diese dynamischen Order Dateinamen k nnten mit diesen Objekten aus gelesen und an den Textinput bergeben werden Alle Pfadangaben lassen sich mittels Regular Expression anpassen wodurch auch dynamische Pfade als Regel erfasst werden k nnen Text file input oe Step name Read Customer csv File Content Error Handling Filters Fields Additional output fields File or director 2 D Add Browse Regular Expression Exclude Regular Expression Selected files File Directory Wildcard RegExp Exclude wildcard Required Include subfolders d CAPDWH pentaho Quelidaten customer_update csv N N 2 Delete Eat Accept filenames from previous steps Accept filenames from previous step Show filename s Show file content Show content from first data line OK Preview rows Cancel Abbildung 12 PDI Text File Input Objekt bersicht 27 3 ETL Prozess Der Reiter Content gliedert sich in die Bereiche Dateityp Layout Kompression und For mat Zun chst kann zwischen den Dateitypen CSV und Fixed gew hlt werden also Zeichentrennung oder feste Zeichenanzahl als Trennung Dabei kann das Trennzeichen frei gew hlt werden Anschlie end k nnen Anzahl Header und Footer Kompressionsein stellungen und Formateinstellungen definiert werden Text file input ax Step Text file input
85. en werden 4 3 Funktionalit t Die Pentaho Mondrian Engine f hrt MDX Abfragen auf ROLAP Schematas Relational OLAP aus Ein solches Schema wird durch eine XML Datei definiert die in einer speziel len Struktur aufgebaut ist Es kann als eine Cube artige Struktur aufgefasst werden die auf der Faktentabelle und den Dimensionstabellen im RDBMS basiert Das Schema selbst besteht ausschlie lich aus den in der XML Datei definierten Metadaten Es wird nicht separat als Cube in einer Datenbank abgespeichert sondern lediglich auf dem Pen taho Bl Server bzw in Mondrian ausgef hrt Die Schema Workbench stellt somit Funktionalit t bereit um ein Mondrian Schema erstel len zu k nnen e Schema Editor Modellieren Validieren und Publizieren e Absetzen und Testen von MDX Queries gegen das erstellte Schema e Anzeigen der Tabellen und Felder aus der relationalen Datenbank 4 3 4 Schema Editor Um mit der Schema Workbench arbeiten zu k nnen muss zun chst eine Datenbankver bindung zur relationalen Datenbank aufgebaut werden welche die zugrunde liegenden Tabellen in Form eines Star Schematas enthalten Unter Options Connection k nnen dazu eine Vielzahl von Verbindungstypen ausgew hlt und die Verbindungsdaten einge geben werden 61 4 OLAP Ein neues Schema kann Uber File New Schema angelegt werden Es besteht aus einem Cube in der obersten Hierarchiestufe der Faktentabelle den Dimensionen inkl Hierarchien sowie
86. ennzahl wieder Zur Ermittlung der Bundesstaaten die die oberen 50 Prozent des Profits ausmachen wird ein Custom Limit angelegt Spalten Y delivery year Q Filter x state 2012 Custom Filter for ROWS Tennessee 75 303 South Carolina 19 942 Define Fitter TopPercent Maryland 13 704 Percent 50 South Dakota 12 492 North Carolina 10 981 Sort by Measure Louisiana 10 654 profit I OK Cancel Abbildung 93 Saiku Szenario 3 Limit Ausgabe Somit ist erkennbar dass blo 6 von 28 Bundesstaaten 50 Prozent des Profits erzeugen 102 6 5 4 6 Visualisierung und Dashboards Szenario 4 PeriodsToDate Mittels der PeriodsToDate Funktionen sollen die Profite der Bundesstaaten der jeweils ersten sechs Monate verglichen werden Zun chst wird dies mittels MDX Editor realisiert Dazu wird pro Jahr jeweils ein Calculated Member erstellt Diese benutzen die Periods ToDate Funktion Start der Periode ist die Jahresebene Laufzeit der Periode ist jeweils das 6 Element der konkreten Jahresebene 2010 201 1 2012 1 with 2 member dim delivery date Halbjahri 2018 as aggregate 3 PeriodsToDate 4 dim delivery date delivery year dim delivery date 2510 6 5 2 6 z member dim delivery date Halbjahri 2011 as aggregate 8 PeriodsToDate dim delivery date delivery dim delivery 2511 6 10 11 12 member dim delivery date Halbjahri 2012 as aggregate 13 PeriodsToDate
87. erierung der Lieferpositionen erfolgte mittels Excel Funktionen Es wurden ca 100 000 Lieferpositionen angelegt Eine Lieferung enth lt zwischen einer und 19 Positio nen und Pro Position zwischen ein und 10 Artikeleinheiten Circa 10 aller Positionen sind Retourpositionen Tabelle 7 Quelldatenstruktur Delivery_item Beschreibung Datentyp Wertebe reich Format product_id Produktnummer gt 1000 quantity St ckzahl 1 10 A B C D E 1 delivery id delivery item id product id quantity retour 2 3000 9 1325 4 0 3 3000 8 1114 1 0 4 3000 7 1343 1 0 5 3000 6 1226 8 0 el 3000 5 1448 8 0 7i 3000 4 1158 2 0 8 3000 3 1341 3 0 9 3000 2 1263 2 1 10 3000 1 1326 6 0 11 3001 8 1367 9 0 12 3001 7 1132 4 0 13 3001 6 1169 4 0 14 3001 5 1047 10 0 15 3001 4 1046 6 0 16 3001 3 1431 2 0 17 3001 2 1066 1 1 18 3001 1 1103 2 0 19 3002 9 1400 6 0 Abbildung 6 Quelldatengenerierung Delivery item 12 1 Einleitung Geolocation Zur Zuweisung von Postleitzahlen zu Latitude Longitude wurde von der Website www geonames org eine Textdatei mit allen Postleitzahlen und zugeh rigen Ortsdaten der USA bezogen i US 34050 FPO Erie 029 41 0375 111 6789 2 US 34034 APO Dillon 033 33 0364 82 2493 US 99553 Akutan Alaska AK Aleutians East 013 54 143 165 7854 SEUS 99571 Cold Bay Alaska AK Aleutians East 013 55 3976 162 5 US 399583 False Pass Alaska AK Aleutians East 013 54 841 163 5 05 99612 King Cove Alaska AK Aleutians East 013 55 06
88. es lassen sich Spalten aus einem Datenfluss entfernen ausw hlen sowie Metadaten der Spalten ndern Somit kann der Datenstrom spaltenbasiert gefiltert werden Select Rename values Step name Select amp Alter Remove Meta data Fields Fieldname Rename to Length Prec Get fields to select 1 Edit Mapping 4 n Include unspecified fields OK Cancel Abbildung 20 PDI Select Values Objekt Das Sort Rows Objekt bietet die M glichkeit nach spezifischen Feldern den Datenstrom zu sortieren Zus tzlich zur Sortierung k nnen auch doppelte Zeilen entfernt werden Da bei kann die Belastung der Maschine durch entweder fixe Zeilenanzahl pro Durchlauf oder freizuhaltenden Speicher in Prozent optimiert werden 34 3 ETL Prozess Sort rows kaba Step name Sort rows Sort directory ava io tmpdir Browse TMP file prefix gut Sort size rows in memory 1000000 Free memory threshold in Compress TMP Files Only pass unique rows verifies Fields Fieldname Ascending Case sensitive compare Tm x OK Get Fields Abbildung 21 PDI Sort Rows Objekt Zum Entfernen von Duplikaten kann auch das Objekt Unique Rows verwendet werden jedoch m ssen die Daten bereits sortiert sein Der Vorteil dieses Objekts ist die M glich keit die gefilterten Zeilen in einem zweiten ausgehenden Datenstrom separat
89. eters Pentaho Analysis Legacy Abbildung 57 PRD Verbindungstypen Auf dem Cube Webshop k nnen nun MDX Abfragen ausgef hrt werden 78 5 Reporting Global Scripting aho Analysis Schema File CAPDWHipentahotolapwebshop schema xml Browse Properties onnections Edit Security 40 Available Queries MySQL_webshop_Database_Connection SampleData SampleData Hypersonic SampleData Local SampleData Memory SampleData MySQL Query Name Query Turnover Year Static Query Query Scripting Query SELECT NON EMPTY CrossJoin dim delivery date delivery year Members Measures turnover j ON COLUMNS NON EMPTY Hierarchizei dim_geo state Members ON ROWS FROM webshop C Max Preview Rows _ Abbildung 58 PRD Query Management Das Chart Steuerelement enth lt eine gro e Anzahl an verschiedenen Diagrammtypen Balken Linien Fl chen Kreisdiagrammen uvm Wcmenaonruzaamzstm Primary DataSource Secondary Data Source Value B Required 0 data messaQ CHART USER NO DATA 8 category column e columns amp Series senes Dy value series Dy teld 0 generate seres L Group group by reset oroup Sans Serif BOLD 14 Abbildung 59 PRD Ubersicht Edit Chart 79 5 Reporting 5 4 Dokumentation Eine Beschreibung der grundlegenden M glichkeiten des Report Designers und eine In stallationsanlei
90. etizer Chicken Satay 133 33 149 33 Smithfield Group three 6 1004 Appetizer Crab And Brie 37 14 48 65 Smithfield F Group two 7 1005 Appetizer Mango Chevre 33 90 45 43 Dean Foods Group five Abbildung 4 Quelldatengenerierung Product 10 1 Einleitung Delivery Die Lieferdaten wurden mittels Excel Funktionen generiert Alle ID s wurden als laufende Zahlen erstellt Es gibt ca 10 000 Lieferungen f r das Jahr 2011 und ca 5 000 f r 2012 Die Uhrzeiten wurden mittels der Excel Verteilungsfunktion zuf llig verteilt Das Liefe rungsdatum erfolgt immer zwischen ein und sechs Tage nach dem Bestelldatum zu einer zuf lligen Uhrzeit Tabelle 6 Quelldatenstruktur Delivery Beschreibung Datentyp Wertebe reich Format ship Versandunterneh Integer THHE ping company id mennummer order date Bestelldatum datetime dd mm yyyy hh mm ss delivery date Lieferdatum datetime dd mm yyyy hh mm ss A B 1 delivery id customer shipping company id order date delivery date 2 3000 1000001419 1 01 01 2010 04 20 58 04 01 2010 18 34 54 3 3001 1000001324 4 01 01 2010 16 20 16 05 01 2010 01 25 54 4 3002 1000000222 1 01 01 2010 07 12 14 03 01 2010 18 28 11 5 3003 1000000252 2 01 01 2010 16 49 07 05 01 2010 05 34 58 6 3004 1000001144 3 01 01 2010 12 51 21 02 01 2010 00 12 40 7 3005 1000001884 4 01 01 2010 14 48 23 04 01 2010 12 56 58 Abbildung 5 Quelldatengenerierung Delivery 11 1 Einleitung Delivery_item Die Gen
91. folgendem Schema Schema 1 Cube 1 Cube 2 Schema n Cube m Cubes Quadrant Analysis v Dimensionen LI Department 1 Positions L Region Kennzahlen LJ Measures Actual e Budget Variance Abbildung 75 Saiku Datenauswahl Nach Auswahl des Cubes werden automatisch die Dimensionen und Kennzahlen aufge listet Durch aufklappen der Dimensionen lassen sich die Hierarchien und ihre Ebenen anzeigen 92 6 Visualisierung und Dashboards 6 3 2 Modellierung Aus der Datenauswahl lassen sich anschlie end per Drag amp Drop Elemente des Cubes in den Modellierungsbereich ziehen Eine kontextabh ngige Modellierungsassistenz zeigt dabei Modellierungsfehler auf So k nnen keine Ebenen derselben Hierarchie in Zeilen und Spalten gesetzt werden Des Weiteren werden Dimensionen Blau Kennzahlen Rot hinterlegt ES E gt Je 87 du e A A gt K v quantity shipping company Q Zeiten Filter s Spalten Abbildung 76 Saiku Modellierungsbereich Die modellierte Abfrage wird standardmaBig direkt automatisch ausgef hrt Bei komplexe ren Abfragen ist es zu empfehlen dieses zu deaktivieren Im Hintergrund wird aus der Modellierung automatisch ein MDX Statement generiert alternativ kann dieses auch ma nuell geschrieben werden B gt cal SELECT NON EMPTY CrossJoin Measures quantity dim mixed shippingcompany hierarchy shipping company Members ON COLUMNS 3 NON EMPTY iHiera
92. formation batch ID parent job batch ID Hostname 11 address command line argument 1 command line argument 2 command line argument 3 command line argument 4 command line argument 5 command line argument 6 m elect info type Filter Select the information type to retrieve command line argument 7 command line argument 8 command line argument 9 command line argument 10 Kettle version Kettle build version Kettle build date Current process identifier PID JVM max memory JVM total memory JVM free memory JVM available memory Available processors JVM CPU time milliseconds Total physical memory size bytes Total swap space size bytes Committed virtual size bytes Free physical memory size bytes Free swap space size bytes First day of last week 00 00 00 Last day of last week 23 59 59 Last working day of last week 23 59 59 First day of last week 00 00 00 US Last day of last week 23 59 59 US First day of this week 00 00 00 Last day of this week 23 59 59 Last working day of this week 23 59 59 First day of this week 00 00 00 US Last day of this week 23 59 59 US First day of next week 00 00 00 Last day of next week 23 59 59 Last working day of next week 23 59 59 First day of next week 00 00 00 US Select info type Filter Select the information type to retrieve Abbildung 15 PDI Auflistung Infotypes System Data Objekt First day of next week 00 00 00 Last day of next
93. g zwischen den Jahreswerten turnover_year_delta dargestellt in MySQL webshop ki Tables v views gt turnover year E turnover year delta gt Routines Abbildung 113 angelegte Views der Datenbank Webshop XXI Anhang A3 XML Struktur Mondrian Schema Schema name webshop gt Cube name webshop visible true cachez true enabled true gt lt Table name fact_delivery_item gt lt Table gt lt Dimension type StandardDimension visiblez true for eignKeyz CUSTOMER ID highCardinali ty false name dim_customer gt lt Dimension gt Dimension type TimeDimension visible true foreignKeyz delivery DATE ID highCardinali ty false namez dim delivery date Hierarchy namez default visible true hasAll true prima ryKey DATE_ID gt Table namez dim date alias gt lt Table gt Level name year visible true column YEAR type Integer uniqueMem bers false lev elType TimeYears hideMemberlf Never gt lt Level gt Level namez month visible true column MONTH type Integer unique Members false levelType TimeMonths hideMemberlf Never gt lt Level gt Level name day visible true column DAY type Integer uniqueMem bers false lev elType TimeDays hideMemberlf Never gt lt Level gt lt Hierarchy gt lt Dimension gt lt Dimension type TimeDimension visible true for eignKeyz order DATE ID highCardinali
94. gin 2 Job Set variables f Success Transformation Mail Get mails POP3 IMAP E Mail EA Mail validator 4 File management r4 Add filenames to result R Compare folders T Convert file between DOS and UNIX amp Copy Files Copy or Move result filenames T3 Create a folder D Create file Delete file m Delete filenames from result amp Delete files Delete folders CH File Compare HTTP Move Files W Unzip file Wait for file gi Write to file fi Zip file Conditions 6 Check Db connections T Check files locked Check if a folder is empty Check webservice availability 9 Checks if files exist e Columns exist in a table Evaluate files metrics 225 Evaluate rows number in a table File Exists Simple evaluation lg Table exists T Waitfor E Scripting M JavaScript B Shell 4 501 4 Bulk loading BulkLoad from Mysql into file BulkLoad into MSSQL BulkLoad into Mysql gt MS Arress Rulk 1 nad Big Data amp Amazon EMR Job Executor Amazon Hive Job Executor 4 Hadoop Copy Files 49 Hadoop Job Executor ES Oozie Job Executor Pentaho MapReduce a Pig Script Executor amp Sqoop Export e Sqoop Import Anhang 4 XML Check if XML file is well formed 79 DTD Validator XSD Validator XSL Transformation 4 Utility SE Abort job Ej Display Msgbox Info HL Acknowledge HL MLLP Input P
95. hing Passwort zu setzen password Die Tools sind grunds tzlich alle in englischer Sprache vorliegend Es gibt eine deutsche bersetzung diese ist aber nicht vollstandig und wird daher hier nicht verwendet Es ist m glich weitere Sprachpakete aus dem Community Forum einzubinden 23 3 ETL Prozess 3 ETL Prozess 3 1 Ubersicht Pentaho Data Integration ist das ETL Werkzeug von Pentaho 2006 ging es aus dem Pro jekt Kettle hervor und basiert auf der Eclipse IDE In PDI k nnen Transformationen und Jobs modelliert werden Als Job wird in PDI eine Orchestrierung von Transformationen beschrieben aber auch weitere Jobs k nnen in einem Job gesteuert werden PDI ver wendet ein Repository sowie ein Dateisystem zur Ablage der Projektdaten Das Reposito ry kann lokal oder auf einem Server angelegt werden PDI speichert die ETL Pakete im ktr Format welches auf XML basiert 3 2 Oberfl che und Bedienbarkeit Nach Start des Tools erwarten einen im Startbildschirm Hilfen und Beispiell sungen zum Einstieg in das Tool Auf der linken Seite befinden sich die zwei Reiter View und Design View listet alle im Repository verf gbaren Transformationen und Jobs auf Der Design Reiter enth lt kategorisierte Modellierungsobjekte Die Auswahlm glichkeit der Modellie rungsobjekte ist kontextabh ngig Transformation Job Den Hauptteil der Oberfl che macht der Modellierungsbereich in der Mitte aus In diesem werden per Drag amp Drop Objekte aus dem
96. hnlich zu der dim time Zur Erfassung aller Daten wird die delivery csv zweimal eingelesen Mittels Fieldsplitter werden die Strings delivery date und order date getrennt Dabei wird jedoch nur vordere String weiterverwendet und in dem Feld Date hinterlegt AnschlieBend werden die beiden Datenfl sse mittels Merge Rows diff vereint Der Datestring wird gesplittet und anschlieBend in die Zielform transformiert Read delivery csv Select delivery date split delivery date B EN A Merge Rows diff Date sort Date read delivery csv 2 select order date split order date 223 u gt _ Merge year manth day as Date Datetime Merge yeartmonth day as Date ID remove date split date to day month year sort date month year DBOutput dim date Abbildung 40 Transformation Dim Date 53 3 ETL Prozess Dim_Product Bei der dim_product werden lediglich nicht ben tigte Spalten entfernt und anschlie end die Daten in der Datenbank gespeichert Read product csv Select product_id name producer sort product_id DBOutput dim product Abbildung 41 Transformation Dim Product 54 3 ETL Prozess 3 5 2 Laden der Faktentabelle Der ETL Prozess zur Bef llung der Faktentabelle ist in die drei Bereiche Extraktion der Quelldaten Lookup auf Dimensionen und Berechnung der KPI und Laden in Zieltabelle gegliedert Die Quelldaten werden aus den csv Dateien ausgelesen und mittels inner joins verkn pft read delgery csv
97. hnung und die Prozentwerte wurde eine weitere View angelegt use webshop Select Round tyd 2010 s_2010 Gesamtumsatz_2010 100 2 as inProzent_von_Gesamt_2010 Round tyd 2011 s_2011 Gesamtumsatz_2011 100 2 as inProzent_von_Gesamt_2011 Round tyd 2012 s_2012 Gesamtumsatz_2012 100 2 as inProzent_von_Gesamt_2012 From turnover_year_delta as tyd Select Sum turnover_year_delta 2010 as Gesamtumsatz 2010 from turnover year delta as s 2010 Select Sum turnover_year_delta 2011 as Gesamtumsatz 2011 from turnover year delta as s 2011 Select Sum turnover year delta 29 7 as Gesamtumsatz 2012 from turnover year delta as s 2012 Prozentwerte Abbildung 111 SQL Statement Delta Berechnung und Prozentwerte STATE 2010 Deka 2011 2010 2011 Deka 2012 2011 2012 Gesamtumsatz 2010 Gesamtumsatz 2011 Gesamtumsatz 2012 inProzent von Gesamt 2010 inProzent von Gesamt 2011 inProzent von Gesamt 2012 Califomia 129753 00 38354 00 91399 00 11685 00 103084 00 6730317 00 6916811 00 6844933 00 1 93 1 32 151 Hawaii 23722200 5931 00 24315300 49518 00 193635 00 6730317 00 6916811 00 6844933 00 352 352 283 Idaho 283519 00 19069 00 264450 00 43611 00 308061 00 6730317 00 6916811 00 6844933 00 421 3 82 450 Minois 3479000 834 00 3562400 995200 2567200 6730317 00 6916811 00 6844933 00 0 52 052 0 38 Abbildung 112 Ergebnis Delta Berechnung und Prozentwerte Die gespeicherten Views sind zum einen die Ums tze je State turnover_year und zus tz lich die Berechnun
98. hrieben und anhand einfacher Beispiele und Screenshots verdeutlicht Kenntnisse ber Data Mining setzen zwar eine schnelle und nachvollziehbare Verst ndnis dieser Dokumentation voraus sind aber keine Voraussetzungen um Data Mining Modell zu generieren Das Handbuch ist auf dem Server im Installationspfad von Weka zu finden Installieren und Inbetriebnahme der Weka Scoring Plugin in Pentaho Zus tzlich bietet diese Dokumentation Hilfestellungen zur Installation und Benutzung des Weka Scoring Plugin in Pentaho an Anhand von Screenshots und einfachen Anwen dungsbeispielen wird dargestellt wie das Plugin zu finden und zu installieren ist wie die im Weka erstellte Miningmodelle im Pendaho Data Integration zu implementieren sind und wie Data Mining in Pentaho Enterprise Edition zu realisieren ist Die Dokumentationen sind gut strukturiert erm glichen eine schnelle Einf hrung in Data Mining mit Weka und der Umsetzung in mit Pentaho Die Beispiele sind jedoch nicht sehr komplex wodurch nicht die gesamten Funktionen und F higkeiten von Pentaho und We ka abgedeckt werden 7 4 Umsetzung Szenario Da das Weka Plugin nicht in der Community Edition nutzbar ist wird in diesem Kapitel lediglich in der Theorie beschrieben welche Schritte n tig sind um dies in der Enterprise Edition umsetzen zu k nnen 108 7 Data Mining Einrichtung der Data Mining Komponente in der Enterprise Edition Wenngleich die Data Mining Komponente von der Com
99. i kel werden durch ein Transportunternehmen gegen eine Geb hr an die jeweilige Kunden adresse ausgeliefert Bestelldatum und Lieferdatum werden getrennt gespeichert Das zugrunde liegende Szenario wurde bewusst einfach gew hlt da der Fokus des Pro jekts auf der Erprobung der grundlegenden Funktionalitat der Pentaho Bl Suite liegt S mtliche Bezeichner der Quelldaten sind auf Englisch gew hlt Die Quelldaten sollen mittels frei verf gbaren online Generatoren und unter Hilfe von Ex cel Funktionen erstellt werden Dabei wurden folgende drei Generatoren genutzt e http tedagen com e http www mobilefish com e http migano de tedagen com Test Data Generator tedagen com generiert zum einen spezifische Daten aus den Themengebieten IT amp Tele com Business amp Finance und People amp Localisation zum anderen Daten in diversen String und Number Formaten Zus tzlich bietet tedagen noch weitere Operatoren zur Ma nipulation der Daten an Eine Limitierung der generierten Zeilen ist nicht vorhanden Der Output kann u a in XML und SQL Format stattfinden aber auch in den Sprachen Javascript Perl Ruby JSON PHP Die Zielgruppe dieses Generators ist somit eher im Programmierungsumfeld Siehe http www mobilefish com services random_test_data_generator random_test_data_generator php 1 Einleitung Mobilefish com Mobilefish com generiert Kunden Orts Finanz Firmen und Produktdaten auf
100. iltern und Struktur nderung abgrenzen Feld nderung Eine Feld nderung bedeutet dass der Inhalt eines Felds erstellt oder ver ndert wurde Die Erstellung von Inhalten kann dabei zwischen Generierung und Berechnung unter schieden werden Tabelle 16 PDI Manipulations Modellierungsobjekte Definition von Feldmetadaten und konstanten Feldinhalt Add constants Definition eines Counters Intervallschritte sowie Maximum NEF wert Add sequence Berechnungen mittels fixer Formeln und maximal drei Feldern Calculator freie Definition von Formeln mittels fester Operatoren aber freie Anzahl Felder Formula erm glicht Aggregationen und Gruppierungen Group by 30 3 ETL Prozess Veranderung Zuweisung bestehender Feldinhalt zu neuen Inhalt B Value Mapper es Trimmen entfernen von Tabstops Special Characters und Gro Kleinschreibung vereinheitlichen bei Feldinhaltstyp String operations String Ersetzen einzelner Zeichen bei Feldinhaltstyp String AY ss Replace in string schneidet einen String Angabe von Startposition und Schnitt Strings cut Zur Berechnung von Feldinhalten gibt es wie in Tabelle 16 angegeben die M glichkeiten Calculator Formular und Group by Das Calculator Objekt in PDI bietet nur sehr starre M glichkeiten der Berechnung von Werten Die Berechnung wird auf maximal drei Felder und feste Formeln beschr nkt E Calculator one Stepname Fields New fi
101. in nichts nach Insbesondere die M glichkeit eigenen Java Quellcode einbinden zu k nnen und die vordefinierten Schnittstellen Objekte zu anderen Tools bie tet eine hohe Flexibilit t Insgesamt macht die Anwendung einen ausgereiften Eindruck und es lassen sich in kurzer Zeit brauchbare Ergebnisse erzeugen Lediglich die ber schneidung in der Funktionalit t vieler Transformationsobjekte f llt leicht negativ auf Hier k nnte eine Konsolidierung vonseiten Pentaho Sinn machen Pentaho Mondrian und die Schema Workbench decken das Thema R OLAP sowohl von der Funktionalit t als auch vonseiten der Modellierung umfassend ab Mondrian ist direkt in den Bl Server integriert und muss standardm ig nicht weiter konfiguriert oder adminis triert werden Durch den Wegfall einer weiteren multidimensionalen Datenbank bzw der direkten Nutzung des relationalen Modells wird die Komplexit t reduziert Die Schema Workbench macht einen etwas veralteten Eindruck z B erkennt der integrierte Validator keine degenerierten Dimensionen obwohl diese explizit Bestandteil der Funktionalit t von Mondrian sind Aufgrund fehlender Assistenten oder integrierter Hilfefunktionen gestaltet sich das Modellieren m hsam 112 8 Fazit Ohne ein grundlegendes Verst ndnis der zugrunde liegenden XML Strukturen ist die Er stellung eines funktionierenden Modells nicht m glich Dies erfordert Einarbeitungszeit vonseiten des Nutzers ist aufgrund der vorhandenen Dokumentati
102. iness Intelligence Software welche die Bereiche ETL Reporting OLAP und Data Mining abdeckt Sie wird seit 2004 von der Pentaho Corporation in Orlando Florida USA entwickelt Die gesamte Software ist in Java geschrieben und bietet eine Webanwendung als Frontend f r den Endanwender wodurch eine Plattformunabh ngigkeit gegeben ist Die einzelnen Kompo nenten der Anwendung sind aus verschiedenen Open Source Projekten hervorgegangen Pentaho ist daher sowohl kostenlos und quelloffen unter der Apache Lizenz Version 2 0 als auch als kommerzielle Version mit Support und gr erem Funktionsumfang verf gbar vgl http de wikipedia org wiki Pentaho und http en wikipedia org wiki Pentaho Die folgende Tabelle listet einige der Funktionsunterschiede zwischen den Versionen in Englisch auf Tabelle 1 Funktionsunterschiede Community vs Enterprise Edition De Community Edition Enterprise Edition Sophisticated amp Interactive Data Basic analysis Analysis Exploration amp Visualiza tion Self Service Dashboard Designer Shared Repository and Team Shar Security Configuration with LDAP amp Active Directory 1 Einleitung Centralized Administration No Diagnostics and Performance Monitoring Fur eine vollstandige Auflistung der Unterschiede zwischen den Versionen siehe Anhang A4 Neben dem gr eren Funktionsumfang besitzt die Enterprise Edition eine Installationsrou tine welche die initiale Konfiguration und
103. ing License GNU General Public License 3 0 License Details For more details see http www gnu org licenses gpl 3 0 html Support Level Professionally supported Support Supported by a Pentaho Data Integration Enterprise Edition support contract Support URL http www pentaho com services support Install this plugin Upgrade to 4 x XX MaxMind GeolP Lookup not installed Abbildung 97 PDI Weka Scoring Plugin Eigenschaften 106 7 Data Mining Die Abbildung 97 PDI Weka Scoring Plugin Eigenschaften zeigt deutlich an dass die Ak tivierung des Weka s Plugin f r eine Community Edition von Pentaho nicht m glich ist Selbst beim Versuch dieses Plugin f r eine CE zu installieren wird eine Fehlermeldung angezeigt und der Vorgang ist abzubrechen Error installing uninstalling Not a valid plugin Details Abbildung 98 PDI Weka Fehlermeldung 73 Dokumentation Pentaho bietet im Wiki f r Data Mining und explizit dem Weka Plugin Dokumentationen an Die zur Verf gung gestellten Dokumentationen sind haupts chlich Lernmaterialien und werden in der Pentaho Wiki zusammengefasst LJ Pentaho Data Mining 7 Data Mining Component sz Pentaho Data Mining Community Documentation 3D Visualization Perspective for PDI 4 7 Cassandra Source and Sink in Weka Comparisons Cost Benefit Analysis Data Mining Algorithms and Tools in Weka Groovy Scripting in the KnowledgeFlow 7 Handling Large Data Sets with We
104. ing a host Send information using Syslog D Send SNMP trap cj Talend Job Execution FE Truncate tables Wait for SQL gl Write To Log 4 E Repository Check if connected to repository Export repository to XML file 4 File transfer amp FTP Delete amp Get a file with FTP GF Get a file with FTPS CB Get a file with SFTP ER Put a file with FTP GB Put a file with SFTP amp SSH Get SSH2 Put EI Upload files to FTPS 4 File encryption Q Decrypt files with PGP E Encrypt files with PGP D Verify file signature with PGP XXVII Anhang A6 MDX Queries SO_Ausgangssituation SELECT NON EMPTY Hierarchize dim delivery date delivery year Members ON COLUMNS NON EMPTY Hierarchize dim state Members ON ROWS FROM webshop WHERE Measures profit S1_Filter2013 SELECT NON EMPTY Hierarchize dim delivery date 2010 dim delivery date 2011 dim delivery date 2012 ON COLUMNS NON EMPTY Hierarchize dim_geo state Members ON ROWS FROM webshop WHERE Measures profit S2 ZeilenFilter40000 SELECT NON EMPTY Hierarchize dim_ delivery date 2010 dim delivery date 2011 dim delivery date 2012 ON COLUMNS NON EMPTY Filter Hierarchize dim_geo state Members Measures Profit lt 40000 ON ROWS FROM webshop WHERE Measures profit S3 WhereFilterType SELECT NON EMPTY
105. ka HotSpot Segmentation Profiling KnowledgeFlow plugin for Kettle ETL Data Mining Pentaho Data Mining Screenshots 7 PMML Support in Weka 7 Support for parallelism in ensemble learning 7 Technical Reports and Publications Time Series Analysis and Forecasting with Weka Using the ARFF Output Plugin Using the Knowledge Flow Plugin Using the Reservoir Sampling Plugin Using the Univariate Statistics Plugin 2 Using the Weka Forecasting Plugin the Weka Scoring Plugin Weka Lite Weka Server What s new in Weka 3 5 8 Abbildung 99 Pentaho Wiki Weka Scoring Plugin 25 Siehe http wiki pentaho com display DATAMINING Pentaho Data Mining Community Documentation 107 7 Data Mining Der Angebotskatalog zum Data Mining liefert erforderliche Informationen sowohl f r die Einrichtung und Installation von Weka und vom Weka Scoring Plugin als auch f r das Deployment des Weka Data Mining Modells und die Integration der Algorithmen in Penta ho Einf hrung in Weka Pentaho Data Mining Weka Diese Dokumentation beschreibt alle Schritte von der Installation bis zur korrekten An wendung der Software Weka Dieses Benutzerhandbuch ist als PDF Datei herunterzula den Es enth lt 327 Seiten und als Standardsprache ist Englisch vorgesehen Dabei wird erkl rt wie das Data Mining in Weka funktioniert Algorithmen und Data Mining Modell und Strukturen werden besc
106. kbench enthalten Eine aktuelle und umfassende Dokumentation ist auf der Mondrian Projektseite von Pen taho verf gbar Diese enth lt sowohl grundlegende Erl uterungen zu den Konzepten von OLAP und der Architektur von Pentaho Mondrian als auch weiterf hrende Informa tionen Dazu geh rt u a e Erl uterung zum Erstellen eines Schemas vorhandene Objekte Struktur der Mondrian Schemata im XML Format e Konfiguration des Mondrian Servers mittels Konfigurationsdateien Beschreibung der API e Optimierung Aggregation Cache Control Insgesamt erscheint die Dokumentation gut strukturiert umfassend und vollst ndig ist jedoch nur online verf gbar Das frei zug ngliche Hilfsangebot der Pentaho Enterprise Edition enth lt ebenfalls eine Anleitung zur multidimensionalen Analyse die ein Praxisbeispiel inkl der Modellierung eines Mondrian Schemas mit der Schema Workbench umfasst Als eine weitere Informationsquelle dient die Community die ein eigenes von Pentaho betriebenes Mondrian Forum hat vgl http mondrian pentaho com und http mondrian pentaho com documentation 12ygl http infocenter pentaho com help index jsp topic 2Fanalysis_guide 2Ftopic_building_rolap_cube html 13 vgl http forums pentaho com forumdisplay php 79 Mondrian Pentaho Analysis Services 65 4 OLAP 4 5 Umsetzung Szenario Zur Umsetzung des Szenarios wurde ein Mondrian Schema erstellt welches auf dem relationalen Star Schema basiert
107. l product related issues when designing developing deploying and delivering solutions using Pentaho Data Integration Learn More m W Documents ie C Blogs o entah ho Abbildung 11 PDI Oberfl che D PDI l sst sich einfach und intuitiv mittels Drag amp Drop und den kategorisierten Modellie rungsobjekten bedienen Neben den Standartobjekten der Modellierung bietet PDI viele vordefinierte Schnittstellen Plugins f r externe Dienste Werkzeuge Zus tzlich lassen sich auch mittels Marketplace oder Eigenprogrammierung weitere Objekte einbinden 3 3 Funktionalitat Wie eingangs bereits beschrieben werden mit PDI Transformationen modelliert und aus gef hrt sowie diese mittels Jobs orchestriert In diesem Kapitel werden die wichtigsten Objekte zur Modellierung von Transformationen beschrieben Diese wurden in die folgen den Kategorien unterteilt e Input e Manipulation e Flusssteuerung e Datenpr fung und Fehlerbehandlung e Datenbanken 25 3 ETL Prozess Eine bersicht ber alle verf gbaren Objekte befindet sich im Anhang A5 Abschlie end folgt eine Beschreibung der Job Funktionen 3 3 1 Input Ein Textinput mag in seiner Art zwar eine einfache Inputform sein das Auslesen kann aber aufgrund seiner vielf ltigen Konfigurationsm glichkeiten aufwendiger sein Pentaho Data Integration bietet dazu einige Unterst tzung Neben Textinputs erm glicht PDI auch das Auslesen von E
108. lassi fikations und Assoziationsanalysen sowie f r die Erstellung von Entscheidungsb umen Anhand eines Plugins k nnen in Pentaho alle in Weka integrierten Methoden und Funk tionen des Data Minings verwendet werden Der Zugriff auf Weka ber Pentaho ist anhand des Weka Scoring Plugins m glich Das Plugin ist bereits in Pentaho integriert und wird bei Bedarf durch die Option Marketplace in dem Men punkt Help der Software installiert bzw eingerichtet File Edit View Action Tools a e amp t ia Tip of the day ver 2 Design Welcome Screen Explorer Step Information a dim customer About gt Database connection Marketplace gt Steps Abbildung 96 PDI Marketplace Das Installieren des Weka Scoring Plugins wird in der Community Edition von Pentaho leider nicht unterst tzt daher ist das Data Mining in der Community Edition nicht m glich jedoch sind in der Enterprise Edition von Pentaho alle Funktionen des Data Minings ver f gbar Plugins werden im Men Help auf den Punkt Marketplace aufgelistet Detected plugins 3X Weka Scoring not installed ID weka scoring Name Weka Scoring Description This step allows you to push data into a Weka model and get scoring out in a transformation Package URL https pentaho box com shared static Ircyaet2tceprebejldg zip Case Tracking http jira pentaho com browse DATAMINING Source Code http source pentaho org svnkettleroot plugins WekaScor
109. ldung 46 Architektur Pentaho Mondrian 8 Quelle http mondrian pentaho com documentation architecture php 58 4 OLAP Das Pentaho Mondrian OLAP System besteht aus vier Schichten sog Layers e Presentation Layer Bestimmt was der Endnutzer auf seinem Monitor sieht Die Darstellung ist von dem verwendeten Client Tool abh ngig Der Client Zugriff erfolgt mittels einer propriet ren auf Java basierenden API ber die MDX Querys abgesetzt werden k nnen Der Server antwortet mit einem ResultSet e Dimensional Layer Diese Schicht parst validiert und f hrt MDX Queries aus Weiterhin werden dort die Metadaten des multidimensionalen OLAP Schemas verarbeitet auf welches im weiteren Verlauf naher eingegangen wird e Star Layer Stellt Caching Funktionalit t bereit Sollten Anfragen aus dem Dimensional Layer nicht aus dem Cache beantwortet werden k nnen wird eine neue Anfrage an den Storage Layer abgesendet e Storage Layer Wird durch ein relationales Datenbankmanagementsystem RDBMS repr sentiert Die MDX Queries werden zun chst in SQL umgewandelt und dann an ein beliebiges RDBMS mittels JDBC abgesetzt Pentaho Mondrian besitzt somit kein eigenes Storage System und kann damit als ROLAP Server ge sehen werden Schema Workbench Die Konfiguration und das Modellieren des den Abfragen zugrunde liegenden OLAP Schemas wird primar ber die sog Schema Workbench durchgef hrt Die Schema Work bench ebenfalls in Version
110. lue Expected start string Expected end string Not allowed start string Not allowed end string Regular expression expected to match Regular expression not allowed to match El eo ooo oooO o Allowed values Remove Read allowed values from another step New validation Cancel Abbildung 26 PDI Data Validator Objekt 40 3 ETL Prozess Zur Nutzung von Regular Expression stellt Pentaho zus tzlich das Regex Evaluation Ob jekt zur Verf gung Dieses erm glicht Regular Expressions aufzustellen und an definier ten Werten zu testen Der Datenfluss wird in korrekte und fehlerhafte Daten getrennt F r jeden Fehler und Datensatz wird eine Zeile im Fluss angelegt Zus tzlich k nnen die oben angelegten Spalten der Fehlereigenschaften mit eingef gt werden Neben der Fehlerbehandlung im Datenfluss bietet Pentaho Data Integration auch ein Logging auf Transaktionsebene PDI unterst tzt bei der Entwicklung von Transformatio nen mittels drei verschiedenen Loggings Das Zeilenbasierte Logging kann in verschiede nen Detailstufen konfiguriert werden von Error only ber Debugging bis Rowlevel feins ter Grad Execution Results 3 Execution History A Logging 8 Step Metrics 7 Performance Graph oy x 2013 09 09 13 38 45 Spoon Logging goes to filei C Users pentaho AppData Local Temp spoon 62ced7Tdf 1944 11e3 8439 5ba395518d9a log 2013 09 09 13 38 50 class org pen
111. mat YYYY MM DD HH MM SS 16 1 Einleitung Dimensionstabelle Zeit dim_time Zweiter Teil der Zeitbetrachtung auf Ebene der Uhrzeit Wird sowohl f r den Zeitpunkt der Bestellung als auch f r den Zeitpunkt der Lieferung in der Faktentabelle referenziert Tabelle 12 Felder und Beschreibung dim_time Feldname Beschreibung hour Stunde HH day Minute MM Dimensionstabelle Mixed dim_mixed Sammeldimension die sowohl das Versandunternehmen als auch die Artikelgruppe refe renziert Tabelle 13 Felder und Beschreibung dim_mixed Feldname Beschreibung shipping_company Name des Transportunternehmens product_group Name der Produktgruppe 17 1 Einleitung Dimensionstabelle Geodaten dim_geo Dient der Speicherung von Geoinformationen in Bezug auf den Wohnort des Kunden d h des Lieferortes Tabelle 14 Felder und Beschreibung dim_geo Das Starschema wird in der MySQL Datenbank deployed um als Zielstruktur f r die Daten aus dem ETL Prozess zu dienen Weiterhin stellt es die Grundlage f r die multidi mensionalen Auswertungen mittels der OLAP Engine dar SQL Script siehe Anhang A1 18 2 Bl Server 2 Bl Server 2 1 Ubersicht Der Bi Server stellt die serverseitigen Tools zur Prasentation und Administration dar Dies geschieht Uber die Portale User Console Prasentation und Admin Console Administra tion Die User Console stellt die Zugriffebene f r den Endanwender dar Dort hat er Zu griff
112. munity Edition nicht unterst tzt wird sind zwei Hauptregeln f r eine reibungslose Benutzung der Data Mining Komponen te in der professionellen Edition zu beachten e Die Software Weka muss mindestens ab der Version 3 5 7 auf dem Rechner in stalliert sein e Das Weka scoring Plugin der ETL Software Pentaho Data Integration muss vorab eingerichtet sein Auf der Homepage von Pentaho kann das Weka Scoring Plugin ab der Version 3 6 he runtergeladen werden Nach dem Entpacken der Zip Datei sind alle Komponenten des WekaScoringDeploy in dem Ordner in dem PDI installiert wurde zu installieren SchlieB lich wird die weka jar Datei vom Weka 3 7 5 zum gleichen Ordner hinzugef gt In Weka muss zun chst ein Data Mining Modell Clustermodell Assoziationsmodell Klassifikationsmodell Entscheidungsbaum Modell usw erstellt werden Dieses Modell wird im n chsten Schritt in Pentaho exportiert dort wird es als Vorlage f r die Erstellung eines weiteren Mining Modells verwendet Die Data Mining Algorithmen Weka s k nnen in Pentaho nicht direkt verwendet werden Erst nach ihrer Erstellung in Weka kann das Modell exportiert werden Bedingung daf r ist eine erfolgreiche Installation des Weka scoring Plugins was In der Community Edition nicht m glich ist Nach dem Export des Modells k nnen nun in der Pentaho Software weitere Mining Mo delle erstellt werden Dabei wird nur die Quelldatei csv excell usw aktualisiert bzw ge ndert und d
113. n bersicht Modellierungsobjekte XXVI ADMDX OQUGFIBS nenne XXVIII Abbildungsverzeichnis Abbildungsverzeichnis Abbildung 1 ER Modell Webebonp ask 7 Abbildung 2 Quelldatengenerierung Customer eenean 8 Abbildung Quelldatengenerierung Shipping 9 Abbildung 4 Quelldatengenerierung Product 10 Abbildung 5 Quelldatengenerierung Delivery 11 Abbildung 6 Quelldatengenerierung Delivery item 12 Abbildung 7 Quelldaten Geolocation EE 13 Abbildung 8 Physisches Datenmodell Star Schema 14 Abbildung 9 Admin Console Obertl che 19 Abbildung 10 User Console Oberfl che Aen 20 Abbildung 11 PDI Ee 25 Abbildung 12 PDI Text File Input Objekt bersicht 27 Abbildung 13 PDI Text File Input Reiter Content 28 Abbildung 14 PDI Get System Data Obiekt 29 Abbildung 15 PDI Auflistung Infotypes System Data Objekt 29 Abbildung 16 PDI Calculator Objekt AEN 31 Abbildung 17 PDI Calculator Objekt Funktionen 32 Abbildung 18 PDI Formular Objekt Funktionen 33 Abbildung 19 PDI Group By Obiekt 33 Abbildung 20 PDI Select Values Objekt AEN 34 Abbildung 21 PDI Sort Rows Obiek
114. n nur Funktionen des Modellers benutzt Spalten delivery year Q gt Filter z profit state 2040 204 2012 2013 California 5307 3569 4469 50 7 Hawaii 10 027 10058 7760 192 N Idaho 11405 10883 12885 EN Illinois 1539 1424 1201 DN Indiana 8 979 13244 11 589 N lowa 2802 358 3 846 TN Kansas 2656 2597 2038 UN Louisiana 10 557 14 246 10 654 N Maryland 14728 13232 13704 TN Massachusetts 1532 2021 2382 TN Minnesota 7728 8556 9188 TN Abbildung 84 Saiku Szenario Ausgangsituation Siehe http blog analytical labs com 23 Siehe http ask analytical labs com 97 6 Visualisierung und Dashboards 6 5 1 Szenario 1 Filter Zun chst erkennt man das f r das Jahr 2013 nur sehr wenige Werte vorhanden sind und dadurch die Interpretation der Trends mittels Sparkline erschwert wird Ziel ist es durch die verschiedenen Filterarten die Interpretation der Trends zu erleichtern Um die Profit trends besser interpretieren zu k nnen wird zun chst die Hierarchieebene delivery_year auf die Elemente 2010 2011 und 2012 beschr nkt Somit fallen die gr tenteils leeren Werte aus 2013 weg Auswahl f r delivery_year Suchen Verf gbare Elemente Ausgew hlte Elemente 2013 Abbildung 85 Saiku Szenario 1 Elemenifilter Spaten VY delivery year Q Filter md profit state 2000 201 2012 California 5307 3 569 4469 Hawaii 10 027 10 058 7760 Idaho 11406 10 883 12885 Illinois 1539 1424 1201 N Indiana 8979 13 244
115. n Fact Delivery item Lookups 56 Abbildung 44 Transformation Fact Delivery item Lookup Dim Time 56 Abbildung 45 Transformation Fact Delivery item Kennzahlen und Speichern 57 Abbildung 46 Architektur Pentaho Mondrian 58 Abbildung 47 bersicht Schema Workbench 60 Abbildung 48 PSW bersicht Schema Editor 62 Abbildung 49 PSW Beispiel MDX Query sse 63 Abbildung 50 PSW JDBC Explorer za 64 Abbildung 51 PSW Repository Login oi cor oriri ARE EAR 72 Abbildung 52 PRD Startbildschirm 73 Abbildung 53 PRD bersicht Arbeitsbereich ccccccesescssesssesesessssecesesesssees 74 Abbildung 54 PRD Structure Data Reiter 74 Abbildung 55 PRD Modellierungsbereich nn 75 Abbildung 56 PRD Connectionmanager essen 78 Abbildung 57 PRD Verbindungstypen AAA 78 Abbildung 58 PRD Query Management 79 Abbildung 59 PRD bersicht Edit Chat 79 Abbildung 60 PRD Szenario 1 81 Abbildung 61 PRD Szenario 1 81 Abbildung 62 PRD Szenario 1 Ausgabe umtomatert 82 Abbildung 63 PRD Szenario 1 Ausgabe 82 Abbildung 64 PRD Ausgabe Szenario 2 Diagramme 83 Abbildung 65 PRD Query Szenario 3 83 Abbildung 66 PRD Query Szenario
116. nem direkten Eingriff in den Fluss m glich Tabelle 18 PDI Flusssteuerungs Modellierungsobjekte Vereinen vieler Fl sse in definierter Reihenfolge Prioritize streams Vereinen vieler Fl sse Reihenfolge durch Sortierungsfeld Sorted Merge definiert Vereinen vieler Fl sse l scht Duplikate beh lt nur die neuere Zeile legt Flag Field an mit Zustand der Zeile de leted new identical changed Vereinen von zwei Fl ssen mittels Inner Leftouter Rightouter Fullouterjoin Vereinen von zwei Fl ssen mit Crossjoin Join Rows cartesian product Trennen eines Flusses in n F lle Switch Case 37 3 ETL Prozess Zum Vereinen vieler Datenfl sse ohne Sortierung k nnen alle Ausgangsfl sse in ein beliebiges Objekt gef hrt werden Ein spezifisches Modellierungsobjekt ist nicht n tig Neben den Trennen und Vereinen von Datenfl ssen aus fachlichen Gr nden lassen sich auch Fl sse zur Lastenteilung Trennen In dem Kontextmen l sst sich mit den Funktio nen Data movement und change number of copies to start diese konfigurieren Change number of copies to start erm glicht das Parallelisieren von Schritten Dabei wird je Faktor eine weitere CPU mit der Verarbeitung belastet Auf eine Datenbankaktion angewandt kann dies aber auch eine Performancesteigerung durch paralleler offener Verbindungen hervorbringen New hop Open mapping sub transformation Edit step Edit step description Da
117. obs ge steuert werden Es besteht die M glichkeit einen Zeitplan f r einen Job einzustellen und diesen in definierbaren Perioden laufen zu lassen In einem Job lassen sich diverse Ak tionen zur Flusssteuerung und Automatisierung einbinden Die folgende Tabelle stellt da f r kurz die wichtigsten Modellierungsobjekte vor Tabelle 20 PDI Job Modellierungsobjekte Modellierungsobjekt Beschreibung gt Startobjekt des Jobs beinhaltet Konfiguration des Zeitplans START Endobjekt des Jobs Success Aufruf einer Transformation Konfiguration der Lastverteilung ber Cluster bergabe von Argumenten und Parameter in Transformation Transformation m glich ES Aufruf einer Jobs Konfiguration der Lastverteilung Uber Clus Job ter Ubergabe von Argumenten und Parameter in Transforma tion m glich Festlegen von Variablen G ltigkeit dieser auf die Level Set variables Let Ausf hren einer sql Datei oder Definition einer Query SQL ig Ausf hren von Javascript JVM current Job parent Job root Job einstellbar JavaScript Pr ft Status von Datenbankverbindungen Check Db connections c Pr ft Inhalt eines Ordners Regex Wildcards nutzbar Check if a folder is empty 48 Check webservice availability Delete files Get a file with FTP Put a file with FTP Encrypt files with PGP Verify file signature with PGP Decrypt files with PGP Abort job Write To Log 3 ETL Prozess Pr ft Status eines
118. on jedoch m glich Der Report Designer bietet statisches Reporting sowohl auf MDX als auch auf SQL Datenquellen Die Abfragen k nnen manuell innerhalb des Report Designers verfasst werden Zus tzlich ist es m glich SQL Abfragen durch einen Abfrageassistenten unter st tzt zu generieren Das Reportlayout kann mittels Drag amp Drop relativ einfach erzeugt werden wof r verschiedene Templates bereitgestellt werden Es lassen sich somit pixel genaue Reports erstellen die in verschiedenen Standardformaten PDF Excel RTF CSV exportiert werden k nnen Das Datenmaterial kann durch Diagramme visualisiert werden und durch entsprechende Verwendung der vorhandenen Steuerelemente aufbe reitet werden Reports k nnen nach kurzer Einarbeitungszeit schnell und einfach erstellt werden Saiku Analytics als Add On aus dem Pentaho Marketplace erm glicht multidimensionale Auswertungen im Browser Diese k nnen Tabellarisch oder mittels Diagrammen darge stellt werden Es bietet jedoch keine echte Dashboard Funktionalit t da z B die interak tive Navigation auf den erstellten Auswertungen Diagrammen nicht m glich ist Weiterhin kann immer nur eine Abfrage als Basis verwendet werden W hrend der MDX Editor komplexe Abfragen unterst tzt k nnen Abfragen auch mittels Drag amp Drop relativ einfach erstellt werden Dabei treten jedoch Beschr nkungen auf keine calculated members sodass komplexere Abfragen teilweise manuell modifiziert werden m ssen
119. pen und Versandunternehmen vorliegen sollen beide In formationen in einer Sammeldimension abgelegt werden Zun chst werden die Produkt gruppen aus der Product csv extrahiert und Dopplungen entfernt AnschlieBend werden Gruppenbezeichnern Werte zugeordnet Zahl 1 bis 5 Diese f nf Werte werden mit den f nf Versandunternehmen mittels kartesischen Produkts zu 25 Eintr gen AbschlieBend wird mittels Get Value from Sequence eine ID hochgez hlt Diese dient als Eintrag f r den Prim rschl ssel Read product csy Sort product group Unique rows Value Mapper Remove not used fields Read shipping company csy Remove fixed rate crosbjoin p id company id sort product gro DBOutput dim mixed Mixed_id counter Abbildung 38 Transformation Dim Mixed 52 3 ETL Prozess Dim_Time Die Dim_time soll sich aus bestehenden Daten aus der delivery csv ableiten Dazu wird das order_date ausgelesen und mittels Fieldsplitter Objekt in die Bestandteile Date und time gesplittet Anschlie end wird Time in hour minute second gesplittet und nach hour minute sortiert Zur Bildung der ID werden die Strings Hour und Minute mittels Calcu lator Object vereint Read delivery csv Select order date order date to date time split order time to hour minute second sort ho r minute DBOutput dim_time Sort Time_id Unique rows time id merge hour minute to Time id Abbildung 39 Transformation Dim Time Dim Date Die Dim date verh lt sich
120. portieren Im Diagrammmodus lassen sich diese zus tzlich in den Bildformaten png svg exportieren Des Weiteren lassen sich die Dashboards in den vorhande nen Ordnerstrukturen ablegen 96 6 Visualisierung und Dashboards 6 4 Dokumentation Das Saiku Plugin hat keine Hilfe im Tool Die Dokumentation liegt nur in englischer Spra che auf http docs analytical labs com vor Auf dem Entwickler Blog werden zudem Patchnotes und eine Roadmap f r k nftige Versionen pr sentiert Das Forum wird in einer Art Answerboard wie Yahoo s Ask com gef hrt Die Fragen werden mit Tags gelistet dargestellt und Antworten werden Bewertet und sortiert angef hrt Somit ist dies eher un strukturiert und un bersichtlich Derzeit ist zudem die Mehrheit der aufgef hrten Fragen unbeantwortet Die bisherigen Antworten sind nahezu vollst ndig unbewertet Somit ist kein wirklicher Nutzen des Forums erkennbar 6 5 Umsetzung Szenario Anhand von vier Szenarios sollen die Grundfunktionen ausgetestet werden Zun chst werden Filter Sortierungs und Limitierungsfunktionen getestet anschlie end erfolgt die Nachbildung der PeriodsToDate Funktion ber den Modeller sowie ber den MDX Editor In allen Szenarien soll das Verhalten des Profits aller Bundesstaaten untersucht werden Als Ausgangssituation werden alle Bundesstaaten und ihr Profit aller Jahre aufgelistet und das Verhalten mit einer Sparkline visualisiert Es werden falls nicht anders beschriebe
121. r DHL Hermes Schenker UPS female 78 476 85 602 76 636 78500 80 109 male 84 830 88 969 90 321 86 663 85776 Abbildung 82 Saiku Ausgabe nach Syntax von http technet microsoft com de de library ms 146037 aspx 95 6 Visualisierung und Dashboards Neben dem Abfrageergebnis werden zus tzlich Informationen zur Durchf hrung ausge geben Uhrzeit Spalten und Zeilenanzahl Durchf hrungsdauer Der Diagrammmodus bietet verschiedene Diagramme zur Visualisierung der Abfrage Die m glichen Diagramme sind fest vorgegeben und lassen sich nicht erweitern Die Konfigu rierbarkeit der Ausgabe ist stark beschr nkt Es ist m glich Elemente der Spaltendimen sion in der Legende mit zu entfernen oder alle Zeilen eines Spaltenelements hervorzuhe ben Mittels Mouse over lassen sich Spalten Zeilenelement und Value des grafischen Elements anzeigen B W a ei a Ro Ale E D BIS Modus Spalten Y Il shipping company Export ow Filter x ihh Info 12 46 6 Bl profi DHL profiHermes MW profi Schenker W profiUTNT MM profitvUPS IN 96 000 7 F KE 90 000 4 85 000 4 80 000 4 75 000 4 70 000 4 op 65 000 4 80 000 4 55 000 4 50 000 4 46 000 4 40 000 5 36 000 4 30 000 4 25 000 4 20 000 4 15 000 4 10 000 4 5 000 4 Abbildung 83 Saiku Diagrammausgabe Wie schon in der Men leiste beschrieben lassen sich Saiku Dashboards als csv xlsx und pdf ex
122. rchize dim customer gender hierarchy gender Members ON ROWS 4 FROM webshop WNE Abbildung 77 Saiku MDX Editor Die im Modellierungsbereich abgelegten Symbole haben neben dem Bezeichner noch weitere Funktionen Mit Klick auf die Lupe lassen sich einzelne Elemente der Ebene aus w hlen und mittels der Pfeile l sst sich die Ebene sortieren Abbildung 78 Saiku Hierarchieelement Neben diesem Weg bietet Saiku weitere Wege zum Filtern und Sortieren der Abfrage Zun chst lassen sich alle verwendeten Hierarchieebenen ber das Lupen Symbol auf einzelne Elemente beschr nken 93 Spaten Y profit shipping company Q Auswahl f r shipping company Suchen Verf gbare Elemente dim_mixed shippingCompany_hierarchy DHL dim_mixed shippingCompany_hierarchy Hermes dim_mixed shippingCompany_hierarchy Schenker dim_mixed shippingCompany_hierarchy TNT o dim mixed shippinaCompany hierarchy UPS fe m v Vollst ndige Hamen anzeigen V Letztes Resultat Abbildung 79 Saiku Elementfilter Ausgew hlte Elemente 6 Visualisierung und Dashboards OK Cancel Des Weiteren ist es m glich eine Hierarchieebene als Filter zu verwenden und diese auf einzelne Elemente zu beschr nken Zus tzlich k nnen f r die drei Modellierungsbereiche Spalte Zeile Filter jeweils noch bergreifende Filter Limits und Sortierungen definiert wer den Bei allen drei Einstellungen lassen sich mittels MDX eigene Manipulationen e
123. rden etwa Pfad Gr e und letzte nderung Get System Data Oft ist es n tig zur Nachvollziehbarkeit von nderungen oder Bearbeitungen Systemin formationen einer Zeile hinzuzuf gen Das Get System Data Objekt erm glicht es eini ge vordefinierte Informationen auszulesen und als Feld zu speichern p Get System Data Step Get System Info D Name Type Preview rows Cancel Abbildung 14 PDI Get System Data Objekt Die vordefinierten Informationen k nnen kategorisiert werden in Systeminformationen Hardware Systemzeit allgemeine Zeit Datumsfunktionen Transformation und Jobin formationen sowie Informationen zur Java Virtual Machine Select info type Filter Select the information type to retrieve system date variable system date fixed start date range Transformation end date range Transformation start date range Job end date range Job Yesterday 00 00 00 Yesterday 23 59 59 Today 00 00 00 Today 23 59 59 Tomorrow 00 00 00 Tomorrow 23 59 59 First day of last month 00 00 00 Last day of last month 23 59 59 First day of this month 00 00 00 Last day of this month 23 59 59 First day of next month 00 00 00 Last day of next month 23 59 59 copy of step transformation name transformation file name User that modified the transformation last Date when the transformation was modified last trans
124. rem Tutorials enthalten sind Der Report Designer von Pentaho ist schnell und intuitiv zu be dienen Das Standard Vorgehen zur Erstellung eines Reports ist folgendes Als erstes ist eine Connection zu der Datenbank anzulegen Auf die Datenbank wird dann eine Query erstellt Die Query ist wiederum Grundlage des Berichts Es ist m glich auf einem be stimmten Repository zu arbeiten Das Dateiformat f r die Reports ist prpt und basiert auf XML 5 2 Oberfl che und Bedienbarkeit Nach Aufruf der report_designer bat offeriert der Welcome Screen zun chst eine Aus wahl an Beispielreports sowie die M glichkeit einen neuen Report zu erstellen oder den Report Wizard in Anspruch zu nehmen r Welcome gt C Advanced gt CI Charts e CI Financial Reports gt CZ Legacy C3 Operational Repoits gt Ci Production Reports Evaluation Blank D Whats New pentaho POWERFUL ANALYTICS MADE EASY d d LM gt KS x Resources Forums y Show at startup Abbildung 52 PRD Startbildschirm 16 Server Dateipfad C PDWH pentaho prd ce 3 9 1 report designer 73 5 Reporting Der Report Wizard unterst tzt den Anwender bei der Erstellung von Berichten durch vor gefertigte Templates Die zur Verf gung gestellten Beispielreports sind umfassend und schnell und einfach zu erstellen Die Oberfl che des Reportdesigners ist strukturiert aufgebaut In der Mitte befindet sich
125. rofit sortiert um schnell erfassen zu k nnen welcher Bundesstaat die h chs ten Profite hat Ascending Descending Ascending Breaking Hierarchy Spalten Y delivery year Q Filter Limit Sort Tut state 2010 2011 Tennessee 72126 70 243 South Carolina 18 986 Maryland 14 728 South Dakota 13 729 North Carolina 12 149 Louisiana 10 557 Texas 10 420 21 927 13 232 13 258 12 792 14 246 11 738 Descending Breaking Hierarchy gt Custom Clear Sort Trovu 12 492 N 10984 A 10 654 A E 13 049 Abbildung 91 Saiku Szenario 2 Sort quantity profit returned shipping_cost turnover In der Visualisierung wird deutlich dass die Bundesstaaten Tennessee South Carolina Maryland und South Dakota die h chsten Profite haben Y delvery_year amp sitea 2010 204 2012 Abbildung 92 Szenario 2 Ausgabe Durch den Weg der Datenerzeugung und Berechnung der Kennzahlen sind keine Ande rungen bei Sortierungen nach anderen Kennzahlen zu erwarten 101 6 Visualisierung und Dashboards 6 5 3 Szenario 3 Limit F r die Limit Funktionen Top Bottom soll sich zun chst auf das Jahr 2012 beschr nkt werden Die vorgegebenen Top Bottom 10 Funktionen entsprechen den MDX Funktionen Top BottomCount und geben somit die ersten letzten 10 Werte wieder Top Bottom 10 by ergeben die besten schlechtesten 10 Werte nach beliebiger K
126. rstellen Limit bietet entweder vordefinierte Top Bottom Filter oder selbstdefinierte Top BottomCount Percent Sum Funktionen Die Sort Funktionen erm glichen es die Spal ten Zeilen nach den vorhandenen Kennzahlen zu sortieren auch nach denen die nicht in der Ausgabe sind Filter Limit Sort Filter Limit Sort Filter Limit Sort Custom Clear Filter Top 10 Bottom 10 Top 10 by Bottom 10 by Custom Limit Clear Limit Ascending Descending Ascending Breaking Hierarchy Descending Breaking Hierarchy gt Custom Clear Sort Abbildung 80 Saiku Filter Limit Sort Optionen 94 6 Visualisierung und Dashboards Die eigene Definition eines Filters ist ohne MDX Kenntnisse nicht m glich Beim selbstde finierten Filter wird der Achseninhalt in das Set_Expression Argument gelegt und die er stellte Expression im Filterdialog entspricht der Logical Expression Custom Filter for COLUMNS Fitter MDX Expression OK Cancel Abbildung 81 Saiku Custom Filter Widerspricht eine neue Filterung einer alten Filterung so wird die alte verworfen und die neue beibehalten Eine aktive Funktion wird durch eine Veranderung der Schrift von Nor mal auf Fett dargestellt 6 3 3 Ausgabe Das Ergebnis der Abfrage wird direkt als Tabelle ausgegeben oder durch Wechsel des Modus in ein Diagramm umgewandelt B gt d D a m o L k gt Bg Modus dh laid Filter d profit gende
127. ruktur der HTW durchgef hrt um eine leichte Adaption an die Lehrumgebung zu erm glichen Zu diesem Zweck wurde von Prof Cla Ben eine virtuelle Maschine mit Windows 7 inkl MS SQL Server 2008 bereitgestellt Ver bindungs und Zugangsdaten siehe Anhang AO Installation Konfiguration und Betrieb von Pentaho werden auf dieser VM durchgef hrt Um eine parallele Bearbeitung zu er m glichen werden jedoch auch lokale Installationen genutzt Als Referenzinstallation dient die bereitgestellte virtuelle Maschine die nach Durchf hrung des Projekts den fina len Stand enth lt Um den Open Source Charakter des Projekts zu erhalten wird als rela tionales Datenbankmanagementsystem MySQL in Version 5 6 11 eingesetzt 1 Einleitung Vor der Installation und Erprobung von Pentaho ist weiterhin das Aufstellen eines Evalua tionsszenarios sowie die Generierung von passenden Testdaten notwendig Auf dieser Grundlage k nnen Kennzahlen definiert und ein Star Schema modelliert werden Im weiteren Verlauf des Projekts werden die Extraktion Transformation und das Laden der Quelldaten durchgef hrt um die Daten f r das Star Schema vorzubereiten und dieses zu bef llen Dabei werden auch Besonderheiten wie Fehlerbehandlung und Slowly Chan ging Dimensions ber cksichtigt Die physische Implementierung des Star Schemas erfolgt in der MySQL Datenbank Da rauf aufbauend wird ein OLAP Schema bzw Cube generiert um mittels einer OLAP Engine multidimensionale An
128. solutions system publisher_config xml lt publisher password gt password lt publisher password gt Pfade der Arbeitsumgebung MySQL Server 5 6 11 C PDWH MySQL mysaqI 5 6 11 win32 MySQL Workbench 6 0 C PDWH mysaqlworkbench MySQLWorkbench exe Java 32Bit C Program Files Java jdk1 7 0_21 C Program Files Java jre7 Weka 3 6 C Program Files Weka 3 6 User Console 4 8 0 C PDWH pentaho biserver biserver ce start_pentaho bat C PDWH pentaho biserver biserver ce stop_pentaho bat Admin Console 4 8 0 C PDWH pentaho biserver administration console start_pac bat C PDWH pentaho biserver administration console stop_pac bat PDI 4 4 0 C PDWH pentaho pdi ce 4 4 0 stable data integration Spoon bat PRD 3 9 1 C PDWH pentaho prd ce 3 9 1 report designer report_designer bat XI Anhang PSW 3 5 0 C PDWH pentaho psw ce 3 5 0 schema workbench workbench bat Ergebnisdateien SQL Script C PDWH pentaho SQL Script create_script_3108 sql Quelldaten csv C PDWH pentaho Quelldaten Transformationen C PDWH pentaho transformationen pdi_transformationen Jobs C PDWH pentaho Jobs OLAP Schema C PDWH pentaho olap Reports C PDWH pentaho Reports Dashboards C PDWH pentaho biserver biserver ce pentaho solutions webshop XII Anhang A1 SQL Create Script SET OLD_UNIQUE_CHECKS UNIQUE_CHECKS UNIQUE_CHECKS 0 SET OLD_FOREIGN_KEY_CHECKS FOREIGN_KEY_CHECKS FOREIGN_KEY_CHECKS 0 SET OLD_SQL_MODE SQL_MODE
129. t AAA 35 Abbildung 22 PDI Unique Rows Obiekt 35 Abbildung 23 PDI Filter Rows Objekt AEN 36 Abbildung 24 PDI Modellierungsobjekte zur Struktur nderung 36 Abbildung 25 PDI Data Movement Typen 38 Abbildung 26 PDI Data Validator Objekt 40 Abbildung 27 PDI OG QUING nee 41 Abbildung 28 PDI Step Metrics Logging EE 41 Abbildung 29 PDI Error Logging an ee 42 Abbildung 30 PDI Performance Loggimg 42 Abbildung 31 PDI Data repe ca ae alee 43 Abbildung 32 PDI Table Input Objekt SQL 2 44 Abbildung 33 PDI Table Output Objekt AEN 45 Abbildung 34 PDI Dimension Lookup Update Objekt 46 Abbildung 35 PDI Database Lookup 47 Abbildungsverzeichnis Abbildung 36 Transformation Dm Customer 51 Abbildung 37 Transformation Dm Geo 52 Abbildung 38 Transformation Dim Mixed sn nnnnnnnnnnnnnnnnn nn 52 Abbildung 39 Transformation __ nn 53 Abbildung 40 Transformation Dim Date nen nnnnnnnnnnnnnnnnn nn 53 Abbildung 41 Transformation Dm Product nn 54 Abbildung 42 Transformation Fact Delivery item Extraktion 55 Abbildung 43 Transformatio
130. t auf dem Bl Server k nnen aus dem Schema Modeller MDX Queries auf das Schema abgesetzt und das Ergebnis angezeigt werden Eine entsprechende Eingabemaske kann ber File New MDX Query aufgerufen werden Es werden jedoch keinerlei Eingabehilfen unterst tzt Die Ergebnisausgabe ist nicht tabellarisch sondern an eine spezielle Form der Konsolen ausgabe angelehnt MDX Query connected to webshop_schema xml 1 webshop schema xml M SELECT NON EMPTY dim delivery date delivery _year Members ON COLUMNS NON EMPTY dim mixed productGroup hiera rchy product group Members ON ROWS FROM webshop WHERE Measures returned Axis 0 Measures returned Axis 1 dim delivery 2010 dim delivery 2011 dim delivery 2012 dim delivery 2013 2 dim mixed productGroup hierarchy Group five dim mixed productGroup hierarchy Group four dim_mixed productGroup_hierarchy Group_one dim mixed productGroup hierarchy Group_three dim mixed productGroup hierarchy Group two Execute Abbildung 49 PSW Beispiel MDX Query Die M glichkeit MDX Queries absetzen zu k nnen dient somit lediglich einer ersten berpr fung ob die gew nschten Analysen mit dem aktuellen Modell grunds tzlich m g lich sind F r die Entwicklung komplexer Abfragen sollte ein vollwertiges Analysefrontend gew hlt werden
131. ta movement gt v Distribute data to next steps Change number of copies to start Copy data to next steps Copy to clipboard CTRL C Duplicate step Delete step DEL Hide step Detach step Abbildung 25 PDI Data Movement Typen Mittels Data movement kann entschieden werden ob ein Datenfluss an mehrere Schritte kopiert alle erhalten dieselbe Datenmenge oder verteilt werden soll Die Verteilung teilt dabei die Ausgangsdaten in n Teile n Anzahl Schritte 38 3 ETL Prozess 3 3 4 Datenprufung und Fehlerbehandlung Als Fehlerbehandlung wird im Folgenden die Unterst tzung Pentahos bei Erkennen und Behandeln von Fehlern im Sinne der Datenqualitat beschrieben Die Reaktionen auf einen Fehler lassen sich auf die Vier M glichkeiten beschr nken 1 keine Fehlerbehandlung und somit ein Weiterleiten des fehlerhaften Datensatzes 2 fehlerhaften Datensatz markieren und weiterleiten 3 fehlerhaften Datensatz zur ckweisen 4 ETL Prozess stoppen Ein Fehler im Sinne der Datenqualit t bedeutet ein Wert entspricht nicht dem erwarteten Wert Etwa in Form von e nicht m gliche Werte 13 Monat etc e Zahlen au erhalb der erwarteten Grenzen e fehlerhafte Werte fehlerhafter String Spellcheck e Null Werte in Not Null Feldern fehlende Werte e falscher Datentyp Pentaho bietet zur Unterst tzung das Data Validator Objekt Dieses erm glicht eine re gelbasierte Fehlerbehandlung Die Optionen sind in drei Teile gegliedert Zun
132. taho agilebi platform JettyServer WebServer Log CreateListener localhost 10000 2013 09 09 13 38 57 Spoon Asking for repository 2013 09 09 13 38 57 RepositoriesMeta Reading repositories XML file C Users pentaho kettle repositories xml 2013 09 09 13 38 58 Version checker OK 2013 09 09 13 39 43 Spoon Transformation opened Abbildung 27 PDI Logging Beim Step Metrics Logging werden f r jeden Step die Anzahl Zeilen des Nachrichtenflus ses geloggt Dabei wird zwischen read write input output update rejected und errors unterschieden Execution Results Q Execution History LP Logging 89 Step Metrics 7 Performance Graph ae Stepname Copynr Read Written Input Output Updated Rejected Errors 3 Change Customertype 0 2001 2001 0 0 0 0 0 4 Replace Customertype 0 2001 2001 0 0 0 0 0 5 Read Customer_Errorfiles csw 0 0 8 9 0 0 0 0 6 Data Validator 0 10 il 0 0 0 3 0 Abbildung 28 PDI Step Metrics Logging 41 3 ETL Prozess Tritt ein Fehler auf wird dies im Logging und im Step Metrics angezeigt Die Qualitat der Fehlermeldungen ist sehr gut Es wird prazise geloggt bei welchem Step und zu welcher Uhrzeit ein Fehler geworfen wurde Zusatzlich Klasse des Fehlers angegeben Execution Results Q Execution History T Logging Step Metrics Performance Graph werden eine Fehlerbeschreibung und die oF UL3 U3 US L4 UD UA zip TO Integer u rinisnea processing uzu VEU rz43023
133. tartup und Shutdown den kompletten Pfad zum Apache Tomcat Ver zeichnis hinterlegen Der Apache Tomcat Server l sst sich entweder im Dienstemanager oder mittels der tomcat6w exe starten Das Frontend des Bl Servers wird User Console genannt Die User Console entspricht einem User Cockpit und kann mittels startpenta ho bat gestartet werden Admin Console Die Admin Console ist das Monitoring Cockpit des Servers Die Community Edition bietet nur wenige Funktionen Es lassen sich lediglich Nutzer Rollen verwalten und wenige Ser verfunktionen steuern meist nur ein Refresh Im Verzeichnis biserver administration console l sst sich die Admin Console mittels start pac bat starten Die beiden Konsolen lassen sich mit einem Browser ber folgende Daten erreichen User Console url http localhost 8080 pentaho joe password Admin Console url http localhost 8099 admin password 22 2 Bl Server Clienttools Eine Installation der Programme ist nicht n tig sie liegen archiviert vor In jedem Tool muss eine eigene Verbindung zur Datenbank mit folgenden Daten angelegt werden Hostname localhost Port 3306 dbname webshop Driverclassname com mysal jdbc Driver username root password password url jdoc mysql localhost 3306 webshop Zur Verwendung des OLAP Schema Workbench ist es notwendig im Bl Server in der Datei publisher config xml im Pfad biserver biserver ce pentaho solutions system ein Publis
134. te Filter auf den Gesamtprofit ist noch aktiv jedoch ist die jetzige Profitsumme nur noch eine Teilmenge der Gesamtheit In Louisiana ist zu erkennen dass der Profit des Kundentyps Business stetig sinkt In Anbetracht der zuvor beobachteten Schwankungen kann dies bedeuten das verst rkt Privatkunden in Louisiana Profit generieren California 10 000 4 8 000 4 5 000 4 4000 4 0 4 10 000 4 8 000 4 6 000 4 4 000 4 2 000 4 o mem Hawaii 10 000 4 8 000 4 6 000 4 4 000 4 oA Kansas 6 000 4 4 000 4 2 000 4 0 10 000 5 Idaho 4 000 4 Louisiana 6 000 4 000 4 10 000 5 000 4 6 000 4 4 000 4 2 000 4 Illinois on o 0 Abbildung 90 Saiku Szenario 1 Ausgabe Filter Kundentyp Maryland 18 2010 2011 2012 Indiana 10 000 4 8 000 4 6 000 4 4 000 4 is BH Massachusetts 4 000 4 2 000 4 oA 100 6 5 2 Szenario 2 Sort 6 Visualisierung und Dashboards StandardmaBig werden die Werte alphabetisch Sortiert Die Richtung kann wie schon im Kapitel 6 3 ber die Pfeile am Icon gesteuert werden Alternativ kann jede Achse nach allen verf gbaren Kennzahlen sortiert werden auch jenen die nicht in der Auswertung enthalten sind F r dieses Szenario werden die vorherigen zwei Filter Profit lt 40000 und Type Business entfernt In diesem Szenario wird die Ausgabe zun chst absteigend nach dem P
135. ttels Aggregation auf eine Lieferung verdichtet werden kann Tabelle 8 Felder und Beschreibung fact_delivery_item turnover Der Umsatz der Lieferung Umsatz Menge Verkaufs preis quantity Die Liefermenge des Produkts profit Gewinn aus dem Verkaufsvorgang der sich wie folgt berechnet Verkaufspreis Einkaufpreis Transportkosten Bestellmenge Annahme Der Versand an den Kunden ist immer kos tenlos und schm lert daher den Gewinn return Gibt an ob die Lieferposition zur ckgesendet wurde true ja false nein shipping_cost Die anteiligen Transportkosten je Lieferposition Dimensionstabelle Produkt dim_product Die Produktdimension referenziert das Produkt der jeweiligen Lieferposition Tabelle 9 Felder und Beschreibung dim_product Hersteller des Produkts 15 1 Einleitung Dimensionstabelle Kunde dim_customer Die Kundendimension referenziert den Kunden der jeweiligen Lieferposition Aufgrund der gew hlten Granularit t ist der Kunde s mtlicher Lieferpositionen einer Lieferung identisch Tabelle 10 Felder und Beschreibung dim_customer birthday Geburtstag des Kunden Geschlecht male female customer_type Kundentyp private business Dimensionstabelle Datum dim_date Erster Teil der Zeitbetrachtung auf Datumsebene Wird sowohl f r das Bestell als auch das Lieferdatum in der Faktentabelle referenziert Tabelle 11 Felder und Beschreibung dim_date Das zusammengesetzte Datum im For
136. tung befindet sich in der Pentaho Wiki Dieses Wiki enth lt eine Installa tionsanleitung und eine Beschreibung der Arbeitsumgebung Es wird beschrieben wie Reports mit dem Report Wizard erstellt werden k nnen Das Anlegen von Data Sources wird beschrieben und es gibt eine Beschreibung zu den grafischen Elementen Zudem gibt es die M glichkeit mehrsprachige Reports zu generieren und es k nnen Sub Reports erstellt werden Zus tzlich gibt es Hinweise zum Ver ffentlichen einzelner Reports mit der Verwendung von Parametern und die Anwendung von integrierten Funktionen wie z B mathematische logische Datums und Text sowie Informations Funktionen Bei den Informationsfunktionen k nnen Null Werte abgefragt werden Ein digitales Benutzerhand buch ist auch im PDF Format vorhanden welches in einem bestimmten Pfad abgelegt und darauf aus dem Report Designer verkn pft werden kann Die Dokumentation liegt in englischer Sprache vor 5 5 Umsetzung Szenario Anhand von 3 Szenarien werden die grundlegenden Funktionen des Reportdesigners getestet Zun chst soll im Szenario 1 eine einfache gefilterte SQL Query dargestellt und formatiert werden Im Szenario 2 soll beispielhaft dargestellt werden wie eine Visualisierung mittels Diagrammen erfolgen kann Szenario 3 beschreibt die Filterung mittels Parameter und aufrufen eines Sub Reports Die in den Szenarien generierten MDX Queries liegen im Anhang A6 vor 17 Siehe http wiki pentaho com displ
137. tzlich die Abfragen als Views gespeichert um sp ter auf die erstellten Views referenzieren zu k nnen select dat YEAR sum Turnover from webshop fact delivery item as fact inner join webshop dim geo as geo on fact GEO ID geo GEO ID inner join webshop dim date as dat on dat DATE ID fact order DATE ID Group by dat YEAR Ergebnis Bsp Gesamtumsatz 2010 6730317 00 Abbildung 107 SQL Statement Berechnung Gesamtumsatz je Jahr Um die Prozentwerte berechnen zu k nnen sollten die Gesamtumsatze berechnet wer den um die einzelnen Umsatze der US Bundesstaaten zu den Gesamtumsaizen ins Ver h ltnis setzen zu k nnen YEAR sum Tumover 2010 6730317 00 2011 6916811 00 2012 6844933 00 Abbildung 108 Ergebnis Berechnung Gesamtumsatz je Jahr Select STATE sum IF Jahr 2010 Turnover_of_state NULL as 2010 sum IF Jahr 2011 Turnover_of_state NULL as 2011 sum IF Jahr 2012 Turnover_of_state Null as 2012 From webshop turnover_year Group by STATE http en wikibooks org wiki Programming MySQL Pivot table Abbildung 109 SQL Statement Pivot Umwandlung MySQL unterst tzt nicht die Verwendung eines Pivot Befehls daher wird eine IF Bedingung mit einer Sum Funktion kombiniert XX Anhang STATE 2010 2011 2012 Califomia 129753 00 91399 00 10308400 Hawaii 23722200 24315300 193635 00 Idaho 283519 00 26445000 30806100 Illinois 34790 00 3562400 25672 00 Abbildung 110 Ergebnis Pivot Umwandlung Fur die Delta Berec
138. um 1 Add constants Add sequence m Add value fields changing sequer E Add XML Calculator Closure Generator Concat Fields Example plugin Get ID from slave server Number range Replace in string Row denormaliser 27 Row flattener D Row Normaliser 5 Select values 1 0 Set field value Set field value to a constant Sort rows 49 Split field to rows A Split Fields Fi String operations d Strings cut D gt Unique rows H Unique rows HashSet 1 Value Mapper XSL Transformation Flow E Abort we Append streams Block this step until steps finish Blocking Step Detect empty stream Dummy do nothing amp ETL Metadata Injection Y Filter rows 2 Identify last row in a stream Y Java Filter ve Prioritize streams H Single Threader A lt Switch Case Experimental Multiway Merge Join Af Rule Executor Script AO Secret key generator to Symmetric Cryptography Ta Scripting I Execute row SQL script amp Execute SQL script Jo Formula J Modified Java Script Value lik Regex Evaluation SF User Defined Java Class F User Defined Java Expressior ookup Call DB Procedure Fr Check if a column exists 13 Check if file is locked Check if webservice is availab Database join R Database lookup E Dynamic SQL row File exists Fuzzy match HTTP client HTTP Post Q REST Client Stream lookup 9 Table exists
139. xcel und XML Dateien mittels XPATH an Des Weiteren lassen sich Ordner Dateistrukturen und Systemvariablen auslesen Auf den Input mittels Datenban ken wird in Kapitel 3 3 5 eingegangen F r diese Inputm glichkeiten gibt es die folgenden Modellierungsobjekte Tabelle 15 PDI Input Modellierungsobjekte Textinputobjekt erm glicht auch mehrfaches Einlesen vieler Daten aus Ordnerstrukturen Text file input hnliche Struktur wie das Textinputobjekt jedoch mit spezifi schen XML Optionen Get data from XML A Beim Excelinput k nnen mindestens eine Exceldatei und mindes tens ein Excelsheet eingelesen werden Sonstige Struktur hnelt Microsoft Excel Input dem Textinput B Erm glicht die Ausgabe von Transformationsinformationen Get System Info Der Aufbau der Datei Inputobjekte ist grundlegend gleich f r ihre Spezialisierung aber angepasst Der Textinput hat die allgemeinste Struktur und wird nachfolgend beschrieben 26 3 ETL Prozess Text File Input Die Konfiguration ist in die Reiter File Content Error Handling Filters Fields und Additio nal Output Fields unterteilt Der Reiter File enth lt die Konfiguration der Dateipfade diese k nnen entweder direkt angegeben werden oder als Output eines vorherigen Objekts stammen Zum Auslesen von Ordner und Dateistrukturen werden die Objekte Get File Names und Get SubFolder names verwendet So k nnte beispielsweise eine Anwendung einen standardisiert
140. xedrate 100 e shippincosts turnover plus shipping turnover e profit sales price purchase price e profit2 profit1 quantity e profitfinal profit2 shippincosts tumover shippingcosts sales purchase price tumover quantity salesprice seperate shippingcosts prof quantity Proft shippingcoste temve unused fields DBOutput fact_delivery_item Abbildung 45 Transformation Fact_Delivery_item Kennzahlen und Speichern Als Letztes werden die Daten in der Datenbank gespeichert Um das Mapping beim Spei chern in die Datenbank zu erleichtern erfolgt zuvor eine Filterung der verf gbaren Felder 57 4 OLAP 4 OLAP 4 1 4 1 Ubersicht Pentaho Mondrian Die technische Grundlage f r multidimensionale Auswertungen stellt das OLAP System Pentaho Mondrian dar Als Bestandteil des Bl Servers ist diese standardm ig in der Community Edition von Pentaho enthalten Die in diesem Projekt verwendete Version ist 3 5 0 Aufgrund der Integration in den Server ist eine eigenst ndige Installation nicht vor gesehen Pentaho Mondrian ist standardm ig aktiv nachdem der Server gestartet wur de Die Architektur stellt sich wie folgt dar XML HTTP Java Pentaho Analysis Services Mondrian Project Architecture Schema Manager MDX 4 ResultSet Formatter Dimensional Manager Function Table Dimensional Layer Aggregate Manager Star Layer J Repeated Data Element Aui Non Mondrian Code Abbi
141. y bui 2013 09 09 14 06 06 DBOutput dim gea ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 08 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim gea ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 08 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim gea ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim gea ERROR version 4 4 0 stable build 17588 from 2012 11 21 16 02 21 by bui 2013 09 09 14 06 06 DBOutput dim geo 0 ERROR version 4 4 0 stable build 17588 from 201
142. zit 8 Fazit Im Folgenden werden die einzelnen Komponenten der Pentaho Business Analytics Com munity Edition im Kontext der Erfahrungen aus der Evaluation abschlieBend besprochen Am Ende wird ein Gesamtfazit bez glich des Einsatzes in der Lehre gezogen Der Bl Server als auf Apache Tomcat basierender Application Server stellt in der Com munity Edition lediglich Basisfunktionen bereit Dazu geh ren rudiment re administrative F higkeiten in Form der Administrator Console sowie Frontendfunktionalit t mittels der User Console Weiterhin enth lt er die OLAP Erweiterung Pentaho Mondrian als Basis f r multidimensionale Auswertungen ber den Pentaho Marketplace werden verschiedene Erweiterungsm glichkeiten f r den Endanwender bereitgestellt Der Bl Server lief wah rend der Evaluationsphase stabil Durch die Client Server Architektur und die webbasier ten Oberfl chen kann die Funktionalit t einfach zur Verf gung gestellt werden W hrend der Server zentral durch die HTW administriert wird k nnten die Studenten mit den Client Tools oder per Webbrowser ber das Netzwerk darauf zugreifen Pentaho Data Integration kurz PDI bietet als eigenst ndiges Tool wesentliche Funktio nen f r die Umsetzung eines ETL Prozesses Es konnten s mtliche f r die Erzeugung des Star Schemas notwendigen Transformationen umgesetzt werden Auch die M glich keiten zur Fehlerbehandlung und zum Debugging k nnen berzeugen und stehen kom merziellen Tools
143. zu behan deln D Unique rows Fee Step name Settings Add counter to output Redirect duplicate row e Fields to compare on no entries means compare complete row D Fieldname Ignore case 1 Abbildung 22 PDI Unique Rows Objekt Mittels Filter Rows lassen sich Filter konfigurieren und Datenstr me teilen Es gehen bei diesem Objekt keine Zeilen verloren Die Filterkondition kann dabei neben logischen Ope ratoren auch Regular Expression beinhalten 35 3 ETL Prozess T Filter rows Acma Step name Send true data to step Send false data to step The condition ER OK Cancel Abbildung 23 PDI Filter Rows Objekt Struktur nderung Pentaho Data Integration bietet die M glichkeit Spalten zu trennen und vereinen sowie Spalten zu Zeilen zu wandeln sowie umgekehrt un pivot a Row Normaliser Row denormaliser Split Fields Concat Fields Abbildung 24 PDI Modellierungsobjekte zur Struktur nderung Split Fields und Concat Fields bieten als Konfigurationsm glichkeit jeweils nur das die Definition von Trennzeichen 36 3 ETL Prozess 3 3 3 Flusssteuerung Zum Trennen und Vereinen von Datenfl ssen bietet Pentaho Data Integration verschie dene Konzepte abh ngig davon ob eine bestimmte Reihenfolge vorgesehen ist Das Trennen und Vereinen von Datenfl ssen ist entweder mittels spezifischen Modellie rungsobjekten oder mit ei
Download Pdf Manuals
Related Search
Related Contents
Signet 8150 Totalizador de caudal 取扱説明書 - 防犯カメラ、監視カメラ Samsung Archive Home Entertainment System โฮมเธียเตอร์ HT-ES455K คู่มือการใช้งาน Avant-propos L`organisation du livre Le mode d`emploi La structure TOA Electronics C-AL80(H) User's Manual Samsung RFG297ACBP Manuel de l'utilisateur TAFCO WINDOWS NU2-136S-W Instructions / Assembly 霧で暑さ対策!電気不要の水道直圧タイプとポンプタイプ。 はじめに 各部の名称 のプびは AD 『h ー 『放射温度 ープキ買し 上げし 2008 is code Copyright © All rights reserved.
Failed to retrieve file