Datenanalyse – Die Datenformate

Hallo,

heute geht es um den Transfer von Rohdaten zwischen jemandem, der Daten bereitstellen (z.B. Auftraggeber), und jemandem, der diese verarbeiten muss. Bevor es nämlich an die eigentliche Auswertung geht, müssen in irgendeiner Form Daten verfügbar sein. Dies sind im Besonderen Tabellen, die in eine Datenbank importiert werden können. Auf diesen Tabellen werden dann Abfragen ausgeführt, um Kennzahlen zu ermitteln und so Schlussfolgerungen zu ermöglichen.

Im Bereich der Logistischen Datenverarbeitung existiert hier ein gewisser Datenstamm, der für jede Art der Datenauswertung benötigt wird. Dies ist zum Beispiel der Artikelstamm, in dem alle Daten zu allen verfügbaren Artikel hinterlegt sind. Dazu kommen dynamische, also zeitabhängige Daten, mit deren Hilfe Kapazitäten erfasst werden können. Dies sind z. B. zeitabhängige Bestände oder Rechnungs- und Kommissionierdaten.

Bevor diese Daten gezielt beschafft werden können, ist es allerdings unumgänglich, ein Format für den Austausch festzulegen. Es kostet sehr viel Zeit, wenn exotische Datenbank-Dateien ausgetauscht werden, die erst aufwändig konvertiert werden müssen, um mit den Auswertungstools genutzt werden zu können. Dabei kann es sogar zu Datenverlusten bei jedem einzelnen Konvertierungsschritt kommen, so dass die endgültigen Ergebnisse im schlimmsten Fall gar nicht nutzbar sind.

Wie überträgt man also am sinnvollsten Tabellen? Die erste Idee ist natürlich, dafür eine Software zu nutzen, die zum Erstellen und Bearbeiten von Tabellen ausgelegt ist. Also beispielsweise Microsoft Excel. Hier ergeben sich direkt die ersten Probleme: Welche Version wird genutzt? Werden also xls- (2003 oder früher) oder xlsx-Dateien (2007 und folgende) ausgetauscht? Reicht damit die Zeilenbegrenzung (im besten Fall etwa eine Million) aus? Werden die Dateien zu groß, um sie vernünftig über das Internet zu übertragen? Wird der Datenexport von einem Datenbank-Server vielleicht schon beim Versenden nach Excel konvertiert?

Wie oben genannt, sollte auf proprietäre Formate verzichtet werden. Trotzdem habe ich schon DB5-, Sqlite-Dateien und ähnliches bekommen, die ich erst umständlich umwandeln musste, damit diese in Microsoft Access oder ein anderes Datenbanksystem importierbar waren.

Ich habe dabei festgestellt, dass ich alle Umwandlungen über ein Format durchführe, dass weitestgehend von allen beteiligten Anwendungen unterstützt wird. Das Zauberwort heißt hier CSV! Ob damit „Comma Separated Values“ oder „Character Separated Values“ gemeint ist, ist fast egal. Wichtig ist: Es handelt sich um ein reines Text-Format, wodurch unglaubliche Vorzüge entstehen:

  1. Das Format definiert keine Datentypen. Ich kann also beim Import in meine Datenbank die optimale Auswahl selbst festlegen und somit mein eigenes Datenbanksystem optimieren.
  2. Ich habe keine Begrenzungen in Bezug auf Dateigröße (alte Dateisysteme mal ausgeklammert). Ich kann also alle notwendigen Daten einer Tabelle am Stück übertragen.
  3. Text-Dateien zu komprimieren macht unglaublich Spaß! Warum? Sie werden im Vergleich zur Originalgröße winzig klein und lassen sich entsprechend gut übertragen. Dazu sind keine Meta-Informationen enthalten, was noch mehr Platz spart.
  4. Die Bearbeitung kann mit einem einfachen Texteditor passieren. Erste Konvertierungen (Fließkommazahlen umwandeln: Dezimalpunkt und Dezimalkomma sind immer wieder Reizthemen) lassen sich so beschleunigen. Wenn Dateien direkt in Excel importiert werden, können u.U. schon Informationen verloren gegangen sein. Für diesen Schritt empfehle ich übrigens Notepad++, da dies auch mit großen Dateien umgehen kann. Außerdem kann diese Anwendungen Format-Konvertierungen vornehmen. Mit ein bisschen Übung verschwinden die Umlaute also nicht…

Mein Fazit lautet damit: Nehmt CSV-Dateien für den Austausch! Ich kann da nur immer wieder die Lanze dafür brechen. Durch Kommunikation, also das vorherige Besprechen, kann dieses Datenformat festgelegt werden. Das gefällt vielleicht nicht jedem Ansprechpartner, aber der geht ja auch zu seiner IT- oder Administrationsabteilung und spätestens da ist die Freude wieder groß, wenn dieser vernünftige Formatvorschlag gemacht wird.

Wenn dieser Schritt also getan ist, kann als nächstes mit dem Import und dann der eigentlichen Datenanalyse begonnen werden. Dazu aber später mehr.

Bis dann

0winger

Datenanalyse – Die Software

Für eine Datenanalyse können unterschiedliche Software-Anwendungen genutzt werden. Dies hängt zu weiten Teilen von deren Verfügbarkeit ab. Generell werden eine Datenbank, eine Tabellenkalkulation, ein Texteditor und eine Software zur Präsentation benötigt. Im Unternehmensumfeld hat sich hier zu weiten Teilen das Microsoft Office etabliert. Andererseits können auch das OpenOffice oder LibreOffice genutzt werden. Dies ist besonders dann der Fall, wenn wenig Geld in die Software investiert wird. Also zum Beispiel während des Studiums oder als StartUp. Ich persönlich finde, dass eine Datenbank auf einen entsprechenden Server gehört, womit eine weitere Möglichkeit aufgezeigt ist. Immer häufiger wird dann noch Prezi für die Präsentation genutzt und schon entsteht (vielleicht noch mit Beamer für LaTex) eine unüberschaubare Kombinationsvielfalt.

In diesem Blog werde ich mich besonders auf das verbreitete Microsoft Office und da speziell auf die Komponenten Excel, Access und PowerPoint beschränken. Wenn dieser Blog insgesamt gut ankommt, werde ich vermutlich noch weitere Systeme und Szenarien vorstellen. Wenn sich die Möglichkeit bietet, werde ich außerdem Schnittstellen beschreiben. Ein Beispiel ist die die Kombination aus Microsoft Access und einer ODBC-Verbindung zu einem Datenbank-Server.

Damit stellt sich die Frage, wozu ich die Systeme einsetzten werde. Natürlich wird in jedem folgenden Artikel eins oder mehrere Tools eingesetzt. Prinzipiell lässt sich aber sagen, dass ich

  • einen Texteditor für die erste Sichtung und Teile der Datenbereinigung verwende.
  • Excel für die weitere Daten Bereinigung nutze, da Fehler zum Teil schnell erkennbar sind. Da aber unter Umständen das Datenlimit von Excel erreicht wird (etwa 1.000.000 Zeilen) kann dieser Schritt in einigen Fällen ausfallen.
  • Access für die eigentliche Auswertung einsetzte. Hier werden die eigentlichen Abfragen erstellt und damit Kennzahlen ermittelt.
  • die verdichteten Daten mit Excel noch weiter verfeinere. Zusammenhänge zwischen mehreren Datensätzen lassen sich hier einfacher darstellen. Außerdem können die Tabelle besser in Präsentationen hinterlegt werden.
  • PowerPoint abschließend nutze, um die Ergebnisse zu visualisieren. Diagramme und die Darstellung von Kennzahlen und Schlussfolgerungen ist über Folien am einfachsten darstellbar.

Wenn also die folgenden Beiträge komplett nachvollzogen und vielleicht sogar nachgemacht werden sollen, werden diese Anwendungen benötigt.

Bis dann
0winger

Hinweis auf Vorlesungen

Hallo,

es existiert eine Vorlesung an der Technischen Universität Dortmund (TU Dortmund), die sich mit dem gesamten Themankomplex „Logistische Datenverarbeitung“ auseinandersetzt. Die Inhalte, die dort vermittelt werden, werden sich teilweise in diesem Blog wiederholen. Wer also über eine entsprechende Google-Suche in diesem Bereich meines Blogs gelandet ist, ist nicht ganz falsch^^.

Ansonsten ist hier der Link an die TU Dortmund.

Bis dann

0winger

Datenanalyse und logistische Datenverarbeitung – Programm

Hallo,

ich werde in den kommenden Wochen an dieser Stelle Inhalte erstellen, welche eine Datenanalyse von logistischen Daten ermöglicht. Es handelt sich hierbei um einen generellen Leitfaden zum Vorgehen und es sollen ausschließlich Grundlagen vermittelt werden. Die eigentliche Datenanalyse ist viel stärker auf die projektbezogene Aufgabenstellung ausgerichtet und bedarf besonders im Bereich der Kennzahlen und KPIs eine Konkretisierung.

Die Bearbeitungsschritte bleiben allerdings grundlegend identisch. Es müssen Daten angefordert, bereinigt und anschließend verdichtet werden. Anschließend wird eine Präsentation erstellt, die im Normalfall für eine Abstimmung mit den Auftraggebern benötigt wird. Mit dieser werden die Fragen geklärt, ob die Daten und Zusammenhänge verstanden wurden, ob Annahmen richtig getroffen wurden und ob ggf. auftretende Besonderheiten z.B. durch reale Prozesse erklärbar sind. Wenn dieser Termin (normalerweise in Form eines Meetings) überstanden ist, kann mit der eigentlichen logistischen Planungsaufgabe begonnen werden. Dies ist allerdings ein Thema für einen anderen Blog…

Im Vorfeld bereits ein Hinweis zu einer Namensgleichheit.

Bis dann

0winger

Update: Der erste Artikel beschreibt die eingesetzte Software

Update: Im zweiten Artikel wird der Datenaustausch festgelegt

Datenanalyse und Logistische Datenverarbeitung

Die Datenanalyse ist bei vielen Projekten die Grundlage für jede Art der Entscheidung. Aus unzähligen Rohdaten werden gezielt einzelne Kennzahlen oder Kennlinien extrahiert, um Aussagen mit den Ergebnissen zu unterstützen. Aus den Rohdaten können dank ihres Umfangs keine sinnvollen Ergebnisse extrahiert werden. Eine Datenanalyse zur Feststellung der Datenintegrität und die anschließende Verdichtung der Daten ist hier unablässig.

 

Die Artikel dieser Blog-Kategorie werden nach und nach Anleitungen, Tipps und Vorgehensmodelle präsentieren, die eine Datenanalyse ermöglichen. Ein spezieller Fokus wird hierbei auf die Logistische Datenverarbeitung gelegt.

Wir möchten mit dieser Artikelserie denjenigen eine Anlaufstelle bieten, die eine Aufgabe aus dem Bereich der Datenanalyse gestellt bekommen und ggf. auf der Suche nach Einstiegspunkten oder Detailwissen sind.

Newcomer-Guide auf Last Men Standing

Auf der Homepage von Last Men Standing wurde damit begonnen, Tipps und Tricks für Newcomer-Bands zu sammeln. Zunächst werden die Erfahrungen der Band zusammen gestellt und erst durch eure Kommentare wird ein kompletter Leitfaden daraus. Hier können sich alle Musiker umtun, die zum ersten Mal eine Band gründen wollen und noch nicht wissen, wo sie anfangen sollen. Sie zu treffen und Musik zu machen ist bekanntlich nur der aller erste Schritt von vielen.

Also: Auf zu http://www.lms-rock.de und mitmachen!

Bis dann

0winger