Archiv der Kategorie: Logistische Datenverarbeitung

Datenanalyse – Die Datenformate

Hallo,

heute geht es um den Transfer von Rohdaten zwischen jemandem, der Daten bereitstellen (z.B. Auftraggeber), und jemandem, der diese verarbeiten muss. Bevor es nämlich an die eigentliche Auswertung geht, müssen in irgendeiner Form Daten verfügbar sein. Dies sind im Besonderen Tabellen, die in eine Datenbank importiert werden können. Auf diesen Tabellen werden dann Abfragen ausgeführt, um Kennzahlen zu ermitteln und so Schlussfolgerungen zu ermöglichen.

Im Bereich der Logistischen Datenverarbeitung existiert hier ein gewisser Datenstamm, der für jede Art der Datenauswertung benötigt wird. Dies ist zum Beispiel der Artikelstamm, in dem alle Daten zu allen verfügbaren Artikel hinterlegt sind. Dazu kommen dynamische, also zeitabhängige Daten, mit deren Hilfe Kapazitäten erfasst werden können. Dies sind z. B. zeitabhängige Bestände oder Rechnungs- und Kommissionierdaten.

Bevor diese Daten gezielt beschafft werden können, ist es allerdings unumgänglich, ein Format für den Austausch festzulegen. Es kostet sehr viel Zeit, wenn exotische Datenbank-Dateien ausgetauscht werden, die erst aufwändig konvertiert werden müssen, um mit den Auswertungstools genutzt werden zu können. Dabei kann es sogar zu Datenverlusten bei jedem einzelnen Konvertierungsschritt kommen, so dass die endgültigen Ergebnisse im schlimmsten Fall gar nicht nutzbar sind.

Wie überträgt man also am sinnvollsten Tabellen? Die erste Idee ist natürlich, dafür eine Software zu nutzen, die zum Erstellen und Bearbeiten von Tabellen ausgelegt ist. Also beispielsweise Microsoft Excel. Hier ergeben sich direkt die ersten Probleme: Welche Version wird genutzt? Werden also xls- (2003 oder früher) oder xlsx-Dateien (2007 und folgende) ausgetauscht? Reicht damit die Zeilenbegrenzung (im besten Fall etwa eine Million) aus? Werden die Dateien zu groß, um sie vernünftig über das Internet zu übertragen? Wird der Datenexport von einem Datenbank-Server vielleicht schon beim Versenden nach Excel konvertiert?

Wie oben genannt, sollte auf proprietäre Formate verzichtet werden. Trotzdem habe ich schon DB5-, Sqlite-Dateien und ähnliches bekommen, die ich erst umständlich umwandeln musste, damit diese in Microsoft Access oder ein anderes Datenbanksystem importierbar waren.

Ich habe dabei festgestellt, dass ich alle Umwandlungen über ein Format durchführe, dass weitestgehend von allen beteiligten Anwendungen unterstützt wird. Das Zauberwort heißt hier CSV! Ob damit „Comma Separated Values“ oder „Character Separated Values“ gemeint ist, ist fast egal. Wichtig ist: Es handelt sich um ein reines Text-Format, wodurch unglaubliche Vorzüge entstehen:

  1. Das Format definiert keine Datentypen. Ich kann also beim Import in meine Datenbank die optimale Auswahl selbst festlegen und somit mein eigenes Datenbanksystem optimieren.
  2. Ich habe keine Begrenzungen in Bezug auf Dateigröße (alte Dateisysteme mal ausgeklammert). Ich kann also alle notwendigen Daten einer Tabelle am Stück übertragen.
  3. Text-Dateien zu komprimieren macht unglaublich Spaß! Warum? Sie werden im Vergleich zur Originalgröße winzig klein und lassen sich entsprechend gut übertragen. Dazu sind keine Meta-Informationen enthalten, was noch mehr Platz spart.
  4. Die Bearbeitung kann mit einem einfachen Texteditor passieren. Erste Konvertierungen (Fließkommazahlen umwandeln: Dezimalpunkt und Dezimalkomma sind immer wieder Reizthemen) lassen sich so beschleunigen. Wenn Dateien direkt in Excel importiert werden, können u.U. schon Informationen verloren gegangen sein. Für diesen Schritt empfehle ich übrigens Notepad++, da dies auch mit großen Dateien umgehen kann. Außerdem kann diese Anwendungen Format-Konvertierungen vornehmen. Mit ein bisschen Übung verschwinden die Umlaute also nicht…

Mein Fazit lautet damit: Nehmt CSV-Dateien für den Austausch! Ich kann da nur immer wieder die Lanze dafür brechen. Durch Kommunikation, also das vorherige Besprechen, kann dieses Datenformat festgelegt werden. Das gefällt vielleicht nicht jedem Ansprechpartner, aber der geht ja auch zu seiner IT- oder Administrationsabteilung und spätestens da ist die Freude wieder groß, wenn dieser vernünftige Formatvorschlag gemacht wird.

Wenn dieser Schritt also getan ist, kann als nächstes mit dem Import und dann der eigentlichen Datenanalyse begonnen werden. Dazu aber später mehr.

Bis dann

0winger

Advertisements

Hinweis auf Vorlesungen

Hallo,

es existiert eine Vorlesung an der Technischen Universität Dortmund (TU Dortmund), die sich mit dem gesamten Themankomplex „Logistische Datenverarbeitung“ auseinandersetzt. Die Inhalte, die dort vermittelt werden, werden sich teilweise in diesem Blog wiederholen. Wer also über eine entsprechende Google-Suche in diesem Bereich meines Blogs gelandet ist, ist nicht ganz falsch^^.

Ansonsten ist hier der Link an die TU Dortmund.

Bis dann

0winger

Datenanalyse und logistische Datenverarbeitung – Programm

Hallo,

ich werde in den kommenden Wochen an dieser Stelle Inhalte erstellen, welche eine Datenanalyse von logistischen Daten ermöglicht. Es handelt sich hierbei um einen generellen Leitfaden zum Vorgehen und es sollen ausschließlich Grundlagen vermittelt werden. Die eigentliche Datenanalyse ist viel stärker auf die projektbezogene Aufgabenstellung ausgerichtet und bedarf besonders im Bereich der Kennzahlen und KPIs eine Konkretisierung.

Die Bearbeitungsschritte bleiben allerdings grundlegend identisch. Es müssen Daten angefordert, bereinigt und anschließend verdichtet werden. Anschließend wird eine Präsentation erstellt, die im Normalfall für eine Abstimmung mit den Auftraggebern benötigt wird. Mit dieser werden die Fragen geklärt, ob die Daten und Zusammenhänge verstanden wurden, ob Annahmen richtig getroffen wurden und ob ggf. auftretende Besonderheiten z.B. durch reale Prozesse erklärbar sind. Wenn dieser Termin (normalerweise in Form eines Meetings) überstanden ist, kann mit der eigentlichen logistischen Planungsaufgabe begonnen werden. Dies ist allerdings ein Thema für einen anderen Blog…

Im Vorfeld bereits ein Hinweis zu einer Namensgleichheit.

Bis dann

0winger

Update: Der erste Artikel beschreibt die eingesetzte Software

Update: Im zweiten Artikel wird der Datenaustausch festgelegt