Datenanalyse – Die Datenformate

Hallo,

heute geht es um den Transfer von Rohdaten zwischen jemandem, der Daten bereitstellen (z.B. Auftraggeber), und jemandem, der diese verarbeiten muss. Bevor es nämlich an die eigentliche Auswertung geht, müssen in irgendeiner Form Daten verfügbar sein. Dies sind im Besonderen Tabellen, die in eine Datenbank importiert werden können. Auf diesen Tabellen werden dann Abfragen ausgeführt, um Kennzahlen zu ermitteln und so Schlussfolgerungen zu ermöglichen.

Im Bereich der Logistischen Datenverarbeitung existiert hier ein gewisser Datenstamm, der für jede Art der Datenauswertung benötigt wird. Dies ist zum Beispiel der Artikelstamm, in dem alle Daten zu allen verfügbaren Artikel hinterlegt sind. Dazu kommen dynamische, also zeitabhängige Daten, mit deren Hilfe Kapazitäten erfasst werden können. Dies sind z. B. zeitabhängige Bestände oder Rechnungs- und Kommissionierdaten.

Bevor diese Daten gezielt beschafft werden können, ist es allerdings unumgänglich, ein Format für den Austausch festzulegen. Es kostet sehr viel Zeit, wenn exotische Datenbank-Dateien ausgetauscht werden, die erst aufwändig konvertiert werden müssen, um mit den Auswertungstools genutzt werden zu können. Dabei kann es sogar zu Datenverlusten bei jedem einzelnen Konvertierungsschritt kommen, so dass die endgültigen Ergebnisse im schlimmsten Fall gar nicht nutzbar sind.

Wie überträgt man also am sinnvollsten Tabellen? Die erste Idee ist natürlich, dafür eine Software zu nutzen, die zum Erstellen und Bearbeiten von Tabellen ausgelegt ist. Also beispielsweise Microsoft Excel. Hier ergeben sich direkt die ersten Probleme: Welche Version wird genutzt? Werden also xls- (2003 oder früher) oder xlsx-Dateien (2007 und folgende) ausgetauscht? Reicht damit die Zeilenbegrenzung (im besten Fall etwa eine Million) aus? Werden die Dateien zu groß, um sie vernünftig über das Internet zu übertragen? Wird der Datenexport von einem Datenbank-Server vielleicht schon beim Versenden nach Excel konvertiert?

Wie oben genannt, sollte auf proprietäre Formate verzichtet werden. Trotzdem habe ich schon DB5-, Sqlite-Dateien und ähnliches bekommen, die ich erst umständlich umwandeln musste, damit diese in Microsoft Access oder ein anderes Datenbanksystem importierbar waren.

Ich habe dabei festgestellt, dass ich alle Umwandlungen über ein Format durchführe, dass weitestgehend von allen beteiligten Anwendungen unterstützt wird. Das Zauberwort heißt hier CSV! Ob damit „Comma Separated Values“ oder „Character Separated Values“ gemeint ist, ist fast egal. Wichtig ist: Es handelt sich um ein reines Text-Format, wodurch unglaubliche Vorzüge entstehen:

  1. Das Format definiert keine Datentypen. Ich kann also beim Import in meine Datenbank die optimale Auswahl selbst festlegen und somit mein eigenes Datenbanksystem optimieren.
  2. Ich habe keine Begrenzungen in Bezug auf Dateigröße (alte Dateisysteme mal ausgeklammert). Ich kann also alle notwendigen Daten einer Tabelle am Stück übertragen.
  3. Text-Dateien zu komprimieren macht unglaublich Spaß! Warum? Sie werden im Vergleich zur Originalgröße winzig klein und lassen sich entsprechend gut übertragen. Dazu sind keine Meta-Informationen enthalten, was noch mehr Platz spart.
  4. Die Bearbeitung kann mit einem einfachen Texteditor passieren. Erste Konvertierungen (Fließkommazahlen umwandeln: Dezimalpunkt und Dezimalkomma sind immer wieder Reizthemen) lassen sich so beschleunigen. Wenn Dateien direkt in Excel importiert werden, können u.U. schon Informationen verloren gegangen sein. Für diesen Schritt empfehle ich übrigens Notepad++, da dies auch mit großen Dateien umgehen kann. Außerdem kann diese Anwendungen Format-Konvertierungen vornehmen. Mit ein bisschen Übung verschwinden die Umlaute also nicht…

Mein Fazit lautet damit: Nehmt CSV-Dateien für den Austausch! Ich kann da nur immer wieder die Lanze dafür brechen. Durch Kommunikation, also das vorherige Besprechen, kann dieses Datenformat festgelegt werden. Das gefällt vielleicht nicht jedem Ansprechpartner, aber der geht ja auch zu seiner IT- oder Administrationsabteilung und spätestens da ist die Freude wieder groß, wenn dieser vernünftige Formatvorschlag gemacht wird.

Wenn dieser Schritt also getan ist, kann als nächstes mit dem Import und dann der eigentlichen Datenanalyse begonnen werden. Dazu aber später mehr.

Bis dann

0winger

Advertisements

Ein Gedanke zu „Datenanalyse – Die Datenformate

  1. Pingback: Datenanalyse und logistische Datenverarbeitung – Programm | LDV - Logistische Datenverarbeitung

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s