Datenerhebung meets effiziente Emissionsbilanz
Exxeta kreiert digitales Datenprodukt zur Messung der CO2-Emissionen des Deutschen Alpenvereins e.V. (DAV)
Mehr lesen Datenerhebung meets effiziente Emissionsbilanz
Wer Künstliche Intelligenz einsetzen will, braucht Daten – und die dafür geeignete Datenplattform. Doch wie setzt man eine solche Plattform auf, wie strukturiert man sie, und warum ist eine gut organisierte Datenbasis für den Erfolg von KI-Projekten so entscheidend? Berit Frech, Data Engineer bei Exxeta in Berlin, gibt Einblicke in die Herausforderungen und die besten Praktiken bei der Datenorganisation.
Berit: Eine Datenplattform ist eine zentrale Sammelstelle, in der alle Informationen und Daten, die in einem Unternehmen anfallen, zusammenlaufen und zentral verwaltet werden. Und damit sind wir auch schon bei der großen Herausforderung: In einem Unternehmen kommen viele unterschiedliche Daten zusammen. Sie unterscheiden sich in der Qualität, in der Art und Weise, in der Herkunft. Und natürlich auch in der späteren Verwendung.
Berit: Ganz im Gegenteil! Stellen wir uns vor, ein Unternehmen hat unzählige Datenquellen und Daten Hubs – jede hat ihre eigene Wahrheit. Es fehlt der Überblick darüber, welche Daten überhaupt existieren und welche Qualität sie haben. Das ist keine Basis, um richtige Entscheidungen zu treffen. Eine Datenplattform schafft vor allem Transparenz, weil klar wird, wo die Daten liegen, auf die man zurückgreifen kann. Je besser eine solche Plattform sortiert ist, desto besser lassen sich auch Fehler nachverfolgen und schnell beheben. Es ist wichtig, dass es so eine zentrale Stelle gibt.
Berit: Das ist sehr unterschiedlich. Es kommt auf das Unternehmen an und darauf, wie dort in der Vergangenheit mit Daten umgegangen wurde. In der Regel lassen sich Datenplattformen aber in Data Warehouses, Data Lakes oder in Mischformen einordnen. Ein treffender Vergleich ist hier eine Bibliothek: Stell dir vor, eine Bibliothek enthält Tausende von Büchern, die systematisch katalogisiert und geordnet sind nach Kategorien, Autor:innen und Titeln. Dadurch kann jede:r Benutzer:in schnell und einfach auf die benötigten Informationen zugreifen, ohne lange suchen zu müssen. Diese Form entspricht dann einem Data Warehouse.
Im Vergleich dazu wäre ein Data Lake wie ein riesiges Lagerhaus voller Bücherkisten, in denen die Bücher unsortiert liegen. Während alle Informationen im Originalzustand vorhanden sind, erfordert es erheblich mehr Zeit und Aufwand, spezifische Daten zu finden.
Berit: Nicht unbedingt. Ein Data Lake hat auch Vorteile: Es ist eine günstige Form der Historisierung von Daten. Außerdem können unterschiedliche Datentypen gesammelt werden, also auch Videos, Bilder und Social Media Posts. Es gibt bestimmte Anwendungen des maschinellen Lernens und der explorativen Analyse, die durchaus mit einem solchen Data Lake umgehen können. Für viele – zum Teil wichtige – Anwendungsfälle wie zum Beispiel Business Analytics ist er aber zu unstrukturiert
Berit: Eine weitere Ebene wäre das Data Warehouse, die gut sortierte Bibliothek. Hier liegen Informationen schon aufbereitet vor. Wenn ich aber ein neues Format, beispielsweise Videos, aufnehmen möchte, passt es nicht unbedingt in das System rein und es muss angepasst werden.
Berit: Sie werden beispielsweise für Business Intelligence eingesetzt, um Trends zu erkennen, Berichte zu erstellen und Entscheidungen zu treffen. Überall dort, wo strukturierte Daten benötigt werden. Es gibt aber auch Mischformen wie das Data Lakehouse, das die Vorteile beider Arten von Datenplattformen nutzt: Es bietet die Flexibilität eines Data Lakes, um verschiedene Datentypen zu speichern, und gleichzeitig die Struktur und Governance eines Data Warehouses, um die Daten für die Analyse zugänglich zu machen.
Berit: Weil die Daten und deren Nutzen in den Unternehmen so unterschiedlich sind, gibt es keine Schablone. Wir gehen individuell in die Unternehmen hinein. Schauen uns die Daten an und die Probleme, die damit gelöst werden sollen, und entscheiden dann gemeinsam mit dem Kunden, welche Architektur am Ende die beste ist, um die Daten nutzbar zu machen.
Berit: Daten sind die Grundlage von KI, das ist allgemein bekannt. Spricht man mit Data Scientists, die KI-Modelle bauen, hört man immer wieder, dass ein großer Teil der Zeit – und damit auch des Budgets – für die Datenbereinigung aufgewendet werden muss. KI-Modelle funktionieren nur gut, wenn die Daten gut sind. Hier kann eine Datenplattform unverzichtbar sein.
Berit: Eine Datenplattform ist die Grundlage für gute Modelle. Wenn ich bereits erste Qualitätskontrollen in meine Datenplattform integriert habe, wirkt sich das direkt auf die Qualität der KI in meinem Unternehmen aus. Das spart später Zeit für die Data Scientists und ihre eigentliche Arbeit. Zudem schaffen gute Daten auch Vertrauen.
Berit: Vertrauen bildet das Fundament. Eine stets verfügbare Datenplattform, die Daten von hoher Qualität und Aktualität bereitstellt und gewährleistet, dass diese zuverlässig geladen werden können, stärkt unser Vertrauen in die Modelle. Datenplattformen fungieren als die "Single Source of Truth", die einzige Quelle, aus der Entscheidungen getroffen und Eingaben für KI-Modelle abgeleitet werden. Daher ist es von entscheidender Bedeutung, dass sie einwandfrei funktionieren. Es ist unerlässlich, eine robuste und zuverlässige Datenplattform zu entwickeln.
Berit: Für einfache Prüfungen, wie das Herausfiltern von 0-Werten, kann man sehr gut auf Automatisierung setzen. Schwieriger wird es, wenn die Daten einen Kontext haben. Oder wenn man Zusammenhänge herstellen muss. Wir mussten neulich den Zusammenhang zwischen Außentemperatur und Energieerzeugung herstellen. Dazu braucht man Hintergrundwissen. Da hilft eine gute Datenplattform, ein gutes Datenmanagement und eine gute Visualisierung. Übrigens wird auch immer mehr KI eingesetzt, um die Datenqualität zu prüfen.
Exxeta kreiert digitales Datenprodukt zur Messung der CO2-Emissionen des Deutschen Alpenvereins e.V. (DAV)
Mehr lesen Datenerhebung meets effiziente Emissionsbilanz
Viele Unternehmen leiden bei der Implementierung von GenAI unter Pilotitis. Welche Bedeutung die eigenen Daten im Vorfeld haben, erklärt Boyan Angelov.
Mehr lesen GenAI ist sehr spannend – Zeit für mehr Langeweile!
Neue regulatorische Anforderungen erhöhen die Aufwände zur Prüfung & Anpassung von Bestandsverträgen. KI kann das Vertragsmanagement effizienter gestalten.
Mehr lesen KI im Vertragsmanagement: Einfach effizienter prüfen
Get in Touch
Berit Frech
Engineer
+49 173 2350406
Danke für deine Mail. Wir melden uns asap!