Zum Inhalt springen
Berit Frech im office

Datenplattformen im Unternehmen: Der Ursprung der Intelligenz

Wer Künstliche Intelligenz einsetzen will, braucht Daten – und die dafür geeignete Datenplattform. Doch wie setzt man eine solche Plattform auf, wie strukturiert man sie, und warum ist eine gut organisierte Datenbasis für den Erfolg von KI-Projekten so entscheidend? Berit Frech, Data Engineer bei Exxeta in Berlin, gibt Einblicke in die Herausforderungen und die besten Praktiken bei der Datenorganisation.

Berit, was ist eigentlich eine Datenplattform?

Berit: Eine Datenplattform ist eine zentrale Sammelstelle, in der alle Informationen und Daten, die in einem Unternehmen anfallen, zusammenlaufen und zentral verwaltet werden. Und damit sind wir auch schon bei der großen Herausforderung: In einem Unternehmen kommen viele unterschiedliche Daten zusammen. Sie unterscheiden sich in der Qualität, in der Art und Weise, in der Herkunft. Und natürlich auch in der späteren Verwendung.

Birgt eine solche Zentralität nicht auch Gefahren?

Berit: Ganz im Gegenteil! Stellen wir uns vor, ein Unternehmen hat unzählige Datenquellen und Daten Hubs – jede hat ihre eigene Wahrheit. Es fehlt der Überblick darüber, welche Daten überhaupt existieren und welche Qualität sie haben. Das ist keine Basis, um richtige Entscheidungen zu treffen. Eine Datenplattform schafft vor allem Transparenz, weil klar wird, wo die Daten liegen, auf die man zurückgreifen kann. Je besser eine solche Plattform sortiert ist, desto besser lassen sich auch Fehler nachverfolgen und schnell beheben. Es ist wichtig, dass es so eine zentrale Stelle gibt.

Wie sieht eine solche Datenplattform aus?

Berit: Das ist sehr unterschiedlich. Es kommt auf das Unternehmen an und darauf, wie dort in der Vergangenheit mit Daten umgegangen wurde. In der Regel lassen sich Datenplattformen aber in Data Warehouses, Data Lakes oder in Mischformen einordnen. Ein treffender Vergleich ist hier eine Bibliothek: Stell dir vor, eine Bibliothek enthält Tausende von Büchern, die systematisch katalogisiert und geordnet sind nach Kategorien, Autor:innen und Titeln. Dadurch kann jede:r Benutzer:in schnell und einfach auf die benötigten Informationen zugreifen, ohne lange suchen zu müssen. Diese Form entspricht dann einem Data Warehouse.

Im Vergleich dazu wäre ein Data Lake wie ein riesiges Lagerhaus voller Bücherkisten, in denen die Bücher unsortiert liegen. Während alle Informationen im Originalzustand vorhanden sind, erfordert es erheblich mehr Zeit und Aufwand, spezifische Daten zu finden.

Das macht die Weiterverarbeitung schwierig, oder?

Berit: Nicht unbedingt. Ein Data Lake hat auch Vorteile: Es ist eine günstige Form der Historisierung von Daten. Außerdem können unterschiedliche Datentypen gesammelt werden, also auch Videos, Bilder und Social Media Posts. Es gibt bestimmte Anwendungen des maschinellen Lernens und der explorativen Analyse, die durchaus mit einem solchen Data Lake umgehen können.  Für viele – zum Teil wichtige – Anwendungsfälle wie zum Beispiel Business Analytics ist er aber zu unstrukturiert 

Was ist die Alternative?

Berit: Eine weitere Ebene wäre das Data Warehouse, die gut sortierte Bibliothek. Hier liegen Informationen schon aufbereitet vor. Wenn ich aber ein neues Format, beispielsweise Videos, aufnehmen möchte, passt es nicht unbedingt in das System rein und es muss angepasst werden.

KI-Modelle funktionieren nur gut, wenn die Daten gut sind. Hier ist eine Datenplattform unverzichtbar.
Berit Frech

Wann nutzt man Data Warehouses? 

Berit: Sie werden beispielsweise für Business Intelligence eingesetzt, um Trends zu erkennen, Berichte zu erstellen und Entscheidungen zu treffen. Überall dort, wo strukturierte Daten benötigt werden.  Es gibt aber auch Mischformen wie das Data Lakehouse, das die Vorteile beider Arten von Datenplattformen nutzt: Es bietet die Flexibilität eines Data Lakes, um verschiedene Datentypen zu speichern, und gleichzeitig die Struktur und Governance eines Data Warehouses, um die Daten für die Analyse zugänglich zu machen.

Wie implementiere ich eine Datenplattform im Unternehmen?

Berit: Weil die Daten und deren Nutzen in den Unternehmen so unterschiedlich sind, gibt es keine Schablone. Wir gehen individuell in die Unternehmen hinein. Schauen uns die Daten an und die Probleme, die damit gelöst werden sollen, und entscheiden dann gemeinsam mit dem Kunden, welche Architektur am Ende die beste ist, um die Daten nutzbar zu machen.   

Zu unserem Offering

Was hat eine Datenplattform mit KI zu tun?

Berit: Daten sind die Grundlage von KI, das ist allgemein bekannt. Spricht man mit Data Scientists, die KI-Modelle bauen, hört man immer wieder, dass ein großer Teil der Zeit – und damit auch des Budgets – für die Datenbereinigung aufgewendet werden muss. KI-Modelle funktionieren nur gut, wenn die Daten gut sind. Hier kann eine Datenplattform unverzichtbar sein.

Wie kann eine Datenplattform hier helfen?

Berit: Eine Datenplattform ist die Grundlage für gute Modelle. Wenn ich bereits erste Qualitätskontrollen in meine Datenplattform integriert habe, wirkt sich das direkt auf die Qualität der KI in meinem Unternehmen aus. Das spart später Zeit für die Data Scientists und ihre eigentliche Arbeit. Zudem schaffen gute Daten auch Vertrauen.

Gute Daten schaffen Vertrauen. Denn ihre Qualität und Verfügbarkeit beeinflusst direkt die Ergebnisse der KI-Modelle.
Berit Frech

Wie meinst du das?

Berit: Vertrauen bildet das Fundament. Eine stets verfügbare Datenplattform, die Daten von hoher Qualität und Aktualität bereitstellt und gewährleistet, dass diese zuverlässig geladen werden können, stärkt unser Vertrauen in die Modelle. Datenplattformen fungieren als die "Single Source of Truth", die einzige Quelle, aus der Entscheidungen getroffen und Eingaben für KI-Modelle abgeleitet werden. Daher ist es von entscheidender Bedeutung, dass sie einwandfrei funktionieren. Es ist unerlässlich, eine robuste und zuverlässige Datenplattform zu entwickeln.

Wie automatisiert ist dieser Qualitätscheck?

Berit: Für einfache Prüfungen, wie  das Herausfiltern von 0-Werten, kann man sehr gut auf Automatisierung setzen. Schwieriger wird es, wenn die Daten einen Kontext haben. Oder wenn man Zusammenhänge herstellen muss. Wir mussten neulich den Zusammenhang zwischen Außentemperatur und Energieerzeugung herstellen. Dazu braucht man Hintergrundwissen. Da hilft eine gute Datenplattform, ein gutes Datenmanagement und eine gute Visualisierung. Übrigens wird auch immer mehr KI eingesetzt, um die Datenqualität zu prüfen.

Entdecke neue Trends, bleibe up-to-date: Exxeta Newsletter

Spotlight


Get in Touch