de flag +1 214 306 68 37

Schmutzig, sauber oder "sauber genug": Wie hoch ist die Qualität von Ihrem Big Data?

Alex Bekker

Alex Bekker

Alex Bekker

Alex Bekker

Alex Bekker ist Leiter der Abteilung Data Analytics in ScienceSoft, einem Unternehmen für IT-Beratung und Softwareentwicklung. Alex hat mehrere Projekte in den Bereichen wie Business Intelligence, Big Data, Data Analytics geleitet und auch den Unternehmen geholfen, die Vorteile von Data Science und maschinellem Lernen zu nutzen. Zu seinen größten Projekten gehören: Big-Data-Analyse für die Musterendeckung in der Mediennutzung in mehr als 10 Ländern; die Analyse von Eigenmarken-Produkten für mehr als 18.500 Produzenten, BI für 200 Gesundheitszentren.

Veröffentlicht:

Wenn Sie denken, dass Sie mit großen Datenmengen einen Zauber wirken und Ihr Geschäft leicht ankurbeln können, ziehen Sie dann Ihren Zaubermantel aus und werfen Sie Ihren Zauberstab weg, weil große Datenmengen keine Zauberei sind. Aber wenn Sie die Ärmel hochkrempeln und Ihre Daten bereinigen, kann das Ihnen helfen, hervorragende Geschäftsergebnisse zu erzielen.

Big Data wirkt echt beeindruckend, ist aber nicht ganz perfekt. Es gibt mehrere Herausforderungen, und die Datenqualität ist eine davon. Viele Unternehmen erkennen diese Probleme und wenden sich an die Spezialisten für Big-Data-Beratung, um sie zu lösen. Aber warum befassen sie sich eigentlich damit, wenn Big Data nie hundertprozentig genau ist? Und wie gut ist die gute Qualität von Big Data? Das werden Sie bald herausfinden.

Big Data Qualität

Was passiert, wenn Sie Big Data von schlechter Qualität nutzen?

Big Data von relativ geringer Qualität kann sich entweder äußerst gefährlich oder nicht so ernst auswirken. Hier nun ein Beispiel. Wenn Ihre Big Data Tools die Kundenaktivitäten auf Ihrer Website analysieren, möchten Sie natürlich den tatsächlichen Stand der Dinge kennen. Und das können Sie machen. Das wäre jedoch nicht notwendig, 100% genaue Datensätze über Besucheraktivitäten zu speichern, um das Gesamtbild zu sehen. Tatsächlich wäre es nicht einmal möglich.

Wenn aber Ihr Big Data Analytics Echtzeitdaten beispielsweise auf den Herzmonitoren in einem Krankenhaus überwacht, kann eine Fehlerquote von 3% bedeuten, dass Sie jemandes Leben nicht retten konnten.

Das heißt, es kommt darauf an, was für eine Firma und auch manchmal, was für eine Aufgabe, vorhanden sind . Und das bedeutet, dass Sie für einen Augenblick anhalten müssen, bevor Sie sich beeilen, Ihre Daten höchstmöglich präzise zu machen. Zuerst sollten Sie Qualitätsanforderungen an Big Data analysieren und dann feststellen, wie gut Ihre Big-Data-Qualität sein sollte.

Was heißt eine gute Datenqualität?

Um schlechte oder schmutzige von guten oder sauberen Daten zu unterscheiden, benötigen wir eine Reihe von Kriterien, auf die wir uns berufen können. Sie sollten jedoch darauf achten, dass dies die Datenqualität im Allgemeinen angeht, nicht nur in Verbindung mit Big Data.

5 Datenqualitätskriterien

Man kann mehrere Datenqulitätskriterien anwenden, aber wir haben 5 wichtigste ausgewählt, die sicherstellen sollten, dass Ihre Daten sauber sind.

  1. Consistency (Konsistenz) - logische Beziehungen
    In korrelierten Datensätzen sollte es keine Inkonsistenzen wie Duplikationen, Widersprüche, Lücken geben. Zum Beispiel: es muss unmöglich sein, zwei identische IDs für zwei verschiedene Mitarbeiter zu haben oder auf einen in einer anderen Tabelle nicht existierenden Eintrag zu verweisen.
  2. Accuracy  (Genauigkeit) - der wahre Stand der Dinge
    Die Daten sollen präzise und kontinuierlich sein und wiederspiegeln, wie die Dinge wirklich sind. Alle auf solchen Daten basierenden Berechnungen zeigen das wahre Ergebnis.
  3. Completeness (Vollständigkeit) - alle notwendigen Elemente
    Ihre Daten bestehen wahrscheinlich aus mehreren Elementen. In diesem Fall müssen Sie alle voneinander abhängigen Elemente haben, um zu garantieren, dass die Daten auf die richtige Art und Weise interpretiert werden können. Beispiel: Sie haben viele Sensordaten, aber es gibt keine Informationen über die genauen Sensorpositionen. Auf diese Weise ist es für Sie unmöglich, wirklich zu verstehen, wie sich Ihre Betriebsausrüstung „benimmt“ und wie dieses Verhalten beeinflusst wird.
  4. Auditability (Überprüfbarkeit) - Wartung und Kontrolle
    Die Daten selbst und der Datenmanagement-Prozess insgesamt sollten so organisiert sein, dass Sie regelmäßig oder nach Bedarf Datenqualitätsaudits durchführen können. Dies wird dazu sicher beitragen, die Adäquanz der Daten auf ein höheres Niveau zu bringen.
  5. Orderliness (Ordnung) - Struktur und Format
    Die Daten sollten in eine bestimmte Reihenfolge angeordnet werden. Alle Ihre Anforderungen hinsichtlich des Datenformats, ihrer Struktur, der Palette von entsprechenden Werten, spezifischen Geschäftsregeln usw. müssen erfüllt werden. Zum Beispiel: die Temperatur im Ofen muss in Fahrenheit gemessen werden und kann -14 ° F nicht sein.

* Wenn Sie Schwierigkeiten haben, die Kriterien im Gedächtnis zu behalten, kann Ihnen ein Prinzip hilfreich sein: Die ersten Buchstaben zusammen bilden das Wort "Сaсao"(Kakaobaum).

Wodurch unterscheidet sich die Datenqualität von Big Data?

Im Grunde genommen ist Folgendes im Fall mit Big Data zu beachten: Nicht alle diese Kriterien gelten für Big Data, und nicht alle davon sind zu 100% erreichbar.

Das Problem mit Konsistenz besteht darin, dass die spezifischen Merkmale von Big Data überhaupt "Rauschen" zulassen. Die große Menge und die Struktur von Big Data machen es schwierig, sie alle zu löschen. Manchmal ist es sogar unnötig. In einigen Fällen müssen jedoch logische Beziehungen in Ihrem Big Data vorhanden sein. Zum Beispiel: wenn das Big Data Tool einer Bank potenzielle Betrugsfälle erkennt (z.B., dass Ihre Karte in Kambodscha verwendet wurde, während Sie in Arizona leben). Das Big Data Tool überwacht Ihre sozialen Netzwerke. Und es kann prüfen, ob Sie in Kambodscha Urlaub machen. Mit anderen Worten, es verbindet Informationen über Sie aus verschiedenen Datensätzen und benötigt daher ein gewisses Maß an Konsistenz (eine genaue Verbindung zwischen Ihrem Bankkonto und Ihren sozialen Network Accounts).

Aber während Meinungen zu einem bestimmten Produkt in sozialen Netzwerken gesammelt werden, sind Doppelungen und Widersprüche akzeptabel. Manche Leute haben mehrere Konten und verwenden sie zu unterschiedlichen Zeiten. Im ersten Fall sagen sie, dass sie das Produkt mögen und im zweiten - dass sie es hassen. Warum ist es in Ordnung? Weil das die Ergebnisse Ihrer Big-Data-Analyse in großem Umfang nicht beeinträchtigt.

Was die Genauigkeit anbelangt, haben wir bereits in dem Artikel erwähnt, dass das Niveau von Aufgabe zu Aufgabe variiert. Stellen Sie sich eine Situation vor: Sie müssen die Informationen des vergangenen Monats analysieren, und die Daten für 2 Tage verschwinden. Ohne diese Daten können Sie keine genauen Zahlen berechnen. Und wenn wir über Nachrichten in einer TV-Werbung sprechen, ist das nicht so kritisch: Wir können immer noch monatliche Durchschnittswerte und Trends ohne sie berechnen. Aber wenn die Situation ernster ist und anspruchsvolle Berechnungen oder gründlich detaillierte historische Datensätze benötigt werden (wie im Fall mit dem Herzmonitor), können ungenaue Daten zu falschen Entscheidungen und noch mehren Fehlern führen.

Vollständigkeit ist auch kein Grund, sich zu viele Sorgen zu machen, weil Big Data natürlich viele Lücken aufweist. Aber es ist ok. Wie im Fall mit den verschwundenen Daten für 2 Tage können wir immer noch ausreichende Analyseergebnisse wegen der großen Menge von anderen ähnlichen Daten haben. Das Gesamtbild wird auch ohne diesen schäbigen Teil noch adäquat aussehen.

Was die Überprüfbarkeit betrifft, bietet Big Data mehrere Möglichkeiten dafür. Wenn Sie die Qualität von Ihrem Big Data überprüfen möchten, können Sie das machen. Auch wenn Ihr Unternehmen dafür Zeit und Ressourcen braucht. Zum Beispiel, um Skripte zu erstellen, die die Datenqualität überprüfen werden, und diese Skripte auszuführen, was aufgrund der großen Datenmengen teuer sein kann.

Und jetzt zum Kriterium Ordnung. Sie sollten für ein gewisses Maß an "kontrollierbarem Chaos" in Ihren Daten bereit sein. Zum Beispiel: Data Lakes achten normalerweise nicht so viel auf die Datenstruktur und den geeigneten Wert. Sie speichern nur, was sie bekommen. Bevor die Daten jedoch in Big Data Warehouses geladen werden, wird in der Regel ein Bereinigungsprozess durchgeführt, der teilweise die Ordnungsmäßigkeit Ihrer Daten gewährleisten kann. Aber nur teilweise.

Werden Sie "schmutzig" stehenbleiben oder "sauber" weitergehen?

Wie Sie sehen, ist keines dieser großen Kriterien für die Datenqualität streng oder für alle Fälle geeignet. Und die Anpassung Ihrer Big-Data-Lösung, um all diese Anforderungen in vollem Umfang zu erfüllen:

  • kostet viel.
  • braucht viel Zeit.
  • reduziert die Leistungsfähigkeit Ihres Systems
  • ist völlig unmöglich.

Das ist der Grund, warum einige Unternehmen weder den sauberen Daten nachjagen, noch sie mit den schmutzigen Daten bleiben. Sie nutzen Daten, die gut genug“ sind. Das bedeutet, dass sie einen minimalen zufriedenstellenden Schwellenwert festlegen, der ihnen ausreichende Analyseergebnisse liefert. Und dann sorgen sie dafür, dass ihre Datenqualität immer darüber liegt.

Wie kann die Qualität von Big Data verbessert werden?

Es gibt drei Faustregeln, die Sie befolgen sollten, wenn Sie sich für die Qualitätspolitik bei Ihrem Big Data entscheiden und weitere Verfahren des Datenqualitätsmanagements durchführen:

Regel 1: Seien Sie vorsichtig mit Datenquellen. Sie sollen eine bestimmte Hierarchie von zuverlässigen Datenquellen haben, weil nicht alle von ihnen gleichwertige Informationen enthalten. Die Daten aus offenen oder relativ unzuverlässigen Quellen sollten immer bestätigt werden. Das soziale Netzwerk gilt als gutes Beispiel für eine solche fragwürdige Datenquelle:

  • Es kann unmöglich sein, die Zeit zurückzuverfolgen, wenn ein bestimmtes Ereignis in den sozialen Medien passiert ist.
  • Sie können nicht mit Sicherheit sagen, woher die genannten Informationen herkommen.
  • Oder es kann für Algorithmen schwierig sein, Emotionen zu erkennen, die in Nutzerbeiträgen vermittelt werden.

Regel 2: Organisieren Sie eine sachgerechte Speicherung und Transformation. Ihre Data Lakes und Data Warehouses müssen gepflegt werden, wenn Sie eine gute Datenqualität erreichen möchten. Und ein ziemlich "starkes" Tool der Datenbereinigung muss vorhanden sein, während Ihre Daten von einem Data Lake in ein Big Data Warehouse übertragen werden. Außerdem müssen Ihre Daten zu diesem Zeitpunkt mit allen anderen erforderlichen Datensätzen abgeglichen werden, um ein gewisses Maß an Konsistenz zu erreichen (falls es überhaupt erforderlich ist).

Regel 3: Führen Sie regelmäßige Audits durch. Das haben wir bereits behandelt, aber dieses Thema verdient eine besondere Aufmerksamkeit. Datenqualitätsaudits sind ebenso wie Audits Ihrer Big-Data-Lösung ein wesentlicher Bestandteil des Wartungsprozesses.  Vielleicht brauchen Sie sowie manuelle als auch automatische Audits. Beispielsweise können Sie Ihre Datenqualitätsprobleme analysieren und Skripts schreiben, die regelmäßig ausgeführt werden und Ihre Datenqualitätsprobleme untersuchen.

Haben Sie es mitbekommen?

Die Datenqualitätsprobleme gelten als komplexes Problem im Big-Data-Bereich. Hier ist eine Zusammenfassung, um die wichtigsten Punkte wiederzuholen:

F: Was passiert, wenn Sie Big Data von schlechter Qualität verwenden?

A: Das hängt von Ihren Domain und Aufgabe ab. Das kann Sie nur geringfügig beeinflussen, wenn Sie keine hohe Genauigkeit benötigen, aber das kann auch sehr gefährlich sein, wenn Ihr System extrem genaue Daten braucht.

F: Was heißt eine gute Datenqualität?

A: Es gibt 5 "Cacao" - Kriterien für die Big-Data-Qualität. Aber sie sind nicht für alle geeignet. Jedes Unternehmen muss entscheiden, welches Niveau jedes einzelne Kriterium (insgesamt und für bestimmte Aufgaben) benötigt.

F: Wie kann man die Qualität von Big Data verbessern?

A: Seien Sie vorsichtig bei Datenquellen, organisieren Sie die eine sachgerechte Speicherung und Transformation und führen Sie Datenqualitätsaudits durch.

Big Data ist der nächste Schritt zu Ihrem Erfolg. Wir helfen Ihnen, den richtigen Ansatz zu finden und volles Potenzial von Big Data zu entfalten.