de flag +1 214 306 68 37

Big Data: "Highway to Hell" oder "Stairway to Heaven“? Untersuchen wir Big-Data-Probleme

Alex Bekker

Alex Bekker

Alex Bekker

Alex Bekker

Alex Bekker ist Leiter der Abteilung Data Analytics in ScienceSoft, einem Unternehmen für IT-Beratung und Softwareentwicklung. Alex hat mehrere Projekte in den Bereichen wie Business Intelligence, Big Data, Data Analytics geleitet und auch den Unternehmen geholfen, die Vorteile von Data Science und maschinellem Lernen zu nutzen. Zu seinen größten Projekten gehören: Big-Data-Analyse für die Musterendeckung in der Mediennutzung in mehr als 10 Ländern; die Analyse von Eigenmarken-Produkten für mehr als 18.500 Produzenten, BI für 200 Gesundheitszentren.

Veröffentlicht:

Big Data bringt nicht nur vielfältige Herausforderungen, sondern auch ernsthafte Probleme mit. Und hier wird der Unterschied dazwischen erklärt.

Wenn Sie in ein Geschäft gehen und eine riesige Pfütze auf Ihrem Weg erscheint, können Sie versuchen, daran vorbeizugehen oder darüber zu springen. Wenn die Pfütze zu groß ist, können Sie jemanden um Hilfe bitten (wenden sich an das „Beratungsteam für Pfützen"). Dann können Experten die Pfütze entleeren. Das ist eine Herausforderung: ein Hindernis auf Ihrem Weg, das relativ einfach überwunden werden kann.

Aber später stellen Sie fest, dass Sie auf dem Weg zum Geschäft durch einen gefährlichen Bezirk gehen müssen. Und es würde zu lang dauern, um einen Umweg zu machen, weil das Geschäft schließen kann, bevor Sie ankommen. Das ist ein Problem: ein grundlegenderes Problem, das weitere Schwierigkeiten verursachen kann.

Natürlich können diese wegbezogenen Probleme nicht mit Big-Data-Problemen verglichen werden, aber das Konzept ist immer noch dasselbe: Herausforderungen sind oberflächlich, während Probleme tiefer liegen. In diesem Artikel haben wir bereits erläutert, mit welchen Herausforderungen von Big Data Sie konfrontiert werden können. Aber welche Probleme gibt es? Scrollen Sie nach unten, um zu erfahren.

Big-Data-Probleme

Problem Nr. 1 – Big Data Analytics ist unvollkommen

Obwohl Datenwissenschaftler überall ihr Bestes versuchen, um die Datenqualität zu verbessern und analytische Algorithmen robuster zu machen (immun gegen datenbezogene Probleme), ist Big Data Analytics nicht perfekt. Es ist derzeit einfach nicht möglich, einige der Probleme zu lösen, die mit der Zuverlässigkeit Ihrer Daten zusammenhängen.

Mehr ≠ besser

Ähnlich wie bei starkem Schneefall häufen sich Daten mit hoher Geschwindigkeit und in gigantischem Umfang an. Man könnte denken, dass es gut ist: mehr Daten bedeuten mehr verlässliche Einsichten. In Wirklichkeit bedeuten riesige Datenmengen nicht unbedingt riesige Mengen an praktisch umsetzbaren Erkenntnissen. Manchmal stellen die Daten, die Sie haben – ungeachtet aller enthaltenen Informationen, statistisch einfach keine repräsentative Datenauswahl dar, die Sie analysieren müssen. Zum Beispiel Meinungen auf Twitter vs. Meinungen der Bevölkerung im Großen und Ganzen. Ganz zu schweigen von Vorurteilen des ersteren, enthält es nicht einmal die Ansichten der gesamten Bevölkerung (zum Beispiel werden die älteren und introvertierten Menschen oft ausgeschlossen). Auf diese Weise können Sie leicht falsche Analyseergebnisse erhalten.

Außerdem wird es bei solchen "starken Schneefällen" immer anspruchsvoller, das zu finden, was Sie eigentlich brauchen, und die Daten zu entfernen, die überhaupt keinen Nutzen haben.

Seltsame Korrelationen

Wir alle wissen, dass Big Data gut darin ist, Korrelationen zu finden. Wenn es irgendwelche gibt, werden alle gefunden. Aber die Sache ist, dass die Zusammenhänge, die Big Data findet, sind manchmal überhaupt nicht sinnvoll. Angenommen, die Gesamtzahl der Lieder von AC/DC, die in den USA im Laufe des Jahres gekauft wurden, sank, ebenso wie die US-amerikanische Kriminalitätsrate. Würde es bedeuten, dass die Musik von AC/DC Leute dazu bringt, das Gesetz zu brechen? Nein. Aber Big Data würde Ihnen diese Korrelation trotzdem zeigen. Und so können Sie viel Zeit verschwenden und manuell nach wirklich sinnvollen Korrelationen im Meer von seltsamen suchen.

Endlose Kreisläufe

Wenn ein Text maschinell übersetzt wird, beispielsweise von Urdu in Japanisch, besteht eine große Chance, dass das Ergebnis an einigen Stellen zumindest ein wenig ungenau ist. Aber wenn solch ein Text dann in Ruhe gelassen wird, ist es nicht so schlimm. Es ist viel schlimmer, wenn eine solche ungenaue Übersetzung von einem anderen Big-Data-Algorithmus als "Quelle der Wahrheit" verwendet wird. Die Ergebnisse von Big Data Analytics können bei weitem nicht angemessen sein, wenn ein Big-Data-Tool als Rohdaten die Portionen von Informationen verwendet, die von einem anderen Big-Data-Algorithmus generiert wurden. Und je mehr Kreise es gibt, desto schlimmer ist das Ergebnis.

Schlaue Benutzer

Big-Data-Algorithmen basieren oft auf spezifischen Markern, die an den analysierten Gegenstand „angehängt“ sind. Und dadurch können Big-Data-Analyseergebnisse "verfälscht" werden. Sobald jemand herausfindet, welche Marker das Ergebnis beeinflussen, können sie die analysierten Gegenstände so anpassen, dass sie den Anforderungen der Marker entsprechen. Die beste Illustration hier wären schlaue Studenten und ihre Bemühungen, das Software zur Bewertung von Aufsätzen zu betrügen.

Das „Seltene“ und „Subjektive“

Nicht alles kann von Natur aus analysiert werden, indem man nur die Zahlen berechnet. Je subjektiver oder seltener der analysierte Gegenstand ist, desto größer ist die Möglichkeit für unangemessene Ergebnisse. Betrachten wir als Beispiel eine "seltene" Sache: wie Google ein Gedicht übersetzen kann. Die Antwort wäre: "Sehr schlecht." Teilweise, weil Dichter dazu neigen, erlesene und ausdrucksvolle Phrasen zu verwenden, die Google noch nie gesehen hat. Aber es bedeutet nicht, dass diese Sätze falsch sind oder durch Synonyme ersetzt werden können, oder?

Und jetzt kommt das Beispiel für eine "subjektive" Sache: wir wollen versuchen, ein Big-Data-Analytics-Tool zu fragen, welche Dichter in der Geschichte am einflussreichsten sind. Es gibt verschiedene Möglichkeiten hier, eine Antwort zu erhalten, aber die Chancen stehen gut, dass es nicht zu präzise ist. Und es ist verständlich: Eine solche Frage ist trotz vieler offensichtlich objektiver Faktoren zutiefst subjektiv.

Problem Nr. 2 – Übereilter technologischer Fortschritt 

Unsicherheit aus technischer Sicht

Soweit wir sehen können, gibt es keine Faktoren, die den technologischen Fortschritt von Big Data einschränken könnten. Es wird sich weiter entwickeln und vielleicht sogar mit einer höheren Geschwindigkeit, und genau das ist das Problem. In solch einem Tempo ist es schwer vorauszusehen, ob es effizient sein wird, Ihre zukünftigen Herausforderungen mit der Technologie zu lösen, die Sie heute wählen müssen. Genau wie mit einem Smartphone, können Sie das „heißeste“ kaufen, aber in einem Jahr wird es alt und gar nicht interessant sein.

Immer noch unterqualifizierte Arbeitskraft

Eines der ältesten Probleme mit Big Data ist der Mangel an qualifizierten Spezialisten auf diesem Gebiet. Wie es 2014 war, so bleibt die Situation 2018. Und auch der schnelle technologische Fortschritt trägt dazu bei. Als Ergebnis müssen viele Unternehmen ihre eigenen Mitarbeiter umschulen oder mit unterqualifizierten Spezialisten von "außerhalb" zurechtkommen.

Problem Nr. 3 – Negative soziale Auswirkungen

Es ist wenig wahrscheinlich, dass Big Data so viel wie die Erscheinung von Handys die Gesellschaft beeinflussen wird, aber es verursacht immer noch alarmierende Trends, die jeden betreffen.

D wie Diskriminierung

Wie oben erwähnt, beruht die Analyse von Big Data auf bestimmten Markern von analysierten Gegenständen. Wenn die Person, die den Marker anhängt, gegen das Problem voreingenommen ist, beeinflusst das das Ergebnis. Deshalb führen voreingenommene Marker zu voreingenommenen Analysen. Und für einige Software ist es sehr störend. Wenn eine Bankkredit-Scoring-App Ihre sozialen Netzwerke analysiert und sieht, dass Sie Rap Musik mögen, können Sie wenig punkten und einen dringend benötigten Kredit nicht erhalten. Im Grunde ist das nur eine andere Möglichkeit, Menschen zu diskriminieren.

Keine Privatsphäre mehr

Angenommen, Sie gehen auf eine Reisebüro-Webseite, um zu prüfen, wie viel es kostet, für den Sommer nach Griechenland zu reisen. Dann führen Sie sich wieder irgendwelche wichtige Arbeit aus, die Sie getan haben. Und während Sie im Internet nach arbeitsbezogenen Informationen stöbern, sehen Sie plötzlich endlose Anzeigen über Reisepakete nach Griechenland. Kommt ziemlich oft vor, nicht wahr?

Big-Data-Mechanismen werden verwendet, um Ihr Interesse an einem bestimmten Produkt oder einer bestimmten Dienstleistung zu erkennen und dann ein individuelles Angebot zur Steigerung des Umsatzes zu machen. Und solange solche gezielten Angebote relevant sind und nicht in Ihren persönlichen Webspace eindringen, ist es in Ordnung.

Aber wenn Sie anfangen, darüber nachzudenken, wie viele unbekannte Menschen wissen jetzt, dass Sie diesen Sommer in Griechenland verbringen werden? Und während dieses Beispiel eher harmlos ist, was passiert, wenn Ihr aktueller Standort in die falschen Hände gerät?

Momentan bleiben diese Fragen unbeantwortet. Die Regierungen in den USA und Europa versuchen, dagegen anzukämpfen, aber die unkontrollierte Nutzung unserer persönlichen Informationen lässt immer noch wenig - wenn überhaupt - Raum für Privatsphäre im Internet.

Seien Sie aber nicht deprimiert

Trotz all der Big-Data-Probleme sollten Sie nicht nervös werden und nicht versuchen, so viel wie möglich Big-Data-Projekte zu vermeiden. Ja, es ist bisher noch nicht möglich, für alle Probleme (unvollkommene Big-Data-Analyse, Verletzung der Privatsphäre, übereilte technologische Fortschritte) gleichzeitig eine Lösung zu finden. Aber mithilfe von erfahrenen Big-Data-Beratungsexperten ist es mehr als möglich, bestimmte Workarounds zu finden und sie umzusetzen. Auf diese Weise werden Big-Data-Probleme nur irgendwo im Hintergrund stehen, während Ihr Unternehmen gedeiht und die Treppe zum Himmel (auf der Erde) hinaufsteigt.

Big Data ist der nächste Schritt zu Ihrem Erfolg. Wir helfen Ihnen, den richtigen Ansatz zu finden und volles Potenzial von Big Data zu entfalten.