In Zusammenhang mit Cybersicherheit ist immer wieder die Rede von Daten – Datendiebstahl, Datenmissbrauch, Datenfluss, Datenabgriff. Doch was sind denn überhaupt diese Daten? Was fällt unter diesen Begriff, welche Formen gibt es und was macht sie so wertvoll? So banal und selbstverständlich zu beantworten diese Frage vielleicht klingt, ist es doch sinnvoll, sich mit diesem grundlegendsten Konzept der IT-Welt wenigstens einmal intensiv zu befassen. Denn nur wer versteht, welche Daten wo eine Rolle spielen und wie sie zu kategorisieren sind, der kann sie auch schützen.
Wie fast überall gibt es die einfache und die komplizierte beziehungsweise ausführliche Antwort. Die einfache besagt, dass generell alle erfassten Zahlen, Texte, Bilder, Videos und andere Dokumente oder Werte unter den Begriff Daten fallen.
Bevor die digitalen Technologien ihren Durchbruch hatten, wurden Informationen und Werte als Daten verstanden, die in Zahlen erfasst und gemessen werden konnten. Heute stehen Daten für das digitale Äquivalent eines realen Phänomens.
Nun gibt es verschiedene Möglichkeiten, Daten in Kategorien zusammenzufassen. Die simpelste ist wohl folgende Unterteilung:
• Binäre Daten: Binäre Daten sind die älteste Datenart und die einzige, die direkt von einem Computer verarbeitet werden kann. Wie der Name sagt, verwenden binäre Daten nur zwei verschiedene Zustände – 0 oder 1. Eng verwandt sind damit die booleschen Daten – sie bezeichnen etwas als wahr oder falsch.
• Numerische Daten: Bei numerischen Daten handelt es sich im Prinzip ebenfalls um binäre Daten. Denn mit diesen kann man Zahlen darstellen. Eine bestimmte Kombination aus Nullen und Einsen ergibt eine Zahl von 0 bis 9.
• Zeichen, Strings, Text: Einzelne Buchstabenzeichen lassen sich zu Wörtern (=Strings) oder ganzen Texten zusammensetzen.
• Bild und Ton: Hierunter fallen Multimedia-Daten wie Fotos, Videos oder Audio. Diese wiederum basieren auf den vorhergehenden Datentypen. Ein Bild ist zum Beispiel nichts anders als eine codierte Anordnung von numerischen Werten, die einen Farbwert je Pixel definieren.
• Andere Daten: Schließlich gibt es noch zahlreiche andere Datentypen wie Listen und Arrays, doch sie alle basieren ebenfalls auf den bereits beschriebenen Arten.
Die sieben Datenkategorien
Eine solche Einteilung ist überaus grob und wird der Komplexität und der Bandbreite kaum gerecht. Es kann als erste Übersicht dienen. Die nächste Art der Unterscheidung ist die Unterteilung in sieben Kategorien:
• Metadaten: Sie sind Daten, die andere Daten beschreiben. Beispielsweise solche, welche die Definitionen aller Tabellen und Spalten einer Datenbank enthalten.
• Referenzdaten: Referenzdaten beschreiben oder kategorisieren Geschäftsentitäten wie Länder- oder Flughafenkürzel, Währungsbezeichnungen oder andere standardisierte Codierungen.
• Unternehmensweite Strukturdaten: Diese Daten repräsentieren den Aufbau und die Organisation des Unternehmens sowie des Leistungsangebots inklusive aller Produkte, Services und Zuständigkeiten.
• Transaktionsstrukturdaten: Sie beschreiben Aufbau und Grundstruktur der Unternehmenstransaktion. Darunter fallen Kunde und Produkt, also typischerweise die an einer Transaktion beteiligten Geschäftsentitäten.
• Inventardaten: Sie geben Unternehmenswerte und deren Quantität an. Beispielsweise sind das Lagerbestände, die Kontostände oder die Anzahl der Liegenschaften einer Firma.
• Transaktionsdaten: Diese Daten werden von operativen Systemen erzeugt und beschreiben die Geschäftsaktivität eines Unternehmens. Das können etwa die Verkäufe, Schadensfälle oder Zahlungen sein.
• Auditdaten: Jene Daten werden von jeder Transaktion erzeugt. Sie protokollieren die einzelnen Schritte einer Transaktion, sodass sie im Nachhinein kontrolliert werden können. Beispiele für Auditdaten sind Datenbank- und Prozesslogs oder auch Weblogs.
Die Unterteilung in diese Arten ermöglicht es Unternehmen, gezielt mit ihrer Datenflut umzugehen und Management-Systeme einzuführen.
Strukturierte, semi-strukturierte und unstrukturierte Daten
Eine der größten Unterschiede – und eine weitere Möglichkeit, Daten zu kategorisieren –, der gemacht wird, ist der zwischen strukturierten, semi-strukturierten und unstrukturierten Daten. Hier geht es darum, wie die Daten zum einen erfasst und zum anderen wie auf sie zugegriffen wird.
Strukturierte Daten sind leicht gesagt tabellarische Daten wie Excel-Dateien und Transaktionsdaten. Sie sind strukturiert, erfasst und gepflegt.
Semi-strukturierte Daten weichen von den Standards der strukturierten Daten ab. Sie enthalten individuelle Tags und Markierungen. Ein Beispiel wäre ein Datensatz, indem Kunden und Lieferanten im gleichen Format gespeichert sind, sich aber in einzelnen Attributen unterscheiden. Ein festes Schema fehlt; immer wieder können Veränderungen vorgenommen werden. Ein klassisches Format hierfür wäre JSON.
Unstrukturierte Daten bergen ein hohes Informationspotenzial, sind aber zugleich aufwendig zu verarbeiten. Sie umfassen Daten wie Bilder, Text und Audio. Eine einfache Erfassung ist nicht möglich. Stattdessen gibt es eine Vielzahl an Parametern, die analysiert werden können. Beim Bild wären das unter anderem Auflösung, Farbgebung, Inhalt, Kameratype und vieles mehr. Unstrukturierte Daten sind auch als Big Data bekannt. Sie sind das Ziel vieler Initiativen im Bereich Data Science.
Weitere Unterscheidungen
• Transiente (flüchtige) Daten / Persistente (dauerhafte) Daten
• Eingabedaten / Ausgabedaten (zu speichernde / gespeicherte Daten)
• Analoge Daten / Digitale Daten (digital nicht vorhanden / digital vorhanden)
• Mikrodaten / Makrodaten (bsp. personenbezogen / bevölkerungsbezogen)
• Anwendungsdaten (Installationsprogramme, Programmiercode etc.)
• Neartime-Daten: Kopien aktueller Daten mit geringerer Aktualität)
• Sicherungsdaten
• Historische Daten: Datenbestand eines bestimmten Zeitpunktes
• Originäre Daten / abgeleitete Daten: Originäre Daten sind erst- und einmalig vorhandene Daten. Aus ihnen können Summen, Kopien etc. gebildet (abgeleitet) werden.
• Serielle Daten: Sie werden in einer Standard-Dateiform des Betriebssystems gespeichert. Ein Direktzugriff ist nicht möglich.
• Technische Daten: beschreiben die wesentlichen technischen Merkmale von Gegenständen und Geräten (z.B. Gewicht, Leistung Verbrauch).
• Telemedien-Nutzungsdaten: Sammlung von personenbezogenen Daten
• Telemedien-Randdaten: Sie enthalten Informationen über die Nutzung elektronischer Infrastruktur wie Telefonanschluss, E-Mail-Absender, IP-Adresse, Dauer der Kommunikation. Randdaten werden in der Regel automatisch aufgezeichnet und in Logfiles gespeichert.
• Telemedien-Verkehrsdaten: sind technische Informationen, die bei der Nutzung eines Telekommunikationsdienstes beim jeweiligen Anbieter (Provider) anfallen und von diesem erhoben, gespeichert, verarbeitet, übermittelt oder genutzt werden.
• Umweltdaten: geben Auskunft über Zustand und Entwicklung der Umwelt.
Warum sind Daten so wertvoll?
Daten erhalten ihren hohen Wert aufgrund der Informationen, die sie liefern beziehungsweise entnommen werden können. Durch gezielte Datenanalyse, künstliche Intelligenz und weitere Data-Science-Methoden lassen sich Erkenntnisse gewinnen und Vorhersagen treffen. Beispielsweise können Unternehmen aus Kundendaten erfahren, ob die Kunden zufrieden sind und auf welche Ansprache sie am besten reagieren. Die riesigen öffentlichen Textmengen ermöglichen es mittels des maschinellen Lernens neue Modelle zu entwerfen, welche selbst Texte schreiben. Bekanntestes Beispiel ist hier derzeit ChatGPT.
Daten enthalten alles Wertvolle einer Firma – Kunden- und Bankinformationen, firmeninterne Angaben, Projekte, Forschungsdaten, Messungen usw.
Über Daten werden Abläufe, Transaktionen und vieles mehr gesteuert. Aus diesem Grund sind sie nicht nur für Unternehmen wertvoll, sondern ebenfalls für Hacker, die sie zur Erpressung nutzen oder dazu, Identitäten und hohe Geldsummen zu stehlen. Daten steuern alles – wenn sie verloren gehen, kann das zum Ruin führen. Sie sind eine der wertvollsten und zugleich gefährlichsten Währungen der heutigen Zeit.