Ein einfacher menschlicher Fehler, ein kleines Versehen - schon können Compliance-Richtlinien des Unternehmens verletzt und vertrauenswürdige Daten unerwünschtem Zugriff ausgesetzt sein. Um dies zu vermeiden, können neben Gesichtspunkten der Governance, ordnungsgemäße Datenklassifizierungsrichtlinien und kohärente Datenlebenszyklen für mehr Sicherheit sorgen. Sie sind auch ein guter Weg, um zu beweisen, dass ein Unternehmen Compliance-Standards wie GDPR einhält, um Vertrauen und Integrität zu fördern.
Kategorien und Risikogattungen
Der erste Schritt einer Klassifizierung ist das Einteilen der Daten anhand von Typ, Inhalt und anderen Metainformationen in Kategorien. Diese Kategorien dienen anschließend dazu, das richtige Maß an Kontrollen für die Vertraulichkeit, Integrität und Verfügbarkeit zu bestimmen. Maßgebend dabei sind die wahrscheinlichen Folgen einer Datenkompromittierung für die Organisation. Oder mit anderen Worten: Wie wirken sich Verlust oder der Missbrauch der Daten auf das Vertrauen von Kunden, Partnern und Mitarbeitern oder allgemein den Ruf des Unternehmens aus?
Lesetipp: Die meisten Anwender wollen Daten nicht teilen
Der Einfachheit halber können Unternehmen für die Klassifizierung von Unternehmensdaten drei Stufen verwenden: hohes, mittleres und geringes/kein Risiko.
Vertrauliche Daten unterliegen dabei einem hohen Risiko. Bei nicht ordnungsgemäßer Kontrolle der Organisation können sie dem Unternehmen größten Schaden zufügen, sobald sie kompromittiert werden. Beispiele für vertrauliche Daten sind Finanzinformationen, IP-Adressen oder Authentifizierungsdaten.
Sensible Daten sind nur für den internen Gebrauch bestimmt und stellen ein mittleres Risiko dar. Werden sie offengelegt, sind die Folgen zwar nicht katastrophal, aber auch nicht wünschenswert. Zu Daten in der Kategorie mittleres Risiko gehören beispielsweise Strategiedokumente, anonyme Beschäftigtendaten oder Jahresabschlüsse.
Öffentliche Daten wie Kontaktinformationen, Stellenausschreibungen oder Blogbeiträge schließlich bedeuten kein oder nur geringes Risiko. Sie erfordern folglich keine Sicherheits- oder Zugangsmaßnahmen.
Ein hohes Risiko lässt sich zudem weiter in die Level "persönlich" „vertraulich“ und „firmenvertraulich“ unterteilen und Daten mit mittlerem Risiko sollten mit der Kategorie "intern" versehen werden.
ISO, NIST und AWS als Rahmenwerke
Da ein dreistufiges Konzept nicht für jedes Unternehmen geeignet ist, sollte das Hauptziel der Datenklassifizierung darin bestehen, die sensitiven Daten zu identifizieren und Prozesse, Labels und Berechtigungen so anzupassen, wie es der konkrete Anwendungsfall verlangt. Behörden oder öffentliche Einrichtungen mit sensiblen Daten können beispielsweise mehrere Datenklassifizierungsstufen verwenden, während für kleinere Unternehmen zwei oder drei Stufen ausreichen dürften.
Richtlinien und Empfehlungen für die Datenklassifizierung findet man bei Normungsorganisationen wie der International Standards Organization (ISO 27001) und dem National Institute of Standards and Technology (NIST SP 800-53).
Neben Standards und Empfehlungen sollte auch der Prozess der Datenklassifizierung selbst greifbar sein. Amazon Web Services beispielsweise bietet einen fünfstufigen Rahmen für die Entwicklung von Richtlinien und folgt damit einem bewährten Verfahren zur Datenklassifizierung:
Erstellung eines Datenkatalogs für verschiedene Datentypen,
Bewertung der geschäftskritischen Funktionen und Durchführung einer Folgenabschätzung,
Kennzeichnung von Informationen,
Umgang mit Assets und
Kontinuierliche Überwachung.
Die Datentypen des Katalogs sind auf Grundlage der unternehmenseigenen Klassifizierungsstufen zunächst zu gruppieren, wobei sich die Sicherheitsstufen nach ihrer Kritikalität für das Unternehmen bemessen. Jeder Datentyp sollte nach seinen Auswirkungen bewertet werden.
Eine Kennzeichnung der Daten empfiehlt sich hinsichtlich der Qualitätssicherung. AWS verwendet für die Datenkennzeichnung Dienste wie
Amazon SageMaker, ein Tool zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen in AWS und
AWS Glue, ein ereignisgesteuerter ETL-Dienst zum Identifizieren und Kategorisieren von Daten.
Nach ihrer Kennzeichnung werden die Datensätze entsprechend ihrer Sicherheitsstufe behandelt. An dieser Stelle sollten mithilfe von Identity Access Management spezifische Sicherheits- und Zugriffskontrollen eingerichtet werden, die regeln, wer welche Daten sehen und bearbeiten darf.
Automatisch klassifizieren
In der weiteren Folge sollten eine kontinuierliche Überwachung, die Identifizierung externer Bedrohungen und das Aufrechterhalten normaler Funktionen und Prozesse, die auf Daten beruhen, automatisiert ablaufen. Denn die Datenklassifizierung ist komplex und erfordert viel Aufwand.
Die Automatisierung hilft, den Prozess zu kontrollieren und das Risiko menschlicher Fehler und Verletzung risikobehafteter Daten zu verringern. AWS verwendet dazu das mit Machine Learning arbeitende Tool Amazon Macie. Es erkennt, klassifiziert und schützt vertrauliche und sensible Daten in AWS. Über Dashboards lassen sich Daten visuell darstellen, Zugriff darauf erlangen und Warnmeldungen anzeigen.
Nach der Auswahl der S3-Buckets, die für Macie aktivieren werden sollen, lassen sich verschiedene Optionen aktivieren. Neben der Häufigkeit der Objektprüfungen und dem Filtern von Objekten nach Tags steht auch eine benutzerdefinierte Datenkennung zur Verfügung. Dabei handelt es sich um eine Reihe von Kriterien zur Erkennung sensibler Daten. Um Daten für Analysezwecke auszuwählen, lassen sich reguläre Ausdrücke, Schlüsselwörter und eine maximale Übereinstimmungsdistanz definieren.
Gleichwohl ist Macie nur eines von vielen Tools, um Datenklassifizierung zu automatisieren. Eine einfache Google-Suche ergibt Dutzende von alternativen Angeboten für Unternehmen aller Größenordnungen. Das zeigt: Datenklassifizierung wird fast überall benötigt und ihr geschäftlicher Nutzen ist allgemein anerkannt. (bw)