Text Broom – Keep Privacy!

Potentielle Privatsphäreverletzungen aufdecken und automatisiert sichtbarmachen

Text Broom

Text Broom ist im Rahmen eines Forschungsprojekts an der Universität Paderborn unter der Leitung von Frederik Bäumer entstanden. Unterstützt wurde die Entwicklung durch die Gesellschaft für Angewandte Linguistik e.V. und die Fakultät der Kulturwissenschaften der Universität Paderborn.

Kontext

Das moderne Web basiert auf Interaktion, Diskussion und Austausch von Informationen. Durch die fortschreitende semantische Anreicherung wird das Web auch zu einer riesigen Informationsquelle für datengesteuerte Anwendungen. Dies stellt unter Umständen ein Risiko für einzelne Benutzer dar. Da Daten immer effektiver mit bestehenden Ressourcen verknüpft werden, können selbst ungewollt (implizit) offenbarte Einzelinformationen schädliche Folgen für einzelne Nutzer haben. Obwohl Serviceprovider im Web die Pflicht und auch das Eigeninteresse haben, die Sicherheit und Privatsphäre von Benutzerdaten zu gewährleisten, gibt es Fälle, in denen Benutzerdaten missbraucht und kompromittiert oder öffentlich verfügbare Informationen geg­en dessen ursprünglichen Verfasser verwendet werden. Die bestehenden Datenschutzrichtlinien, Betreiberhinweise und (teil-)automatisierte Schutzmechanismen, welche die Privatsphäre von Personen schützen sollen, sind aber oftmals unzureichend. Es ist demnach im Interesse der Kommunizierenden, nur diejenigen Informationen in Textbeiträgen zu platzieren, die einen gewissen selbstbestimmten Grad an Anonymität wahren.

Ziel

Text Broom ist ein Tool, welches potentielle Privatsphäreverletzungen in Form expliziter als auch inhärenter Angaben in online verfügbaren Fließtexten erkennen und für Benutzer sichtbar machen kann.

Bestehende Arbeiten

Wie sich unwissentliche Informationspreisgaben in sprachlichen Ausdrücken manifestieren, wurde bisher noch unzureichend untersucht. In früheren Arbeiten konnte jedoch aufzeigt werden, dass sprachliche Formulierungen oft mehr Informationen enthalten, als es zunächst den Anschein erweckt. Um diese zu erkennen, wurden vordefinierte Muster verwendet, die nur begrenzt dem Gestaltungsfreiraum natürlicher Sprache gerecht werden und die ausschließlich eine offensichtliche (explizite) Informationspreisgabe feststellen konnten (Bäumer, et al., 2017). In diesem Kontext existieren auch weitere Vorarbeiten, wie die von Sweeney (1996), Dias et al. (2016) sowie von Kleinberg und Mozes (2017). Dabei besonders erwähnenswert ist das Tool NETANOS (Named Entity-based Text ANonymization for Open Science) von Kleinberg und Mozes (2017), das benannte Entitäten in Fließtexten erkennen und hervorheben kann. Hierbei handelt es sich stets um benannte Entitäten (z. B. Personennamen), deren wörtliche Nennung zwar eine Gefahr für die Privatsphäre der Betroffenen darstellen kann, deren Erkennung jedoch trivial im Vergleich zur Behandlung der Ausdruckskomplexität von Privatsphäreverstößen in Fließtexten ist. Denn immer noch fehlt es an Wissen über die genaue sprachliche Manifestierung und an computerlinguistischen Verfahren, die drauf zurückgreifen können. Dies ist allerdings zwingend erforderlich, um entsprechende privatsphäregefährdende Textbestandteile zu identifizieren und mit einer Erläuterung möglicher Risiken zu versehen.

Text Broom

Text Broom adaptiert die Idee von Kleinberg und Mozes (2017), die sich auf benannte Entitäten konzentrieren. Allerdings geht Text Broom darüber hinaus, indem es potentielle Privatsphäreverletzungen mit Hilfe einer maschinellen Textverarbeitungspipeline (Multi-Stage-Ansatz) erkennt, die unterschiedliche Perspektiven und Granularitätsstufen bietet. Während Bäumer et al. (2017) eine Reihe von Mustern verwenden, die eine hohe Präzision, aber geringe Trefferquote (Recall) erreichen, konzentriert sich Text Broom auf den Recall. Dies basiert auf der Annahme, dass es besser ist, einen falschen Hinweis auf eine mögliche Privatsphäreverletzung zu geben, als etwas zu übersehen. Aus diesem Grund verarbeitet die Text-Broom-Pipeline ein viel breiteres Spektrum an linguistischen Informationen, aufgeteilt in vier Phasen. Stufe I enthält eine Vorverarbeitung, die grundlegende Sprachverarbeitung wie Part-Of-Speech (POS) Tagging verwendet. Stufe II kombiniert Semantic Role Labeling, linguistische Muster und Eigennamenerkennung. Dies sind nicht-domänenspezifische Komponenten, die eine breite thematische Abdeckung ermöglichen. Im Gegensatz dazu enthält Stufe III eine domänenspezifische Informationsextraktion, eine Komponente zur Phrasenklassifizierung und die Reklassifizierung, die alle bis zu diesem Zeitpunkt gesammelten Informationen zusammenfasst und auswertet. Die letzte Stufe IV enthält Komponenten zur Visualisierung. Umgesetzt wurde Text Broom als Web-Applikation mit einer REST-API. Trainiert wurden die Modelle zur Erkennung potentiell riskanter Textpassagen auf Bewertungstexten aus der Medizindomäne. Grundsätzlich kann Text Broom jedoch auf weitere Domänen adaptiert werden.

Screenshot

Text Broom PoC

Literatur

  • Kleinberg, B., Mozes, M., van der Toolen, T., & Verschuere, B. (2018): NETANOS – Named entity-based Text Anonymization for Open Science. In: Open Science Framework, 2018.
  • Thorne, C., & Klinger, R. (2018): On the Semantic Similarity of Disease Mentions in MEDLINE and Twitter, Proceedings of the International Conference on Applications of Natural Language to Information Systems, NLDB 2018, Paris, France, 2018, pp. 324-332.
  • R. Bild, K. A. Kuhn & F. Prasser (2018). SafePub: A Truthful Data Anonymization Algorithm With Strong Privacy Guarantees. Proceedings on Privacy Enhancing Technologies, 2018(1), pp. 67-87.
  • A. Narayanan, J. Huey & E. W. Felten (2016). A precautionary approach to big data privacy. In: Data protection on the move, Springer, Dordrecht, 2016, pp. 357-385.