Sekreteraren - ett flerhövdat verktyg för att anonymisera text

Implemented created by Erik Broman Swedish
1y ago update

Fastighets- och gatukontoret får in cirka 40 tusen kundtjänstärenden om året. Vi har tillgängliggjort dessa ärenden internt via ett gränssnitt (Kibana) och ett första steg i detta arbete var att gallra ärendetexterna med avseende på personuppgifter. En del av denna modell består av Kungliga bibliotekets BERT-modell för Named Entity Recognition (NER). Det finns andra lösningar som använder NER för att identifiera personer, men i vår modell kompletteras AI-delen av korpus-sökning och reguljära uttryck. Genom att kombinera dessa tre metoder, som var och en har en hög träffsäkerhet, så minskar sannolikheten att känsliga uppgifter ska slinka igenom filtret. 

Korpus-sökningen, dvs identifiering av namn utifrån exakt stavning, utgår i grunden från en stor mängd unika namn ur det fritt tillgängliga Svensktext och sökning görs både med och utan genitiv-s. Därutöver finns möjlighet att upprätta egna register över namn, tvetydliga ord (t ex Stig, Björn, Sten…) som inte rutinmässigt ska tas bort utifrån stavning, samt maskerade ord som ska behållas (framförallt gatunamn som innehåller egennamn, t ex August Palms plats). Verktyget kan också användas för engelsk text, men med begränsad täckning i sökningen på stavning då motsvarande namnkorpus saknas. 

Verktyget har tillgängliggjorts gentemot tre olika användargrupper. Det första är ett programbibliotek på Github, för användare som själva har möjlighet att koda och sätta sina skript i produktion. Det andra är ett internt Rest-API som vi satt upp med hjälp av FastAPI och som är tänkt för analytiker med möjlighet att läsa från API:er, t ex via PowerBI. Dessa kollegor kan då skicka en text till API:et tillsammans med ytterligare parametrar och få en rensad version tillbaka. Det tredje är ett internt gränssnitt, som nyttjar det ovan nämnda API:et och som riktar sig mot majoriteten av kollegor som har behov av ett dylikt verktyg. 

Notera att även om rena personuppgifter gallras, så återstår så kallat utpekande uppgifter som kan möjliggöra identifiering, till exempel om en anmälare anger sitt yrke och vilken gata vederbörande bor på. Att lösa det problemet skulle kräva en annan typ av modell, men det bedöms vara av marginell betydelse i nuläget givet att datamängden är begränsad inom förvaltningen.

Attributes

Municipality
Operations
More Efficient
Practioner
Language
Clustering, NLP, Transformer
Textual Data