![](https://aihubtest-bucket.s3.eu-north-1.amazonaws.com/public/storage/images/11400/Malmostad_logo_RGB_600px_72dpi.jpg)
![](https://aihubtest-bucket.s3.eu-north-1.amazonaws.com/public/storage/images/11400/conversions/Malmostad_logo_RGB_600px_72dpi-preview.jpg)
Sekreteraren - ett flerhövdat verktyg för att anonymisera text
Korpus-sökningen, dvs identifiering av namn utifrån exakt stavning, utgår i grunden från en stor mängd unika namn ur det fritt tillgängliga Svensktext och sökning görs både med och utan genitiv-s. Därutöver finns möjlighet att upprätta egna register över namn, tvetydliga ord (t ex Stig, Björn, Sten…) som inte rutinmässigt ska tas bort utifrån stavning, samt maskerade ord som ska behållas (framförallt gatunamn som innehåller egennamn, t ex August Palms plats). Verktyget kan också användas för engelsk text, men med begränsad täckning i sökningen på stavning då motsvarande namnkorpus saknas.
Verktyget har tillgängliggjorts gentemot tre olika användargrupper. Det första är ett programbibliotek på Github, för användare som själva har möjlighet att koda och sätta sina skript i produktion. Det andra är ett internt Rest-API som vi satt upp med hjälp av FastAPI och som är tänkt för analytiker med möjlighet att läsa från API:er, t ex via PowerBI. Dessa kollegor kan då skicka en text till API:et tillsammans med ytterligare parametrar och få en rensad version tillbaka. Det tredje är ett internt gränssnitt, som nyttjar det ovan nämnda API:et och som riktar sig mot majoriteten av kollegor som har behov av ett dylikt verktyg.
Notera att även om rena personuppgifter gallras, så återstår så kallat utpekande uppgifter som kan möjliggöra identifiering, till exempel om en anmälare anger sitt yrke och vilken gata vederbörande bor på. Att lösa det problemet skulle kräva en annan typ av modell, men det bedöms vara av marginell betydelse i nuläget givet att datamängden är begränsad inom förvaltningen.