Lärdomar kopplat till fallstudier
Betydelsen av kvalitetsdata inom artificiell intelligens och arbetet med databeredskap är uppenbar men ofta underskattad i teknikutvecklingen. För organisationer inom den offentliga sektorn är det en praktisk fråga att se till att data är förberedda och redo för AI-tillämpningar.
Inom ramen för Data Readiness Lab-projektet som koordineras av AI Sweden presenterar vi en samling fallstudier som undersöker frågorna om datatillgänglighet, validitet och användbarhet, utifrån erfarenheterna från fyra offentliga enheter: Strängnäs Kommun, Sveriges Kommuner och Regioner (SKR), Arbetsförmedlingen och Ekonomistyrningsverket (ESV).
De presenterade användningsfallen fokuserar på de utmaningar som härrör från språkteknologi, på engelska Natural Language Processing (NLP), och de gäller därför hanteringen av text i maskininlärningssyfte.
Du kan se en sammanfattning av lärdomarna här.
Lärdomar som berör metoder och datahantering
Text är data. Det behövs en ökad förståelse inom offentlig sektor att data inte är
synonymt med sifferdata utan att även text är data, och att textdata inte är samma sak som textdokument. Textdata behöver extraheras från dokument, som kan ha olika grad av maskinläsbarhet beroende på filformat och olika grad av användbarhet beroende på vilken metadata som texten är taggad med.
Textdokument i PDF-format har låg grad av maskinläsbarhet. Textdata behöver
extraheras från dokumentet och PDF är inte ett format som underlättar detta.
Samtidigt så är PDF ett av de absolut vanligaste formaten för publicering av
textdokument i offentlig sektor. När PDF ändå används för att lagra textdata bör det vara i tillgänglighetsanpassat format (PDF/UA) med metataggar som tydligt indikerar textens struktur och uppdelning.
NLP-tillämpningar kan inte bli bättre än den data de bygger på. Avancerade
metoder kan bara delvis och i vissa fall kompensera för brister i datakvalitet. Med rätt
data i tillräcklig kvalitet kan samma problem ofta lösas på betydligt enklare sätt
samtidigt som det möjliggör mer avancerade tillämpningar.