Lärdomar kopplat till fallstudier

Page by Förutsättningar 330d ago update
Betydelsen av kvalitetsdata inom artificiell intelligens och arbetet med databeredskap är uppenbar men ofta underskattad i teknikutvecklingen. För organisationer inom den offentliga sektorn är det en praktisk fråga att se till att data är förberedda och redo för AI-tillämpningar.

Inom ramen för Data Readiness Lab-projektet som koordineras av AI Sweden presenterar vi en samling fallstudier som undersöker frågorna om datatillgänglighet, validitet och användbarhet, utifrån erfarenheterna från fyra offentliga enheter: Strängnäs Kommun, Sveriges Kommuner och Regioner (SKR), Arbetsförmedlingen och Ekonomistyrningsverket (ESV).  

De presenterade användningsfallen fokuserar på de utmaningar som härrör från språkteknologi, på engelska Natural Language Processing (NLP), och de gäller därför hanteringen av text i maskininlärningssyfte. 

Du kan se en sammanfattning av lärdomarna här. 

Lärdomar som berör förutsättningar

Lägg tid på valet av data. Eftersom NLP-projekt arbetar med data kan valet av data för att uppnå ett specifikt projektmål vara det viktigaste i hela projektet och behöver övervägas ur flera aspekter. Om än inte uttömmande så ger Data Readiness Assessment Method en bra utgångspunkt.

Bedöm tidigt i projektet om, och hur, du kan komma åt data. Det räcker inte att
veta att data finns. Om det är ett internt system, kan du komma åt det via ett internt API? Om det är data på webben, finns det ett öppet API eller måste du skrapa data? Det sätt på vilket data är tillgängligt avgör både tidsplanen för projektet och den tid som krävs för att komma åt data.

Vi behöver låsa upp gammal data ur befintliga system och framtidssäkra ny
data. Att utveckla en kapacitet att hantera befintliga datakällor och extrahera och
behandla textdata från dem är ett första steg i god databeredskap. I ett längre
perspektiv är det viktigt att också se över och utveckla de processer där ny textdata
skapas och lagras så att framtida data är av bättre kvalitet, mer heltäckande, mer
tillgänglig, mer maskinläsbar och har mer användbar metadata.

Spårbarhet och transparens för modellen behövs om den ska användas i
offentlig verksamhet. Det är viktigt att veta vilken data modellen har tränats på. ilka
datakällor som använts och om datan har förändrats på något sätt. Man ska spara
källkoden som använts för att bygga modellen samt alla valda konfigurationer.
Det gäller vilka hyperparametrar som använts och vilket värde de hade för den
gällande modellen. Det måste också vara tydligt vilka mätvärden (metrics) som har
valts för att utvärderamodellen. Man ska närsomhelst kunna träna om modellen och
den ska ge samma resultat.

Ha realistiska förväntningar. Om din organisation är ny inom området är det viktigt
att skapa en gemensam förståelse med intressenterna om realistiska förväntningar
på omfattningen och resultatet av ett språkteknologiprojekt.

Uppdatering av projektmål är en naturlig del i explorativa projekt. Det är viktigt
att förstå, och att få förståelse hos intressenterna, att projektmål särskilt i explorativa
projekt kan behöva uppdateras flera gånger under ett projekts gång.

Sträva efter tydliga avtal. Eftersom licensavtal om system eller andra datakällor är
en verksamhet som ofta saknar tydlig reglering om vad kunden får göra med data
utöver de ordnarie användarfunktionerna, är det bra att sträva efter avtal som är
tydligare med att annan användning av kunddata också är tillåten.

Involvera fler perspektiv än det tekniska. NLP-projekt innehåller många
överväganden utöver de tekniska. Se därför till att uppmärksamma fler perspektiv, till
exempel juridiska och etiska frågor. Involvera flera kompetenser i projektet såsom
juridiskt stöd och kommunikatörer.

Samarbete över myndighetsgränser behövs. Språkteknologiska
tillämpningsmöjligheter och intressanta textdatakällor är ofta inte tydligt kopplade till
endast en offentlig aktör. Det har därför hänt, och kommer fortsätta att hända, att
olika aktörer bedriver snarlika projekt utan att vara medvetna om varandra. Detta
innebär ett ineffektivt dubbelarbete och en missad möjlighet till samverkan. Det
behövs därför bättre kommunikation inom det offentliga kring vilka språkteknologiska
projekt som drivs och planeras samt bättre styrning och ökade medel för
gemensamma projekt.

Attributes

Data, Execution