AI analys av remissvar

Inspiration owned by Region Stockholm Swedish
22d ago update

Region Stockholm har tagit fram ett AI-verktyg för att analysera remissvar som har kommit in i samband med samrådsremiss för en ny regional utvecklingsplan. Sammanlagt handlade det om +200 remissvar som bestod av omkring 1500 A4-sidor. Svaren var ofta komplicerade och omfattande.

Remissvar är en allmän handling vilket innebar att en extern lösning, där det går bra att mata in allmänna uppgifter, kunde användas. Det innehåll som behövde GDPR-granskas identifierades och sorterades bort manuellt och med ett internt AI-verktyg. Det externa AI-verktyget användes sedan för att sammanfatta och kategorisera remissvaren med hjälp av nyckelord. På så sätt kan nu handläggare lättare hitta och analysera inkomna remissvar inom deras sakområde.

Se ett seminarium här:

AI för bättre service och enklare arbetsliv – tre regionala exempel

Det huvudsakliga syftet var att undersöka möjligheten att använda en AI lösning för att bistå medarbetare i arbetet med att hitta, sammanställa och analysera inkomna remissvar.

Den huvudsakliga målgruppen var dels interna medarbetare med uppgift att analysera och sammanställa de inkomna remissvaren i en samrådsredogörelse, dels interna medarbetare med huvudsaklig uppgift att läsa och analysera inkomna remissvar inom deras kompetensområden.

Totalt inkom över 200 remissvar med skriftliga synpunkter, vilket motsvarade cirka 1 500 A4 sidor text. Detta bildade ett relativt stort underlag för analys. Ett stort hinder för systematisk och effektiv analys utgjordes av remissvarens ursprungliga format, samtliga dokument behövde därför transformeras till ett mer gynnsamt format innan vidare bearbetning. Detta innefattade att identifiera och extrahera relevant text från dokumenten till ett mer gynnsamt format i form av ett strukturerat dataset för vidare bearbetning.

Personuppgiftsrensning

Efter att texterna strukturerats i ett dataset utfördes en personuppgiftsrensning. För detta utvecklades ett AI-baserat verktyg som sökte igenom texterna för att identifiera eventuella kvarvarande personuppgifter efter den manuella rensningen. Verktyget utvecklades med hjälp av en mindre språkmodell som laddas ner och körs lokalt på en dator eller intern server. Eftersom verktyget kan köras lokalt på en dator säkerställs att inga personuppgifter skickas till tredje part för detta ändamål. 

AI-analys

Efter att remissvaren strukturerats i ett dataset och personuppgifter rensats användes generativ AI för att analysera texterna.

Specifikt användes AI för:

  • Klassificering av remissvar: Varje remissvar klassificerades (zero-shot) i en av tolv valbara kategorier.
  • Nyckelordsextrahering: Relevanta nyckelord med anknytning till regional utveckling extraherades från remissvaren.
  • Sammanfattning utifrån delfrågor: Remissvaren sammanfattades med utgångspunkt i de delfrågor som ställdes i medföljande brev till svarande instanser.
  • Sentimentanalys: En klassificering för att indikera om remissvaren var positivt, neutralt, eller negativt inställda till samrådsförslaget.

Teknisk beskrivning

Python användes uteslutande som programmeringsspråk och specifika skript utvecklades för att genomföra analysen. 

Språkmodellen som användes för personuppgiftsrensning har finjusterats och tillgängliggjorts av Kungliga biblioteket för att prestera bra på svenska texter. För detta ändamål användes en modell som möjliggör så kallad namngiven entitetsigenkänning (NER) för att identifiera personnamn i texter. NER användes således för att identifiera personnamn i remissvaren. För att identifiera e-postadresser, telefonnummer och personnummer användes så kallade regular expressions (Regex).

Det ansågs nödvändigt att säkerställa att det innehåll som genererades av AI-modellen följde en förbestämd struktur och form. Detta för att säkerställa kvaliteten och för att underlätta automatisk bearbetning av resultaten. För att möjliggöra detta användes Pydantic.

LangChain användes för att skapa en sammanhängande kedja med instruktioner och ramverk för struktur och innehåll som skickades till AI-modellen för bearbetning. 

När det kommer till AI-modell så användes en storskalig språkmodell (LLM) från OpenAI för att genomföra analysen. Specifikt användes modellen ”GPT-4o”. Denna modell var vid tiden för analysen marknadsledande inom flera olika benchmarkvärden. AI-modellen anropades direkt genom OpenAIs API plattform.

API platform | OpenAI
LangChain
Pydantic
KBLab/bert-base-swedish-cased-ner · Hugging Face

Utvärdering har genomförts för kategoriseringens träffsäkerhet och sammanfattningarnas kvalitet. Under utvecklingsfasen genomfördes utvärdering och test kontinuerligt för att testa olika tillvägagångssätt och lösningar.

Kategorisering

De slumpvist utvalda remissvaren annoterades manuellt med en referenskategori som sedan jämfördes mot den AI-genererade klassificeringen. Totalt genomfördes 120 klassificeringar manuellt. Totalt klassificerades 82% av de utvalda remissvaren korrekt. För denna typ av komplexa klassificering med zero-shot metod är det att anse som ett bra resultat. 

Sammanfattningar

Totalt utvärderades 300 slumpvist utvalda sammanfattningar.

För utvärdering av de AI-genererade sammanfattningarna har metoden G-Eval testats. G-Eval är en utvärderingsmetod som använder sig av stora språkmodeller (LLM) för att systematiskt bedöma kvaliteten på AI-genererade texter

Två olika AI-modeller har använts som granskare för utvärderingen, GPT-4o (OpenAI) och Claude 3.5 Sonnet (Anthropic). Båda modellerna var vid utvärderingstillfället marknadsledande och presterade likvärdigt i olika benchmark. Modellerna har fått utvärdera exakt samma material med exakt samma givna promptmallar för bedömningen. Modellerna har också fått motivera sin utvärdering för varje enskild sammanfattning. Mänsklig validering har sedan utförts på ett urval av de utvärderade sammanfattningarna.

Följande fyra bedömningskriterier har använts med en bedömningsskala på 1–5, där 1 är lägst betyg och 5 är högst betyg.

Coherence (Koherens): Detta kriterium bedömer hur väl strukturerad och logisk sammanfattningen är.

Accuracy (Korrekthet): Detta kriterium handlar om hur väl sammanfattningen återspeglar det faktiska innehållet i originaltexten (remissvaren).

Factuality (Faktabasering): Detta kriterium bedömer i vilken grad sammanfattningen bygger på konkreta fakta och välgrundade argument från remissvaren, snarare än på egna spekulationer eller antaganden.

Completeness (Fullständighet): Detta kriterium handlar om i vilken utsträckning sammanfattningen täcker in alla viktiga aspekter av respektive delfråga.

Resultaten av utvärderingen var generellt sett goda. De båda modellerna följer också varandra avseende relativa resultat mellan de olika bedömningskriterierna. Men Claude 3.5 Sonnet gav i allmänhet något lägre betyg än GPT-4o för samtliga bedömningskriterier.

How to evaluate a summarization task | OpenAI Cookbook

Attributes

Region
Administration, Urban Development
Better Quality, More Efficient, Saving Cost
Experimenter, Practioner
Creation, Language
Generative AI, NLP