

Offerter och offertförfrågningar i den svenska byggbranschen är i stora delar uppbyggda kring koder ur AMA (Allmän material- och arbetsbeskrivning). Det betyder att det ofta finns delar av tidigare skrivna offerter som kan användas som grund när nya offerter ska skrivas, när det finns AMA-kodbaserade krav i offertförfrågan som liknar sådana man redan tidigare har räknat på.
Inom byggföretaget NCC föddes en idé om att man ville undersöka om det skulle gå att bygga ett NLP-baserat verktyg för att kunna analysera sina egna tidigare offerter och skapa en databas utifrån dem, och kunna jämföra krav från tidigare och aktuella offertförfrågningar. I databasen skulle man sedan kunna söka och hitta krav som liknar varandra och jämföra hur väl offerterna stämmer överens, baserat på AMA-koderna.
Det skulle göra det möjligt att se hur väl tidigare tids- och kostnadsuppskattningar stämmer med faktiska siffror för genomförda projekt. Ett sådant verktyg skulle drastiskt kunna minska tidsåtgången för manuell genomsökning av tidigare offertdokument för att hitta och identifiera liknande krav som i de aktuella dokumenten.
Vid sidan av ritningar består offertförfrågningar framför allt av textbaserade beskrivningar av byggnader, och tanken med det här projektet var att det är just de här texterna som ska analyseras med NLP-verktyget, för att identifiera i vilken grad de liknar varandra.
Målet med projektet var att bygga en databas utifrån ett begränsat antal tidigare offerter och använda det datasetet för att undersöka om ett NLP-verktyg skulle kunna användas för att identifiera text på AMA-kodnivå. Baserat på överlappningen mellan dokumenten skulle man kunna hitta liknande offerter från tidigare och kunna göra tidsuppskattningar och budget med stöd från tidigare beräkningar. På så vis skulle man i sådana fall kunna undvika att behöva arbeta fram varje offert från början.
Genom att mappa offertdokument mot dokument i databasen borde det kunna gå att hitta och jämföra avsnitt baserat på AMA-koderna och identifiera projektspecifik text, vilket skulle innebära att den manuella arbetsinsatsen skulle kunna minskas avsevärt och göra det enklare att fatta datadrivna beslut.
En databas byggdes, baserad på 10 tidigare offertdokument. Den användes för att analysera offertförfrågningar i pdf-format, för att identifiera textavsnitt som var identiska eller som liknade varandra. Verktyget skapade dataunderlag som kunde användas för visualisering av likheten mellan tidigare och aktuella offertförfrågningar, med stor noggrannhet.
Den NLP-baserade prototypen visade sig vara ett mycket effektivt verktyg för att analysera stora textmängder och hitta skillander och likheter i texterna, med möjligheten att visualisera detaljerad information om de texter som jämfördes. Däremot hade verktyget svårare med kortare texter och gjorde ibland misstag när ord var felstavade eller saknades.
Ett annat viktigt resultat av projektet var att det skulle behövas en ordlista specifik för byggbranschen för att noggrannheten skulle bli riktigt bra; i prototypen användes en ordlista med svenskt vardagsspråk och specialbegrepp som skulle kunna vara av vikt för textanalysen saknades.
Projektet kom också fram till slutsatsen att ett sådant här verktyg också behöver en standardiserad metod för att redovisa resultatet av offerterna och för hur data ska samlas in, för att jämförelsen mellan olika projekt ska bli riktigt effektiv. Först då kan ett NLP-baserat verktyg för offerter inom byggbranschen att kunna nå en önskvärd noggrannhet.