Rätt data

Page by Nybörjare 305d ago update
Other

Strukturerad och ostrukturerad data

Data brukar delas in i strukturerad och ostrukturerad data. 

Strukturerad data är organiserad på ett sätt som både datorer och människor kan läsa. Strukturerad data kan ses som information och karaktäriseras av att den är entydig och explicit till sin struktur och sitt format. För att beskriva strukturen behövs metadata, vilket är information om informationen. 

För att bygga upp strukturerad data används hierarkier. Exempel på strukturerad information är informationen som finns i ett datavaruhus eller datalager. Strukturerad data har använts länge för dataanalys, som då ofta kallats ”business intelligence” eller ibland ”analytics”. Dataanalys som använder strukturerad data i begränsad mängd kräver i allmänhet inte AI, utan traditionella matematiska och statistiska analysmetoder räcker gott och väl. 

Handlar det däremot om analys av stora mängder ostrukturerad data krävs betydligt mer avancerade algoritmer. Det är här AI kommer in i bilden, eftersom sådana algoritmer är kapabla att processa enorma mängder data, jämfört med människan. Att AI kan processa data innebär dock inte att det är enkelt att analysera den. För att göra ostrukturerad data tillgänglig krävs mycket arbete. 

Värt att nämna är också att data kan också vara semi-strukturerad, vilket betyder att det finns en viss struktur, men den är då inte heltäckande.

Datakvalitet

Kvaliteten på data, såväl strukturmässigt som innehållsmässigt, är avgörande för hur användbar data är för att exempelvis träna AI eller göra analyser av data generellt. Datakvalitet är dock ett komplex begrepp som inte alltid är enkelt att mäta och utvärdera på ett enhetligt sätt. 

Att data skulle ha 100 % kvalitet i alla aspekter är ofta inte sannolikt. Att uppnå den typen av kvalitet på data är också dyrt och ineffektivt. Hur pass hög kvalitet som krävs på den data som ska användas beror i hög utsträckning på användningsområdet. 

Ett exempel på hur samma data kan anses vara tillräckligt kvalitativ i en aspekt och inte tillräckligt kvalitativ i en annan aspekt gäller ett adressregister. Om fem procent av adresserna är felaktiga anses listan ändå vara av hög kvalitet om det handlar om ett kundregister. Om det däremot handlar om ett register som används av till exempel räddningstjänst kan fem procent anses vara bristfällig kvalitet, något som dessutom kan få mycket stora konsekvenser. Nu ser du varför datakvalitet behöver bestämmas och utvärderas utifrån användningsområde!

Hur mycket arbete som behöver läggas ned på att göra data användbar för analys varierar dels beroende på användningsområde, men också på hur mycket smutsig data man vill använda. Termen smutsig data används för att beskriva data som inte har tvättats, och som därmed kan innehålla en okänd mängd av exempelvis fel, otydligheter, inkonsistenser eller saknade värden. 

Oavsett analysmetod, med eller utan AI, krävs nästan alltid någon typ av tvätt av data för att den ska vara redo för analys. Ofta behöver man också förändra datan, så som att omvandla ord till siffror som för att en maskin kan förstå texten.

Attributes

Civil Society, Municipality
Other