Förutsättningar
Här hittar du frågor som berör grundläggande data; frågor som var den finns, är den kvalitativ och hur data fungerar som möjliggörare.
Här hittar du också fallstudier från projektet Data Readiness Lab och andra bra resurser.
Frågor som vi berör är:
- Vad har jag data?
- Var finns vår data?
- Har jag min data på rätt ställe?
- Är min data kvalitativ?
- Data som möjliggörare
- Databeredskap i relation till AI-projekt
- Fallstudier
Nej då, du är inte ensam om att undra! Databeredskap - vad är det?Databeredskap hänvisar till när data hanteras för att bli användbar för analys till projekt. Det innebär att se till att data är riktig (som i rätt), fullständig och relevant för ändamålet. Matt Armstrong-Barnes, CTO på Hewlett Packard Enterprise förklarar det såhär: tänk på data som på olja. För att hitta nya oljefickor krävs planering och utforskande. Man behöver tillsätta människor för att titta på källan, kanske bygga nya riggar och troligen borra. När man sedan väl hittar något är råoljan i ett annat format än den vi använder för så mycket i vårt samhälle. Detsamma gäller data! Kanske behöver man utforska, utvinna och sedan förvandla den data man hittar för att den ska vara användbar - det är precis det databeredskap handlar om. Här kan du se en video om värdet av data i den offentliga sektorn. Data som möjliggörareAtt försöka skapa ett AI-projekt utan data är såklart som att försöka simma utan vatten. Man kommer inte särskilt långt. När vi pratar om systematiskt AI-adoption hänvisar vi till data som en möjliggörare. Inom begreppet Data kan vi bryta ner möjliggörararen till datadrivna insikter, databeredskap, datastrategi och kvalitet. För den här utbildningen ligger fokus som bekant på databeredskap. Mer information om möjliggörare hittar du i kursen Mot nya höjder med AI. |
2023-10-23 11:27
Linked Linked Resource
|
I en värld där data börjar spela en central roll, blir hanteringen och förståelsen av datakvalitet och beredskap alltmer kritisk. Neil D. Lawrence, forskare inom området, har introducerat begreppet "Data Readiness Levels" (DRL) som en metod för att adressera och kommunicera utmaningar och status associerade med datakvalitet och förberedelse. Data Readiness Levels erbjuder en strukturerad ram för att bedöma och diskutera en datamängds beredskap för användning i analyser och modellbyggnad. Ramen är indelad i tre huvudband, var och en med sina egna kriterier och undernivåer: Band C rör dataåtkomst och dess tillgänglighet, med nivåer som sträcker sig från C4 (obekräftad eller hörsägen data) till C1 (data redo att laddas in i analysverktyg). Band B fokuserar på pålitlighet och representation, säkerställande av att data korrekt representerar det som påstås vara registrerat och hanterar problem som brus och saknade värden. Band A handlar om data i kontext, där lämpligheten av en datamängd utvärderas baserat på en specifik fråga eller analys. Ramverket är inte bara en teknisk bedömning utan fungerar också som ett kommunikationsverktyg som möjliggör tydliga diskussioner om datakvalitet och beredskap mellan olika teammedlemmar, inklusive data scientists, ingenjörer, projektledare och andra intressenter. Läs mer om databeredskapsnivåer:
|
2023-10-13 13:17
Page
Betydelsen av kvalitetsdata inom artificiell intelligens och arbetet med databeredskap är uppenbar men ofta underskattad i teknikutvecklingen. För organisationer inom den offentliga sektorn är det en praktisk fråga att se till att data är förberedda och redo för AI-tillämpningar. Inom ramen för Data Readiness Lab-projektet som koordineras av AI Sweden presenterar vi en samling fallstudier som undersöker frågorna om datatillgänglighet, validitet och användbarhet, utifrån erfarenheterna från fyra offentliga enheter: Strängnäs Kommun, Sveriges Kommuner och Regioner (SKR), Arbetsförmedlingen och Ekonomistyrningsverket (ESV). De presenterade användningsfallen fokuserar på de utmaningar som härrör från språkteknologi, på engelska Natural Language Processing (NLP), och de gäller därför hanteringen av text i maskininlärningssyfte. Du kan se en sammanfattning av lärdomarna här. Lärdomar som berör förutsättningarLägg tid på valet av data. Eftersom NLP-projekt arbetar med data kan valet av data för att uppnå ett specifikt projektmål vara det viktigaste i hela projektet och behöver övervägas ur flera aspekter. Om än inte uttömmande så ger Data Readiness Assessment Method en bra utgångspunkt. Bedöm tidigt i projektet om, och hur, du kan komma åt data. Det räcker inte att Vi behöver låsa upp gammal data ur befintliga system och framtidssäkra ny Spårbarhet och transparens för modellen behövs om den ska användas i Ha realistiska förväntningar. Om din organisation är ny inom området är det viktigt Uppdatering av projektmål är en naturlig del i explorativa projekt. Det är viktigt Sträva efter tydliga avtal. Eftersom licensavtal om system eller andra datakällor är Involvera fler perspektiv än det tekniska. NLP-projekt innehåller många Samarbete över myndighetsgränser behövs. Språkteknologiska |
Detta är en snabbreferens till metoden för bedömning av databeredskapsnivå, som också använts i de fallstudier som redovisas i Databeredskap för språkteknologiska tillämpningar. Frågorna finns också med i sin helhet i We need to talk about data. Q1 Do you have programmatic access to the data? The data should be made accessible Q2 Are your licenses in order? In the case you plan on using data from a third-party Q3 Do you have lawful access to the data? Make sure you involve the appropriate legal Q4 Has there been an ethics assessment of the data? In some use cases, such as when Q5 Is the data converted to an appropriate format? Apart from being accessible Q6 Are the characteristics of the data known? Are the typical traits and features of the Q7 Is the data validated? Ensure that the traits and features of the data make sense, and, e.g., records are deduplicated, noise is catered for, and that null values are taken care of. Q8 Do stakeholders agree on the objective of the current use case? What problem are Q9 Is the purpose of using the data clear to all stakeholders? Ensure that all people Q10 Is the data sufficient for the current use case? Given the insight into what data is Q11 Are the steps required to evaluate a potential solution clear? How do you know if Q12 Is your organization prepared to handle more data like this beyond the scope of Q13 Is the data secured? Ensure that the data used in the project is secured in such a way that it is only accessible to the right people, and thus not accessible by unauthorized users. Depending on the sensitivity of the project, and thus the data, there might be a need to classify the data according to the security standards of your organization (e.g., ISO 27001), and implement the appropriate mechanisms to protect the data and project outcome. Q14 Is it safe to share the data with others? In case the project aims to share its data with Q15 Are you allowed to share the data with others? In case the project wishes to share |
2023-10-09 09:14
Linked Page
Strukturerad och ostrukturerad dataData brukar delas in i strukturerad och ostrukturerad data. Strukturerad data är organiserad på ett sätt som både datorer och människor kan läsa. Strukturerad data kan ses som information och karaktäriseras av att den är entydig och explicit till sin struktur och sitt format. För att beskriva strukturen behövs metadata, vilket är information om informationen. För att bygga upp strukturerad data används hierarkier. Exempel på strukturerad information är informationen som finns i ett datavaruhus eller datalager. Strukturerad data har använts länge för dataanalys, som då ofta kallats ”business intelligence” eller ibland ”analytics”. Dataanalys som använder strukturerad data i begränsad mängd kräver i allmänhet inte AI, utan traditionella matematiska och statistiska analysmetoder räcker gott och väl. Handlar det däremot om analys av stora mängder ostrukturerad data krävs betydligt mer avancerade algoritmer. Det är här AI kommer in i bilden, eftersom sådana algoritmer är kapabla att processa enorma mängder data, jämfört med människan. Att AI kan processa data innebär dock inte att det är enkelt att analysera den. För att göra ostrukturerad data tillgänglig krävs mycket arbete. Värt att nämna är också att data kan också vara semi-strukturerad, vilket betyder att det finns en viss struktur, men den är då inte heltäckande. DatakvalitetKvaliteten på data, såväl strukturmässigt som innehållsmässigt, är avgörande för hur användbar data är för att exempelvis träna AI eller göra analyser av data generellt. Datakvalitet är dock ett komplex begrepp som inte alltid är enkelt att mäta och utvärdera på ett enhetligt sätt. Att data skulle ha 100 % kvalitet i alla aspekter är ofta inte sannolikt. Att uppnå den typen av kvalitet på data är också dyrt och ineffektivt. Hur pass hög kvalitet som krävs på den data som ska användas beror i hög utsträckning på användningsområdet. Ett exempel på hur samma data kan anses vara tillräckligt kvalitativ i en aspekt och inte tillräckligt kvalitativ i en annan aspekt gäller ett adressregister. Om fem procent av adresserna är felaktiga anses listan ändå vara av hög kvalitet om det handlar om ett kundregister. Om det däremot handlar om ett register som används av till exempel räddningstjänst kan fem procent anses vara bristfällig kvalitet, något som dessutom kan få mycket stora konsekvenser. Nu ser du varför datakvalitet behöver bestämmas och utvärderas utifrån användningsområde! Hur mycket arbete som behöver läggas ned på att göra data användbar för analys varierar dels beroende på användningsområde, men också på hur mycket smutsig data man vill använda. Termen smutsig data används för att beskriva data som inte har tvättats, och som därmed kan innehålla en okänd mängd av exempelvis fel, otydligheter, inkonsistenser eller saknade värden. Oavsett analysmetod, med eller utan AI, krävs nästan alltid någon typ av tvätt av data för att den ska vara redo för analys. Ofta behöver man också förändra datan, så som att omvandla ord till siffror som för att en maskin kan förstå texten. |
Vanliga begrepp inom DataberedskapHär hittar du några vanliga begrepp inom databeredskap. Insamling: processen att samla in rådata som kan vara relevant för ett AI-projekt. Källor kan vara olika (till exempel databaser, sensorer eller skrapning). Rengöring: att korrigera eller ta bort felaktig, korrupt, felaktigt formaterad, ofullständig eller irrelevant data från ett dataset. Validering: processen att kontrollera och säkerställa att insamlad data är korrekt, relevant och användbar innan den används. Förberedelse: omfattar alla aktiviteter för att omvandla rådata till en form som bättre lämpar sig för analys, inklusive rengörning och transformation. Transformation: att omvandla data från ett format till ett annat format, struktur eller värde för att till exempel uppfylla vissa krav, som normalisering eller skalning. Berikning: processen att förbättra, förädla aller förbättra rå- eller primärdata med ytterligare information för att öka kvaliteten och värdet. Lagring: handlar om var och när data sparas, och kan inkludera molnbaserade lösningar och databaser. Sekretess: handlar om att skydda personlig och känslig information från obehörig åtkomst och spridning. Metadatahantering: innebär att hantera information som beskriver olika aspekter av data, som ursprung, användning och format för att förbättra förståelsen och anvädningen av data. |
2023-10-13 12:36
Linked List
|
2023-10-09 09:11
List
|
2023-10-23 06:47
Linked Page
AI ger oss nya verktyg som kan användas för att utföra uppgifter som normalt kräver mänsklig intelligens och som tidigare inte var tillgängliga med traditionell teknik. Dessa gör det möjligt att automatisera uppgifter som tidigare krävde mänsklig inblandning, vilket leder till nya sätt att skapa applikationer som stödjer våra medarbetare och effektiviserar samt ökar kvaliteten på deras arbete. Verktygslådan omfattar ett brett område med många olika tekniker och AI algoritmer, men kan delas in i ett antal förmågor som beskriver vilken typ av arbete tekniken kan utföra, precis som vi människor har förmågor att göra olika saker. Genom att förstå AI utifrån dessa förmågor kan vi tänka på användningsområden för tekniken utan att behöva vara tekniskt insatta eller bekanta med alla de tusentals mjukvaror och applikationer som finns. När du ska använda detta i din verksamhet försök fundera på vilka förmågor som krävs för att utföra vissa arbetsmoment både i beslutsfattandet men även agerande. Man kan dela in dessa förmågor i 4 större grupper: Känn av världenFörstå världenKontrollera världenSkapa världen
Alla dess förmågor kan förstås också kombineras för att skapa än mer avancerade, innovativa och användbara lösningar på olika problem och utmaningar. Men vi kan ibland också skapa stort värde med de enklaste tekniker genom att matcha ett stort behov med en välfungerande lösning. Förhoppningsvis har förmågeperspektivet gett dig en större förståelse av vad AI kan göra och nya idéer om hur ni kan använda AI i er verksamhet. |
|