Förutsättningar

Page by Grundläggande Databeredskap 1y ago

Knowledgebase

Här hittar du frågor som berör grundläggande data; frågor som var den finns, är den kvalitativ och hur data fungerar som möjliggörare.

Här hittar du också fallstudier från projektet Data Readiness Lab och andra bra resurser.

Frågor som vi berör är:

Vad har jag data?
Var finns vår data?
Har jag min data på rätt ställe?
Är min data kvalitativ?
Data som möjliggörare
Databeredskap i relation till AI-projekt
Fallstudier

Resources

Vad är egentligen databeredskap?

2023-09-22 12:54 Post Knowledgebase Swedish

Nej då, du är inte ensam om att undra!

Databeredskap - vad är det?

Databeredskap hänvisar till när data hanteras för att bli användbar för analys till projekt. Det innebär att se till att data är riktig (som i rätt), fullständig och relevant för ändamålet.

Matt Armstrong-Barnes, CTO på Hewlett Packard Enterprise förklarar det såhär: tänk på data som på olja. För att hitta nya oljefickor krävs planering och utforskande. Man behöver tillsätta människor för att titta på källan, kanske bygga nya riggar och troligen borra. När man sedan väl hittar något är råoljan i ett annat format än den vi använder för så mycket i vårt samhälle. Detsamma gäller data! Kanske behöver man utforska, utvinna och sedan förvandla den data man hittar för att den ska vara användbar - det är precis det databeredskap handlar om. Här kan du se en video om värdet av data i den offentliga sektorn.

Data som möjliggörare

Att försöka skapa ett AI-projekt utan data är såklart som att försöka simma utan vatten. Man kommer inte särskilt långt.

När vi pratar om systematiskt AI-adoption hänvisar vi till data som en möjliggörare. Inom begreppet Data kan vi bryta ner möjliggörararen till datadrivna insikter, databeredskap, datastrategi och kvalitet. För den här utbildningen ligger fokus som bekant på databeredskap. Mer information om möjliggörare hittar du i kursen Mot nya höjder med AI.

Mot nya höjder med AI - Mognad

2023-10-23 11:27 Linked Linked Resource

Databeredskapsnivåer (Data Readiness Levels)

2023-10-13 12:29 Page Swedish

I en värld där data börjar spela en central roll, blir hanteringen och förståelsen av datakvalitet och beredskap alltmer kritisk.

Neil D. Lawrence, forskare inom området, har introducerat begreppet "Data Readiness Levels" (DRL) som en metod för att adressera och kommunicera utmaningar och status associerade med datakvalitet och förberedelse.

Data Readiness Levels erbjuder en strukturerad ram för att bedöma och diskutera en datamängds beredskap för användning i analyser och modellbyggnad. Ramen är indelad i tre huvudband, var och en med sina egna kriterier och undernivåer:

Band C rör dataåtkomst och dess tillgänglighet, med nivåer som sträcker sig från C4 (obekräftad eller hörsägen data) till C1 (data redo att laddas in i analysverktyg).

Band B fokuserar på pålitlighet och representation, säkerställande av att data korrekt representerar det som påstås vara registrerat och hanterar problem som brus och saknade värden.

Band A handlar om data i kontext, där lämpligheten av en datamängd utvärderas baserat på en specifik fråga eller analys.

Ramverket är inte bara en teknisk bedömning utan fungerar också som ett kommunikationsverktyg som möjliggör tydliga diskussioner om datakvalitet och beredskap mellan olika teammedlemmar, inklusive data scientists, ingenjörer, projektledare och andra intressenter.

Läs mer om databeredskapsnivåer:

I forskningsartikeln We need to talk about data av Fredrik Olsson och Magnus Sahlgren
I forskningsartikeln Data Readiness Levels av Neil D. Lawrence

Lärdomar kopplat till fallstudier

2023-10-13 13:17 Page

Betydelsen av kvalitetsdata inom artificiell intelligens och arbetet med databeredskap är uppenbar men ofta underskattad i teknikutvecklingen. För organisationer inom den offentliga sektorn är det en praktisk fråga att se till att data är förberedda och redo för AI-tillämpningar.

Inom ramen för Data Readiness Lab-projektet som koordineras av AI Sweden presenterar vi en samling fallstudier som undersöker frågorna om datatillgänglighet, validitet och användbarhet, utifrån erfarenheterna från fyra offentliga enheter: Strängnäs Kommun, Sveriges Kommuner och Regioner (SKR), Arbetsförmedlingen och Ekonomistyrningsverket (ESV).

De presenterade användningsfallen fokuserar på de utmaningar som härrör från språkteknologi, på engelska Natural Language Processing (NLP), och de gäller därför hanteringen av text i maskininlärningssyfte.

Du kan se en sammanfattning av lärdomarna här.

Lärdomar som berör förutsättningar

Lägg tid på valet av data. Eftersom NLP-projekt arbetar med data kan valet av data för att uppnå ett specifikt projektmål vara det viktigaste i hela projektet och behöver övervägas ur flera aspekter. Om än inte uttömmande så ger Data Readiness Assessment Method en bra utgångspunkt.

Bedöm tidigt i projektet om, och hur, du kan komma åt data. Det räcker inte att
veta att data finns. Om det är ett internt system, kan du komma åt det via ett internt API? Om det är data på webben, finns det ett öppet API eller måste du skrapa data? Det sätt på vilket data är tillgängligt avgör både tidsplanen för projektet och den tid som krävs för att komma åt data.

Vi behöver låsa upp gammal data ur befintliga system och framtidssäkra ny
data. Att utveckla en kapacitet att hantera befintliga datakällor och extrahera och
behandla textdata från dem är ett första steg i god databeredskap. I ett längre
perspektiv är det viktigt att också se över och utveckla de processer där ny textdata
skapas och lagras så att framtida data är av bättre kvalitet, mer heltäckande, mer
tillgänglig, mer maskinläsbar och har mer användbar metadata.

Spårbarhet och transparens för modellen behövs om den ska användas i
offentlig verksamhet. Det är viktigt att veta vilken data modellen har tränats på. ilka
datakällor som använts och om datan har förändrats på något sätt. Man ska spara
källkoden som använts för att bygga modellen samt alla valda konfigurationer.
Det gäller vilka hyperparametrar som använts och vilket värde de hade för den
gällande modellen. Det måste också vara tydligt vilka mätvärden (metrics) som har
valts för att utvärderamodellen. Man ska närsomhelst kunna träna om modellen och
den ska ge samma resultat.

Ha realistiska förväntningar. Om din organisation är ny inom området är det viktigt
att skapa en gemensam förståelse med intressenterna om realistiska förväntningar
på omfattningen och resultatet av ett språkteknologiprojekt.

Uppdatering av projektmål är en naturlig del i explorativa projekt. Det är viktigt
att förstå, och att få förståelse hos intressenterna, att projektmål särskilt i explorativa
projekt kan behöva uppdateras flera gånger under ett projekts gång.

Sträva efter tydliga avtal. Eftersom licensavtal om system eller andra datakällor är
en verksamhet som ofta saknar tydlig reglering om vad kunden får göra med data
utöver de ordnarie användarfunktionerna, är det bra att sträva efter avtal som är
tydligare med att annan användning av kunddata också är tillåten.

Involvera fler perspektiv än det tekniska. NLP-projekt innehåller många
överväganden utöver de tekniska. Se därför till att uppmärksamma fler perspektiv, till
exempel juridiska och etiska frågor. Involvera flera kompetenser i projektet såsom
juridiskt stöd och kommunikatörer.

Samarbete över myndighetsgränser behövs. Språkteknologiska
tillämpningsmöjligheter och intressanta textdatakällor är ofta inte tydligt kopplade till
endast en offentlig aktör. Det har därför hänt, och kommer fortsätta att hända, att
olika aktörer bedriver snarlika projekt utan att vara medvetna om varandra. Detta
innebär ett ineffektivt dubbelarbete och en missad möjlighet till samverkan. Det
behövs därför bättre kommunikation inom det offentliga kring vilka språkteknologiska
projekt som drivs och planeras samt bättre styrning och ökade medel för
gemensamma projekt.

Data Readiness Assessment Method

2023-10-16 07:25 Page Knowledgebase Tools & Methods English

Detta är en snabbreferens till metoden för bedömning av databeredskapsnivå, som också använts i de fallstudier som redovisas i Databeredskap för språkteknologiska tillämpningar. Frågorna finns också med i sin helhet i We need to talk about data.

Q1 Do you have programmatic access to the data? The data should be made accessible
to the people who are going to work with it, in a way that makes their work as easy as
possible. This usually means programmatic access via an API, database, or spreadsheet.

Q2 Are your licenses in order? In the case you plan on using data from a third-party
provider, either commercial or via open access, ensure that the licences for the data permit the kind of usage that is needed for the current project. Furthermore, make sure you follow the Terms of Service set out by the provider.

Q3 Do you have lawful access to the data? Make sure you involve the appropriate legal
competence early on in your project. Matters regarding, e.g., personal identifiable information, and GDPR have to be handled correctly. Failing to do so may result in a project failure, even though all technical aspects of the project are perfectly sound.

Q4 Has there been an ethics assessment of the data? In some use cases, such as when
dealing with individuals’ medical information, the objectives of the project require an ethics assessment. The rules for such a probe into the data are governed by strict rules, and you should consult appropriate legal advisors to make sure your project adheres to them.

Q5 Is the data converted to an appropriate format? Apart from being accessible
programmatically, and assessed with respect to licenses, laws, and ethics, the data should also be converted to a format appropriate for the potential technical solutions to the problem at hand. One particular challenge we have encountered numerous times, is that the data is on the format of PDF files. PDF is an excellent output format for rendering contents on screen or in print, but it is a terrible input format for data-driven automated processes.

Q6 Are the characteristics of the data known? Are the typical traits and features of the
data known? Perform an exploratory data analysis, and run it by all stakeholders in the
project. Make sure to exemplify typical and extreme values in the data, and encourage the project participants to manually look into the data.

Q7 Is the data validated? Ensure that the traits and features of the data make sense, and, e.g., records are deduplicated, noise is catered for, and that null values are taken care of.

Q8 Do stakeholders agree on the objective of the current use case? What problem are
you trying to solve? The problem formulation should be intimately tied to a tangible business value or research hypothesis. When specifying the problem, make sure to focus on the actual need instead of a potentially interesting technology. The characteristics of the problem dictates the requirements on the data. Thus, the specification is crucial for understanding the requirements on the data in terms of, e.g., training data, and the need for manual labelling of evaluation or validation data. Only when you know the characteristics of the data, it will be possible to come up with a candidate technological approach to solve the problem.

Q9 Is the purpose of using the data clear to all stakeholders? Ensure that all people
involved in the project understands the role and importance of the data to be used. This is to solidify the efforts made by the people responsible for relevant data sources to produce data that is appropriate for the project’s objective and the potential technical solution to address the objective.

Q10 Is the data sufficient for the current use case? Given the insight into what data is
available, consider the questions: What data is needed to solve the problem? Is that a
subset of the data that is already available? If not: is there a way of getting all the data
needed? If there is a discrepancy between the data available, and the data required to solve the problem, that discrepancy has to be mitigated. If it is not possible to align the data available with what is needed, then this is a cue to go back to the drawing board and either iterate on the problem specification, or collect suitable data.

Q11 Are the steps required to evaluate a potential solution clear? How do you know if
you have succeeded? The type of data required to evaluate a solution is often tightly
connected to the way the solution is implemented: if the solution is based on supervised
machine learning, i.e., requiring labelled examples, then the evaluation of the solution will
also require labelled data. If the solution depends on labelled training data, the process of annotation usually also results in the appropriate evaluation data. Any annotation effort should take into account the quality of the annotations, e.g., the inter-annotator agreement; temporal aspects of the data characteristics, e.g., information on when we need to obtain newly annotated data to mitigate model drift; and, the representativity of the data.

Q12 Is your organization prepared to handle more data like this beyond the scope of
the project? Even if the data processing in your organization is not perfect with respect to the requirements of machine learning, each project you pursue has the opportunity to
articulate improvements to your organization’s data storage processes. Ask yourself the
questions: How does my organization store incoming data? Is that process a good fit for
automatic processing of the data in the context of an NLP project, that is, is the data stored on a format that brings it beyond Band C (accessibility) of the Data Readiness Levels? If not; what changes would need to be made to make the storage better?

Q13 Is the data secured? Ensure that the data used in the project is secured in such a way that it is only accessible to the right people, and thus not accessible by unauthorized users. Depending on the sensitivity of the project, and thus the data, there might be a need to classify the data according to the security standards of your organization (e.g., ISO 27001), and implement the appropriate mechanisms to protect the data and project outcome.

Q14 Is it safe to share the data with others? In case the project aims to share its data with
others, the risks of leaking sensitive data about, e.g., your organization’s business plans or abilities have to be addressed prior to sharing it.

Q15 Are you allowed to share the data with others? In case the project wishes to share
its data, make sure you are allowed to do so according to the licenses, laws, and ethics
previously addressed in the project.

Attributes

Resources

Rätt data

2023-10-09 09:14 Linked Page

Strukturerad och ostrukturerad data

Data brukar delas in i strukturerad och ostrukturerad data.

Strukturerad data är organiserad på ett sätt som både datorer och människor kan läsa. Strukturerad data kan ses som information och karaktäriseras av att den är entydig och explicit till sin struktur och sitt format. För att beskriva strukturen behövs metadata, vilket är information om informationen.

För att bygga upp strukturerad data används hierarkier. Exempel på strukturerad information är informationen som finns i ett datavaruhus eller datalager. Strukturerad data har använts länge för dataanalys, som då ofta kallats ”business intelligence” eller ibland ”analytics”. Dataanalys som använder strukturerad data i begränsad mängd kräver i allmänhet inte AI, utan traditionella matematiska och statistiska analysmetoder räcker gott och väl.

Handlar det däremot om analys av stora mängder ostrukturerad data krävs betydligt mer avancerade algoritmer. Det är här AI kommer in i bilden, eftersom sådana algoritmer är kapabla att processa enorma mängder data, jämfört med människan. Att AI kan processa data innebär dock inte att det är enkelt att analysera den. För att göra ostrukturerad data tillgänglig krävs mycket arbete.

Värt att nämna är också att data kan också vara semi-strukturerad, vilket betyder att det finns en viss struktur, men den är då inte heltäckande.

Datakvalitet

Kvaliteten på data, såväl strukturmässigt som innehållsmässigt, är avgörande för hur användbar data är för att exempelvis träna AI eller göra analyser av data generellt. Datakvalitet är dock ett komplex begrepp som inte alltid är enkelt att mäta och utvärdera på ett enhetligt sätt.

Att data skulle ha 100 % kvalitet i alla aspekter är ofta inte sannolikt. Att uppnå den typen av kvalitet på data är också dyrt och ineffektivt. Hur pass hög kvalitet som krävs på den data som ska användas beror i hög utsträckning på användningsområdet.

Ett exempel på hur samma data kan anses vara tillräckligt kvalitativ i en aspekt och inte tillräckligt kvalitativ i en annan aspekt gäller ett adressregister. Om fem procent av adresserna är felaktiga anses listan ändå vara av hög kvalitet om det handlar om ett kundregister. Om det däremot handlar om ett register som används av till exempel räddningstjänst kan fem procent anses vara bristfällig kvalitet, något som dessutom kan få mycket stora konsekvenser. Nu ser du varför datakvalitet behöver bestämmas och utvärderas utifrån användningsområde!

Hur mycket arbete som behöver läggas ned på att göra data användbar för analys varierar dels beroende på användningsområde, men också på hur mycket smutsig data man vill använda. Termen smutsig data används för att beskriva data som inte har tvättats, och som därmed kan innehålla en okänd mängd av exempelvis fel, otydligheter, inkonsistenser eller saknade värden.

Oavsett analysmetod, med eller utan AI, krävs nästan alltid någon typ av tvätt av data för att den ska vara redo för analys. Ofta behöver man också förändra datan, så som att omvandla ord till siffror som för att en maskin kan förstå texten.

Vanliga begrepp inom Databeredskap

Här hittar du några vanliga begrepp inom databeredskap.

Insamling: processen att samla in rådata som kan vara relevant för ett AI-projekt. Källor kan vara olika (till exempel databaser, sensorer eller skrapning).

Rengöring: att korrigera eller ta bort felaktig, korrupt, felaktigt formaterad, ofullständig eller irrelevant data från ett dataset.

Validering: processen att kontrollera och säkerställa att insamlad data är korrekt, relevant och användbar innan den används.

Förberedelse: omfattar alla aktiviteter för att omvandla rådata till en form som bättre lämpar sig för analys, inklusive rengörning och transformation.

Transformation: att omvandla data från ett format till ett annat format, struktur eller värde för att till exempel uppfylla vissa krav, som normalisering eller skalning.

Berikning: processen att förbättra, förädla aller förbättra rå- eller primärdata med ytterligare information för att öka kvaliteten och värdet.

Lagring: handlar om var och när data sparas, och kan inkludera molnbaserade lösningar och databaser.

Sekretess: handlar om att skydda personlig och känslig information från obehörig åtkomst och spridning.

Metadatahantering: innebär att hantera information som beskriver olika aspekter av data, som ursprung, användning och format för att förbättra förståelsen och anvädningen av data.

Forskning och publikationer

2023-10-13 12:36 Linked List

Navigera i Grundläggande databeredskap

2023-10-09 09:11 List

AI-förmågor

2023-10-23 06:47 Linked Page

AI ger oss nya verktyg som kan användas för att utföra uppgifter som normalt kräver mänsklig intelligens och som tidigare inte var tillgängliga med traditionell teknik. Dessa gör det möjligt att automatisera uppgifter som tidigare krävde mänsklig inblandning, vilket leder till nya sätt att skapa applikationer som stödjer våra medarbetare och effektiviserar samt ökar kvaliteten på deras arbete.

Verktygslådan omfattar ett brett område med många olika tekniker och AI algoritmer, men kan delas in i ett antal förmågor som beskriver vilken typ av arbete tekniken kan utföra, precis som vi människor har förmågor att göra olika saker. Genom att förstå AI utifrån dessa förmågor kan vi tänka på användningsområden för tekniken utan att behöva vara tekniskt insatta eller bekanta med alla de tusentals mjukvaror och applikationer som finns. När du ska använda detta i din verksamhet försök fundera på vilka förmågor som krävs för att utföra vissa arbetsmoment både i beslutsfattandet men även agerande.

Man kan dela in dessa förmågor i 4 större grupper:

Känn av världen

Förstå världen

Kontrollera världen

Robotik

Skapa världen

Skapa (generativ)

Alla dess förmågor kan förstås också kombineras för att skapa än mer avancerade, innovativa och användbara lösningar på olika problem och utmaningar. Men vi kan ibland också skapa stort värde med de enklaste tekniker genom att matcha ett stort behov med en välfungerande lösning. Förhoppningsvis har förmågeperspektivet gett dig en större förståelse av vad AI kan göra och nya idéer om hur ni kan använda AI i er verksamhet.

Vill du veta mer?

2023-09-27 09:05 List Swedish