Metoder för datahantering
I metoder för datahantering samlar vi några av de metoder som kan användas för att hantera din data, specifikt utifrån projektet Data Readiness Lab.
Observera att vissa metoder är beskrivna på engelska.
2023-10-23 06:48
Linked Page
Detta är en snabbreferens till metoden för bedömning av databeredskapsnivå, som också använts i de fallstudier som redovisas i Databeredskap för språkteknologiska tillämpningar. Frågorna finns också med i sin helhet i We need to talk about data. Q1 Do you have programmatic access to the data? The data should be made accessible Q2 Are your licenses in order? In the case you plan on using data from a third-party Q3 Do you have lawful access to the data? Make sure you involve the appropriate legal Q4 Has there been an ethics assessment of the data? In some use cases, such as when Q5 Is the data converted to an appropriate format? Apart from being accessible Q6 Are the characteristics of the data known? Are the typical traits and features of the Q7 Is the data validated? Ensure that the traits and features of the data make sense, and, e.g., records are deduplicated, noise is catered for, and that null values are taken care of. Q8 Do stakeholders agree on the objective of the current use case? What problem are Q9 Is the purpose of using the data clear to all stakeholders? Ensure that all people Q10 Is the data sufficient for the current use case? Given the insight into what data is Q11 Are the steps required to evaluate a potential solution clear? How do you know if Q12 Is your organization prepared to handle more data like this beyond the scope of Q13 Is the data secured? Ensure that the data used in the project is secured in such a way that it is only accessible to the right people, and thus not accessible by unauthorized users. Depending on the sensitivity of the project, and thus the data, there might be a need to classify the data according to the security standards of your organization (e.g., ISO 27001), and implement the appropriate mechanisms to protect the data and project outcome. Q14 Is it safe to share the data with others? In case the project aims to share its data with Q15 Are you allowed to share the data with others? In case the project wishes to share |
Det här är ett verktyg för dig som tillåter organisationer att skapa skräddarsydda NER anonymiseringsmodeller (annotation + model training). Läs också nerblackbox: A High-level Library for Named Entity Recognition in Python. |
|
This handbook is a hands-on guide on how to approach text annotation tasks. It provides a gentle introduction to the topic, an overview of theoretical concepts as well as practical advice. The topics covered are mostly technical, but business, ethical and regulatory issues are also touched upon. The focus lies on readability and conciseness rather than completeness and scientific rigor. Experience with annotation and knowledge of machine learning are useful but not required. The document may serve as a primer or reference book for a wide range of professions such as team leaders, project managers, IT architects, software developers and machine learning engineers. |
2023-10-23 11:27
Linked Linked Resource
|
Betydelsen av kvalitetsdata inom artificiell intelligens och arbetet med databeredskap är uppenbar men ofta underskattad i teknikutvecklingen. För organisationer inom den offentliga sektorn är det en praktisk fråga att se till att data är förberedda och redo för AI-tillämpningar. Inom ramen för Data Readiness Lab-projektet som koordineras av AI Sweden presenterar vi en samling fallstudier som undersöker frågorna om datatillgänglighet, validitet och användbarhet, utifrån erfarenheterna från fyra offentliga enheter: Strängnäs Kommun, Sveriges Kommuner och Regioner (SKR), Arbetsförmedlingen och Ekonomistyrningsverket (ESV). De presenterade användningsfallen fokuserar på de utmaningar som härrör från språkteknologi, på engelska Natural Language Processing (NLP), och de gäller därför hanteringen av text i maskininlärningssyfte. Du kan se en sammanfattning av lärdomarna här. Lärdomar som berör metoder och datahanteringText är data. Det behövs en ökad förståelse inom offentlig sektor att data inte är Textdokument i PDF-format har låg grad av maskinläsbarhet. Textdata behöver NLP-tillämpningar kan inte bli bättre än den data de bygger på. Avancerade |
Vanliga begrepp inom DataberedskapHär hittar du några vanliga begrepp inom databeredskap. Insamling: processen att samla in rådata som kan vara relevant för ett AI-projekt. Källor kan vara olika (till exempel databaser, sensorer eller skrapning). Rengöring: att korrigera eller ta bort felaktig, korrupt, felaktigt formaterad, ofullständig eller irrelevant data från ett dataset. Validering: processen att kontrollera och säkerställa att insamlad data är korrekt, relevant och användbar innan den används. Förberedelse: omfattar alla aktiviteter för att omvandla rådata till en form som bättre lämpar sig för analys, inklusive rengörning och transformation. Transformation: att omvandla data från ett format till ett annat format, struktur eller värde för att till exempel uppfylla vissa krav, som normalisering eller skalning. Berikning: processen att förbättra, förädla aller förbättra rå- eller primärdata med ytterligare information för att öka kvaliteten och värdet. Lagring: handlar om var och när data sparas, och kan inkludera molnbaserade lösningar och databaser. Sekretess: handlar om att skydda personlig och känslig information från obehörig åtkomst och spridning. Metadatahantering: innebär att hantera information som beskriver olika aspekter av data, som ursprung, användning och format för att förbättra förståelsen och anvädningen av data. |
2023-10-16 07:47
Linked List
|
2023-10-16 07:47
Linked List
|
2023-10-17 09:12
List
|