Metoder för datahantering

I metoder för datahantering samlar vi några av de metoder som kan användas för att hantera din data, specifikt utifrån projektet Data Readiness Lab

Observera att vissa metoder är beskrivna på engelska.



2023-10-23 06:48 Linked Page
Detta är en snabbreferens till metoden för bedömning av databeredskapsnivå, som också använts i de fallstudier som redovisas i Databeredskap för språkteknologiska tillämpningar.  Frågorna finns också med i sin helhet i We need to talk about data

Q1 Do you have programmatic access to the data? The data should be made accessible
to the people who are going to work with it, in a way that makes their work as easy as
possible. This usually means programmatic access via an API, database, or spreadsheet.

Q2 Are your licenses in order? In the case you plan on using data from a third-party
provider, either commercial or via open access, ensure that the licences for the data permit the kind of usage that is needed for the current project. Furthermore, make sure you follow the Terms of Service set out by the provider.

Q3 Do you have lawful access to the data? Make sure you involve the appropriate legal
competence early on in your project. Matters regarding, e.g., personal identifiable information, and GDPR have to be handled correctly. Failing to do so may result in a project failure, even though all technical aspects of the project are perfectly sound.

Q4 Has there been an ethics assessment of the data? In some use cases, such as when
dealing with individuals’ medical information, the objectives of the project require an ethics assessment. The rules for such a probe into the data are governed by strict rules, and you should consult appropriate legal advisors to make sure your project adheres to them.

Q5 Is the data converted to an appropriate format? Apart from being accessible
programmatically, and assessed with respect to licenses, laws, and ethics, the data should also be converted to a format appropriate for the potential technical solutions to the problem at hand. One particular challenge we have encountered numerous times, is that the data is on the format of PDF files. PDF is an excellent output format for rendering contents on screen or in print, but it is a terrible input format for data-driven automated processes.

Q6 Are the characteristics of the data known? Are the typical traits and features of the
data known? Perform an exploratory data analysis, and run it by all stakeholders in the
project. Make sure to exemplify typical and extreme values in the data, and encourage the project participants to manually look into the data.

Q7 Is the data validated? Ensure that the traits and features of the data make sense, and, e.g., records are deduplicated, noise is catered for, and that null values are taken care of.

Q8 Do stakeholders agree on the objective of the current use case? What problem are
you trying to solve? The problem formulation should be intimately tied to a tangible business value or research hypothesis. When specifying the problem, make sure to focus on the actual need instead of a potentially interesting technology. The characteristics of the problem dictates the requirements on the data. Thus, the specification is crucial for understanding the requirements on the data in terms of, e.g., training data, and the need for manual labelling of evaluation or validation data. Only when you know the characteristics of the data, it will be possible to come up with a candidate technological approach to solve the problem.

Q9 Is the purpose of using the data clear to all stakeholders? Ensure that all people
involved in the project understands the role and importance of the data to be used. This is to solidify the efforts made by the people responsible for relevant data sources to produce data that is appropriate for the project’s objective and the potential technical solution to address the objective.

Q10 Is the data sufficient for the current use case? Given the insight into what data is
available, consider the questions: What data is needed to solve the problem? Is that a
subset of the data that is already available? If not: is there a way of getting all the data
needed? If there is a discrepancy between the data available, and the data required to solve the problem, that discrepancy has to be mitigated. If it is not possible to align the data available with what is needed, then this is a cue to go back to the drawing board and either iterate on the problem specification, or collect suitable data.

Q11 Are the steps required to evaluate a potential solution clear? How do you know if
you have succeeded? The type of data required to evaluate a solution is often tightly
connected to the way the solution is implemented: if the solution is based on supervised
machine learning, i.e., requiring labelled examples, then the evaluation of the solution will
also require labelled data. If the solution depends on labelled training data, the process of annotation usually also results in the appropriate evaluation data. Any annotation effort should take into account the quality of the annotations, e.g., the inter-annotator agreement; temporal aspects of the data characteristics, e.g., information on when we need to obtain newly annotated data to mitigate model drift; and, the representativity of the data.

Q12 Is your organization prepared to handle more data like this beyond the scope of
the project? Even if the data processing in your organization is not perfect with respect to the requirements of machine learning, each project you pursue has the opportunity to
articulate improvements to your organization’s data storage processes. Ask yourself the
questions: How does my organization store incoming data? Is that process a good fit for
automatic processing of the data in the context of an NLP project, that is, is the data stored on a format that brings it beyond Band C (accessibility) of the Data Readiness Levels? If not; what changes would need to be made to make the storage better?

Q13 Is the data secured? Ensure that the data used in the project is secured in such a way that it is only accessible to the right people, and thus not accessible by unauthorized users. Depending on the sensitivity of the project, and thus the data, there might be a need to classify the data according to the security standards of your organization (e.g., ISO 27001), and implement the appropriate mechanisms to protect the data and project outcome. 

Q14 Is it safe to share the data with others? In case the project aims to share its data with
others, the risks of leaking sensitive data about, e.g., your organization’s business plans or abilities have to be addressed prior to sharing it.

Q15 Are you allowed to share the data with others? In case the project wishes to share
its data, make sure you are allowed to do so according to the licenses, laws, and ethics
previously addressed in the project.

Read more
2023-10-16 11:13 Weblink Tools & Methods English
Det här är ett verktyg för dig som tillåter organisationer att skapa skräddarsydda NER anonymiseringsmodeller (annotation + model training).

Läs också nerblackbox: A High-level Library for Named Entity Recognition in Python.

2023-10-16 11:09 Weblink Tools & Methods English
x-annotate is a project management tool for cross-annotation with popular annotation frameworks.
This handbook is a hands-on guide on how to approach text annotation tasks. 

It provides a gentle introduction to the topic, an overview of theoretical concepts as well as practical advice. The topics covered are mostly technical, but business, ethical and regulatory issues are also touched upon. 

The focus lies on readability and conciseness rather than completeness and scientific rigor. 

Experience with annotation and knowledge of machine learning are useful but not required. 

The document may serve as a primer or reference book for a wide range of professions such as team leaders, project managers, IT architects, software developers and machine learning engineers.

2023-10-19 11:14 Page Knowledgebase
Betydelsen av kvalitetsdata inom artificiell intelligens och arbetet med databeredskap är uppenbar men ofta underskattad i teknikutvecklingen. För organisationer inom den offentliga sektorn är det en praktisk fråga att se till att data är förberedda och redo för AI-tillämpningar.

Inom ramen för Data Readiness Lab-projektet som koordineras av AI Sweden presenterar vi en samling fallstudier som undersöker frågorna om datatillgänglighet, validitet och användbarhet, utifrån erfarenheterna från fyra offentliga enheter: Strängnäs Kommun, Sveriges Kommuner och Regioner (SKR), Arbetsförmedlingen och Ekonomistyrningsverket (ESV).  

De presenterade användningsfallen fokuserar på de utmaningar som härrör från språkteknologi, på engelska Natural Language Processing (NLP), och de gäller därför hanteringen av text i maskininlärningssyfte. 

Du kan se en sammanfattning av lärdomarna här. 

Lärdomar som berör metoder och datahantering

Text är data. Det behövs en ökad förståelse inom offentlig sektor att data inte är
synonymt med sifferdata utan att även text är data, och att textdata inte är samma sak som textdokument. Textdata behöver extraheras från dokument, som kan ha olika grad av maskinläsbarhet beroende på filformat och olika grad av användbarhet beroende på vilken metadata som texten är taggad med.

Textdokument i PDF-format har låg grad av maskinläsbarhet. Textdata behöver
extraheras från dokumentet och PDF är inte ett format som underlättar detta.
Samtidigt så är PDF ett av de absolut vanligaste formaten för publicering av
textdokument i offentlig sektor. När PDF ändå används för att lagra textdata bör det vara i tillgänglighetsanpassat format (PDF/UA) med metataggar som tydligt indikerar textens struktur och uppdelning.

NLP-tillämpningar kan inte bli bättre än den data de bygger på. Avancerade
metoder kan bara delvis och i vissa fall kompensera för brister i datakvalitet. Med rätt
data i tillräcklig kvalitet kan samma problem ofta lösas på betydligt enklare sätt
samtidigt som det möjliggör mer avancerade tillämpningar.

Read more


Data, Execution


Vanliga begrepp inom Databeredskap

Här hittar du några vanliga begrepp inom databeredskap.

Insamling: processen att samla in rådata som kan vara relevant för ett AI-projekt. Källor kan vara olika (till exempel databaser, sensorer eller skrapning).

Rengöring: att korrigera eller ta bort felaktig, korrupt, felaktigt formaterad, ofullständig eller irrelevant data från ett dataset.

Validering: processen att kontrollera och säkerställa att insamlad data är korrekt, relevant och användbar innan den används.

Förberedelse: omfattar alla aktiviteter för att omvandla rådata till en form som bättre lämpar sig för analys, inklusive rengörning och transformation.

Transformation: att omvandla data från ett format till ett annat format, struktur eller värde för att till exempel uppfylla vissa krav, som normalisering eller skalning.

Berikning: processen att förbättra, förädla aller förbättra rå- eller primärdata med ytterligare information för att öka kvaliteten och värdet.

Lagring: handlar om var och när data sparas, och kan inkludera molnbaserade lösningar och databaser.

Sekretess: handlar om att skydda personlig och känslig information från obehörig åtkomst och spridning.

Metadatahantering: innebär att hantera information som beskriver olika aspekter av data, som ursprung, användning och format för att förbättra förståelsen och anvädningen av data.

2023-10-16 07:47 Linked List
2023-10-16 07:47 Linked List
2023-10-17 09:12 List