De aanpak van een data-analytics project
Het fundament onder een geslaagd project.
Om data-powered te worden, is het van belang om planmatig te werk te gaan, van de voorbereiding van ruwe gegevens tot het bouwen van een machine-learningmodel, en uiteindelijk, tot de operationalisering.
Hieronder onze kijk op deze fundamentele stappen van een data analytics projectplan. De stappen helpen ervoor te zorgen dat elk uniek project zakelijke waarde realiseert en het risico op fouten beperkt.
Stap 1: Business begrip
Inzicht in het bedrijf of de activiteit waarvoor de resulaten van het project gebruikt gaan worden is de sleutel tot het succes. Het is belangrijk dat het project het antwoord is op een duidelijke organisatorische behoefte om de verschillende belanghebbenden, die nodig zijn om uw project van ontwerp tot productie te brengen, te motiveren. Voordat er maar zelfs aan gegevens gedacht wordt, is een overleg met de mensen in de organisatie, van wie de processen of de activiteiten met behulp van gegevens worden verbeterd van belang. Vervolgens wordt een tijdlijn en concrete key performance indicators gedefnieerd.
Deze stap kan irrelevant lijken. Dat is het niet! Om motivatie, richting en doel te hebben, moet er een duidelijk doel geidentificeerd worden: een concrete vraag die beantwoord moet worden, een product dat gebouwd moet worden, etc.
Stap 2: Verzamelen data
Als het doel helder is, is het tijd om op zoek te gaan naar de benodigde data. Het combineren en samenvoegen van gegevens uit zoveel mogelijk gegevensbronnen is wat een dataproject geweldig maakt.
Er zijn een aantal manieren om aan bruikbare gegevens/data te komen:
- Verbinding maken met een (bedrijfs)database: Er wordt geinvetariseerd welke gegevens beschikbaar om te begrijpen welke informatie het bedrijf heeft verzameld.
- Het gebruik van (publieke) API's: Denk aan de API's voor alle tools die het bedrijf gebruikt en de gegevens die daarin verzameld zijn. Ook publiek beschikbare API's zijn een bron van informatie.
- Open data: Het internet staat vol met datasets om bestaande daya te verrijken met extra informatie. Met inwonergegevens kan bijvoorbeeld het gemiddelde inkomen toiegevoegd worden voor de wijk waar je gebruiker woont of via OpenStreetMap kan getoond worden hoeveel coffeeshops er in een bepaalde straat zijn. Veel landen hebben deze open data platforms.
Stap 3: Data schonen
De volgende stap is het "gevreesde" datavoorbereidingsproces, dat doorgaans tot 80% van de aan een dataproject bestede tijd in beslag neemt.
Zodra informatiebronnen geidentificeerd zijn, is het zaak te bepalen hoe de informatiebronnen aan elkaar gekoppeld kunnen worden om het oorspronkelijke doel te bereiken. De resultaten van de eerste analyses worden geevalueerd samen met de betrokkenen of andere groepen om te begrijpen wat al de variabelen betekenen.
De volgende stap (en verreweg de meest tijdrovende) is het opschonen van de gegevens. Door verschillende schrijfwijzen, of soms omtbrekende gegevens, is niet alle data meteen te combineren. Het uiteindelijke doel is om alle kolommen te bekijken om er zeker van te zijn dat uw gegevens homogeen en schoon zijn.
Een cruciaal element van de voorbereiding van gegevens, dat zeker niet over het hoofd gezien mag worden, is om ervoor te zorgen dat de gegevens en het project in overeenstemming zijn met de regelgeving inzake gegevensbescherming (o.a. AVG en GDPR). De privacy en bescherming van persoonsgegevens wordt een prioriteit voor gebruikers, organisaties en wetgevers. Om projecten uit te voeren die voldoen aan de privacyregels, worden alle data-inspanningen, -bronnen en -datasets gecentraliseerd op één plaats of in één tool om governance te vergemakkelijken. Vervolgens worden de datasets en projecten die persoonlijke en/of gevoelige gegevens bevatten, en daarom anders moeten worden behandeld, duidelijk gelabeld.
Stap 4: Data verrijken
In deze fase is "schone" data voorhanden kan deze gemanipuleerd wordem om er de meeste waarde uit te halen.
Allereersy worden de verschillende bronnen en groepslogboeken samengevoegd om de data te beperken tot de essentiële kenmerken.
Een voorbeeld daarvan is het verrijken van uw data door het creëren van tijd-gebaseerde kenmerken, zoals:
- Het extraheren van datumcomponenten (maand, uur, dag van de week, week van het jaar, etc.)
- Berekenen van verschillen tussen datumkolommen
- Markeren van nationale feestdagen
Een andere manier om gegevens te verrijken is door datasets samen te voegen, d.w.z. kolommen uit één dataset of tabblad op te halen in een referentie-dataset. Dit is een essentieel onderdeel van elke analyse. Belangrijk hierbij is dat gegevens samenvoegd kunen worden via een gestanddaardiseerd en, indien mogelijk, geautomatiseerd proces.
Bij het verzamelen, voorbereiden en manipuleren van de gegevens is het zaak dat er geen onbedoelde vertekeningen of andere ongewenste patronen worden aangebracht. De gegevens die worden gebruikt voor het bouwen van modellen voor machinaal leren en AI-algoritmen zijn vaak een weergave van de buitenwereld, en kunnen dus sterk bevooroordeeld zijn ten opzichte van bepaalde groepen en individuen. Een van de dingen die mensen het meest bang maken voor data en AI is dat het algoritme niet in staat is vooroordelen te herkennen. Als je je model traint op bevooroordeelde gegevens, zal het terugkerende vooringenomenheid interpreteren als een beslissing om te reproduceren en niet als iets om te corrigeren.
Daarom is een belangrijk onderdeel van het datamanipulatieproces ervoor te zorgen dat de gebruikte datasets geen vooroordelen reproduceren of versterken die tot bevooroordeelde, onrechtvaardige of oneerlijke resultaten kunnen leiden. Verantwoording afleggen over het besluitvormingsproces van het machine-learningmodel en in staat zijn dit te interpreteren wordt een steeds belangrijkere factor.
Stap 5. Inzicht via visualisaties
Als er sprake is van grote hoeveelheden data, is een visualisatie de beste manier om de bevindingen te verkennen en te communiceren.
Het lastige hier is om op elk moment in de grafieken te kunnen graven en elke vraag te kunnen beantwoorden die iemand zou hebben over een bepaald inzicht.
Als dit de laatste stap van je project is, is het belangrijk om API's en plugins te gebruiken, zodat de inzichten gepusht kunnen worden naar waar je eindgebruikers ze willen hebben.
Grafieken zijn ook een manier om je dataset te verrijken en interessantere functies te ontwikkelen. Door de datapunten bijvoorbeeld op een kaart te zetten, kan mogelijk opgemerkt kunnen worden dat specifieke geografische zones veelzeggender zijn dan specifieke landen of steden.
Stap 6. Voorspelbaarheid toevoegen
Machine learning-algoritmen kunnen helpen om een stap verder te gaan in het verkrijgen van inzichten en het voorspellen van toekomstige trends.
Door te werken met clusteringalgoritmen (aka unsupervised learning), kunnen modellen gebouwd worden om trends in de gegevens bloot te leggen die niet te onderscheiden waren in grafieken en statistieken. Deze creëren groepen van gelijkaardige gebeurtenissen (of clusters) en drukken min of meer expliciet uit welk kenmerk doorslaggevend is in deze resultaten.
Een vervolgstap is het voorspellen van toekomstige trends door middel van supervised algoritmes. Door gegevens uit het verleden te analyseren, vinden ze kenmerken die van invloed zijn geweest op trends uit het verleden, en gebruiken ze die om voorspellingen op te bouwen. Deze laatste stap levert niet alleen kennis op, maar kan ook leiden tot de ontwikkeling van geheel nieuwe producten en processen.
Ten slotte, om echt waarde uit het project te halen, moet het voorspellende model niet op de plank blijven liggen; het moet worden geoperationaliseerd. Operationalisatie (o16n) betekent simpelweg het inzetten van een machine learning model voor gebruik in een organisatie. Operationalisering is van vitaal belang voor de organisatie om de volledige voordelen van de data science-inspanningen te realiseren.
Stap 7. Itereren
Het belangrijkste doel bij elk bedrijfsproject is de doeltreffendheid ervan zo snel mogelijk te bewijzen dit geldt voor dataprojecten. Door tijd te winnen met het opschonen en verrijken van gegevens, kunt er snel naar het einde van het project gaan worden en kunnen de eerste resultaten behaald worden. Dit is de laatste fase van de voltooiing van het data-analytics project en een die van cruciaal belang is voor de gehele data levenscyclus.
Volgens O'Reilly is een van de grootste fouten die mensen maken met betrekking tot machine learning te denken dat zodra een model is gebouwd en live gaat, het voor onbepaalde tijd normaal zal blijven werken. Integendeel, modellen zullen in de loop der tijd juist in kwaliteit afnemen als ze niet voortdurend worden verbeterd en gevoed met nieuwe gegevens.
Ironisch genoeg zal erkend moeten wroden dat een model nooit volledig "af" zal zijn. Om het bruikbaar en nauwkeurig te houden, moet het voortdurend opnieuw geevalueerd, getraind wroden en dienen nieuwe functies ontwikkeld te worden.