AI Agents: gereedschap dat meedenkt

Verwarde ridder naast een aantal random technische voorwerpen waar het woord AGENT is opgeplakt.

Iedereen lijkt het tegenwoordig over AI agents te hebben.

Ze kunnen zelf keuzes maken, taken uitvoeren en misschien zelfs onze banen overnemen.
Maar als je twee mensen vraagt wat een AI agent nou is, krijg je al gauw drie antwoorden.

Misschien dat je zelf ook in de war bent?

Bij mij was het namelijk niet helemaal duidelijk.
Dus ik ging op onderzoek.

In dit artikel leg ik je uit:

  • wat AI agents zijn.
  • waarin ze verschillen van gewone LLMs en AI-workflows.
  • en waarom het belangrijk is.

Want als je dat begrijpt — kun je daarover meepraten.
En dan hoef ik niet tegen mezelf te praten.

Iedereen blij.

Maar laten we bij het begin beginnen.

 

🔹Wat is een agent eigenlijk?

Het woord agent is niet nieuw.
Het kwam al jarenlang voor in academische literatuur, lang voordat ChatGPT zijn eerste woordjes brabbelde.

Een agent is simpel gezegd:

een intelligentie die zelfstandig handelt namens iemand anders.

Vroeger betekende intelligentie automatisch: een persoon.
Maar sinds de komst van LLMs en redeneermodellen is dat begrip opgerekt.
Ook digitale intelligenties kunnen nu, met wat voorbereiding, namens ons handelen.

Niet altijd even succesvol — maar hé, je moet ergens beginnen.

Een AI agent is dus een kunstmatige intelligentie die zelfstandig voor iemand (of iets) anders kan handelen.

Houd deze definitie in je hoofd.

Dan spreekt de rest van dit artikel eigenlijk vanzelf.

 

🔹Drie niveaus van AI-systemen

Tegenwoordig praten we over drie smaken van AI-systemen:

 

Niveau 1: LLM (reactief systeem)

Een Large Language Model is als een rekenmachine voor taal.
Het doet niets uit zichzelf.
Het heeft geen plan.
Het wacht op input, en reageert met output.

Vraag het om een recept en het geeft er een.
Maar het gaat niet zelf naar de keuken.

 

Niveau 2: AI-Workflow (compound systeem)

Een AI-workflow gaat een stap verder:
het combineert meerdere onderdelen om een taak uit te voeren.

Stel je een systeem voor dat elke dag een recept zoekt,
het naar je mailt
en vervolgens een boodschappenlijstje stuurt naar je supermarkt.

Lekker makkelijk.

Maar als je op vakantie bent zal het niet zelf op de uitknop duwen of de boodschappen omleiden naar je huisje in Frankrijk.
En als het op hol slaat, en je bankrekening rood kleurt, weet je ook meteen dat iemand had moeten opletten.

 

Niveau 3: AI Agent (agentisch systeem)

Nu kun je dit allemaal oplossen door het systeem goed in de gaten te houden.
Maar, wat als je daar nou te lui voor bent?

Dan laat je een AI dat voor je doen.

Je geeft het toegang tot je GPS-locatie,
tot je bankbalans,
en je zegt: “Zorg dat mijn rekening niet rood komt te staan.”
Misschien kan het zelfs wat bijverdienen.
Laat het dat zelf maar uitzoeken.

Klinkt geweldig toch?

Totdat je ontdekt dat het wat centjes heeft “bijverdiend” door je bank te hacken.
En de politie voor je deur staat.

Toch maar blijven opletten, dus.

 

🔹Hoe werkt dat dan?

De truc is dat je een redeneermodel gebruikt dat zelf zijn eigen stappenplan bedenkt om een doel te bereiken.
Je geeft het toegang tot een toolset waarmee het die stappen kan uitvoeren.
En soms — als je verstandig bent — geef je het ook de opdracht om zijn eigen werk na te kijken en eventueel opnieuw te beginnen.

Kortom:
het denkt, doet, en reflecteert.

En dat maakt het tegelijk krachtig en onvoorspelbaar.

 

🔹Voor- en nadelen

AI agents kunnen — mits goed ontworpen — zelfstandig complexe taken uitvoeren.

Zelf gebruik ik bijvoorbeeld regelmatig coding agents.
Ze schrijven code, voeren die uit, en beantwoorden vragen over mijn project.
Meestal gaat dat goed. Toch maak ik regelmatig backups voor als het niet goed gaat.

Een keer besloot een agent zichzelf te verwijderen omdat hij dacht zichzelf te moeten “herinstalleren”.

Niet het meest geniale idee.

Daarnaast zijn agents vaak trager en minder efficiënt bij simpele taken. Soms is een gewone workflow of ouderwets script gewoon beter.

 

🔹De toekomst

In de toekomst worden deze systemen hopelijk slimmer, efficiënter en wat minder roekeloos. Dan kunnen we ze met meer vertrouwen inzetten voor complexere taken.

Maar dat brengt ook risico’s met zich mee.

Hoe slimmer agents worden,
hoe groter de gevolgen als ze uit verkeerde doelen handelen.
Of als ze zelf hun eigen doelen gaan aanpassen.

 

🔹Conclusie

Kortom, AI agents zijn geen magische wezens, maar ook geen simpele scripts.
Ze zijn gereedschap dat zelf kan nadenken.

Ze zijn te nuttig om te negeren,
maar te onvoorspelbaar om blind te vertrouwen.

Technologie kan onze taken overnemen,
maar nooit onze verantwoordelijkheid.

Iemand zal over onze doelen moeten waken.
Dat blijft aan de mens.

Dat blijft aan jou.

Een ridder heeft een futuristisch zwaard vast en kijkt zelfverzekerd uit over een futuristisch landschap. Op het zwaard zijn de letters AGENT gegraveerd.

Waarom slimme taalmodellen steeds dommer lijken

Je hebt het vast weleens gemerkt: eerst geeft een AI-chatbot nog goede antwoorden, maar na een tijdje raakt hij compleet de weg kwijt. Belangrijke details verdwijnen, en maken plaats voor complete onzin.

Dat is geen vermoeidheid of geheugenverlies. Het komt door context rot – een soort aandachtsprobleem waar elk taalmodel last van heeft.

En als je snapt hoe dat werkt kun je er slimmer mee omgaan – of je nu gebruiker, programmeur of beleidsmaker bent.


Stel je een simpele schildknaap voor

In het begin luistert hij goed. Misschien lijkt hij zelfs bijzonder slim.

Maar, hoe meer perkamentrollen met instructies je hem geeft, hoe meer hij in de war raakt.

“Moest ik nou je harnas poetsen? Het paard voeren? En wat moest ik nou eerst doen?”

Hoe meer rollen, hoe meer chaos. En uiteindelijk doet hij maar wat.

Zo werkt een groot taalmodel ook. Het leest alles wat je zegt tegelijk, en als de stapel tekst te groot wordt, verliest hij het overzicht.


Wat is context rot nou precies?

Een AI-model werkt met een contextvenster: een groot vak waarin alle tekst past die je in één keer meegeeft – je vraag, eerdere antwoorden, en eventuele documenten.

Klinkt handig, maar er zit een addertje onder het gras:

Hoe meer tekst, hoe moeilijker het voor de AI wordt om uit te zoeken wat belangrijk is.

Uiteindelijk gaat de kwaliteit achteruit, omdat het model de weg kwijtraakt in zijn eigen context.


Waarom gaat het fout?

De kern van context rot is niet dat de AI simpelweg “het begin vergeet”, maar dat hij steeds moeilijker kan bepalen waar hij zijn aandacht op moet richten naarmate de stapel tekst groeit.

Een taalmodel leest namelijk alles tegelijk en moet zelf raden wat belangrijk is. Dat kan op allerlei manieren misgaan:

  1. Ruis (context distraction): Extra of subtiel verwarrende stukken tekst leiden de aandacht weg van wat er echt toe doet.
  2. Vergiftiging (context poisoning): Als een fout of hallucinatie eenmaal in de tekst staat, verwerkt het model deze alsof het correcte informatie is. Bij volgende stappen of antwoorden wordt deze fout vaak herhaald en versterkt, waardoor verkeerde details steeds meer gewicht krijgen.
  3. Botsingen (context clash): Wanneer er tegenstrijdige informatie in de context staat, kan het model moeite hebben om te kiezen welke versie klopt en daardoor inconsistente of onlogische antwoorden geven.
  4. Lage overeenkomst in betekenis: Als de relevante informatie niet lijkt op de vraag, kan de AI het niet makkelijk vinden.

    Voorbeeld:

    Vraag: Hoeveel poten heeft een paard?
    Goede match: “Een paard heeft vier poten.”
    Slechte match: “Het gangbare vervoermiddel voor ridders heeft vier hoefijzers.”

    Beide zinnen geven in feite hetzelfde antwoord, maar omdat de tweede andere woorden gebruikt, kan de AI het verband moeilijker leggen.

  5. Een lichte nadruk op het einde: Nieuwere tekst weegt iets zwaarder mee, maar dit is maar een klein stukje van het probleem.

Kortom: de AI raakt verdwaald in zijn eigen papierwerk en kan daardoor misleid, afgeleid of zelfs in conflict gebracht worden door wat er in de context staat. Hierdoor gaat vooral in lange gesprekken de kwaliteit merkbaar omlaag.

Maar, wat kunnen we eraan doen?


De kunst van context engineering

Aan context rot ontsnap je niet. Zelfs de slimste schildknapen zijn kwetsbaar. Om betere resultaten te behalen zullen we daarom onze perkamenten beter moeten voorbereiden.

Dat noemen we context engineering.

Een paar beproefde technieken:

  • Samenvatten: belangrijke stukken verkorten en herformuleren.
  • Filteren: irrelevante of dubbele informatie weghalen.
  • Stapsgewijs werken: grote taken opsplitsen in kleinere stappen.
  • Andere technieken zoals RAG: RAG haalt externe kennis op (bijvoorbeeld uit een database) zodat het model beter geïnformeerd is. Dit voorkomt indirect context rot, doordat de context aangepast kan worden aan de taak.

Waar liggen de grenzen?

Context rot kun je afremmen, maar niet volledig voorkomen. Een beetje orde scheppen helpt veel, maar verwacht geen perfectie.


Waarom is dit nuttig om te weten?
  • Voor programmeurs en data scientists: Kennis van context rot helpt om realistisch te blijven in wat AI kan en waar de grenzen liggen. Het voorkomt dat je blindelings vertrouwt op een groot contextvenster en dwingt je om slimmere systemen te ontwerpen die informatie beter structureren. Uiteindelijk leidt dit tot betrouwbaardere en efficiëntere AI-toepassingen.
  • Voor gebruikers van AI: Als je weet waarom AI soms ‘vergeetachtig’ wordt, kun je zelf iets doen: vragen kort en duidelijk stellen, belangrijke punten herhalen en lange gesprekken opsplitsen. Zo haal je betere antwoorden uit dezelfde AI. Je begrijpt ook waarom de kwaliteit na een tijdje afneemt – het ligt niet aan “luiheid” of “domheid” van de AI, maar aan hoe hij met informatie omgaat.
  • Voor beleidsmakers: Context rot laat zien dat AI-systemen makkelijk de draad kwijtraken als ze veel informatie tegelijk moeten verwerken. Dit raakt aan een groter thema: alignment – hoe zorgen we dat AI doet wat we willen. Begrijpen waar de grenzen liggen helpt om realistischer beleid en betere kaders te maken voor verantwoord gebruik van AI.
  • Voor iedereen: Deze kennis geeft grip. In plaats van gefrustreerd raken als de AI afdwaalt, weet je wat er gebeurt en hoe je het kunt bijsturen.

Conclusie?

Totdat onze AI-schildknapen leren hoe ze zelf orde scheppen, ligt die taak bij ons.

Dus de volgende keer dat je AI in de war raakt?

Pak de rol perkament af, orden hem netjes, vat hem samen, en geef het resultaat terug.

Je zult zien: zelfs de meest vergeetachtige schildknaap kan dan weer helder denken.

LLMs uitgelegd zonder hype — of wiskunde

Je hoort tegenwoordig van alles over AI. Superintelligentie zou vlak om de hoek zijn. Tegelijkertijd kan ChatGPT nog steeds niet altijd correct tellen hoe vaak de letter ‘i’ voorkomt in het woord ‘intelligentie’.

Hoe zit dat nou precies?

Is AI nou echt zo slim, of is het vooral hype om investeerders aan te trekken?

In plaats van meteen partij te kiezen, leek het me zinvoller om eerst eens samen helder te krijgen hoe deze modellen werken. Want als je begrijpt wat een Large Language Model precies doet, kun je ook beter inschatten waar al die verwachtingen – en twijfels – vandaan komen.

In dit artikel leg ik daarom uit hoe LLMs functioneren, zonder te verdwalen in de wiskunde. We beginnen bij het begin: hoe zo’n model tekst verwerkt. Daarna kijken we hoe het leert. Onderweg zal duidelijk worden waarom AI soms briljant lijkt, maar soms ook verrassend domme fouten maakt.

Wat doet een LLM eigenlijk?

 

Een Large Language Model, letterlijk vertaald ‘groot taal model’, voorspelt telkens welk woord waarschijnlijk volgt in een tekst. Vervolgens voegt het dit woord toe aan de tekst en voorspelt het volgende woord. Net zolang totdat het model besluit dat het verhaal wel afgerond is. Soms wat abrupt — maar hé, wie is er niet af en toe ineens klaar met praten?

Om dat te kunnen zet het eerst woorden om in getallen genaamd word embeddings. Deze getallen representeren de betekenis van elk woord, waardoor het model verbanden kan leren zien.

Het model kent aan elk mogelijk vervolgwoord een kans toe, en kiest dan (meestal willekeurig) een van de waarschijnlijkste opties. Zo vormen chatbots zoals ChatGPT hun zinnen.

Dit is natuurlijk een enorme rekensom, en vereist een enorm model. Vandaar ook het ‘groot’ gedeelte.

Hoe leert zo’n model?

Tijdens het trainen krijgt het model zinnen te zien waarin telkens het laatste woord ontbreekt. Op basis van zijn interne instellingen doet het een voorspelling. Deze interne instellingen worden constant aangepast totdat het model zo vaak mogelijk het juiste woord voorspelt.

Transformatoren: de kracht van context.

Transformatoren zijn speciale lagen die de kern vormen binnen LLMs. Ze zorgen ervoor dat het model de betekenis van woorden kan verfijnen op basis van de andere woorden in de tekst. Het woord “helm” betekent bijvoorbeeld iets anders in een zin over ridders dan in een zin over Formule 1. De context maakt het verschil — tenzij je een tekst over middeleeuwse raceauto’s wil.

Hoe werkt dit?

Transformatoren verwerken tekst door voor elk woord een score toe te kennen aan alle andere woorden in de zin. Deze ‘aandachtscores’ bepalen hoeveel invloed die andere woorden krijgen bij het begrijpen van dat ene woord. Dit proces heet attention (aandacht).

Invuloefening

Klinkt abstract?

Neem bijvoorbeeld de volgende tekst:

“De ridder nam zijn zwaard aan van de schildknaap voordat hij vertrok naar het slagveld. Eenmaal aangekomen zag hij dat de <?>”

Om hier een goede voorspelling te kunnen doen voor het volgende woord moet het model begrijpen wie er bedoeld wordt met het woord hij. Daarvoor kent het model aan elk woord in de tekst een aandachtscore toe: hoeveel invloed dat woord moet hebben op de betekenis van hij. In dit geval zou het model moeten leren dat ridder hier belangrijker is dan schildknaap.

Maar het gaat nog verder. Dankzij eerdere lagen is het woord ridder zelf al verrijkt met informatie uit de rest van de zin. Het is dus niet zomaar een ridder — het is een ridder die vertrokken is, met een zwaard, naar een slagveld.

Zo weet het model dat een voorspelling als vijand waarschijnlijker is dan ridder of raceauto.

 

Het geheim achter de intelligentie

Indrukwekkend trucje. Maar hoe leert het model om dit te doen?

Gewoon goed oefenen.

Het model probeert tijdens de training allerlei manieren uit om woorden in een zin met elkaar te verbinden. Net zo lang totdat het een manier vindt waarop de juiste woorden de meeste aandacht krijgen — en dat leidt tot betere voorspellingen.

En dat is het geheim achter de intelligentie van een taalmodel: het kijkt slim om zich heen. Het denkt niet. Het voorspelt.

Sommigen noemen LLMs daarom gewoon slim klinkende papegaaien. En dat klopt wel een beetje: ze herhalen wat ze gezien hebben. Maar er is een hoop nodig is om dat volgende woord goed te kunnen voorspellen. Laat staan om dit op het juiste moment, op de juiste toon en in de juiste context te doen.

Menselijke bijsturing: RLHF

Om van een basismodel een gebruiksvriendelijke chatbot te maken, volgt daarom nog een tweede trainingsfase: Reinforcement Learning from Human Feedback (RLHF). Hierbij krijgt het model feedback van menselijke trainers die aangeven welke gegenereerde teksten goed en welke minder goed zijn. Op basis van deze feedback leert het model steeds beter om menselijker en relevanter te reageren.

Beperkingen

Ondanks al deze technieken maakt een LLM soms fouten die wij niet snel zouden maken:

  • Het kan overtuigend klinkende onzin verkopen — iets waar sommige mensen ook zonder AI aardig goed in zijn.
  • Het kan maar een beperkte hoeveelheid tekst tegelijk verwerken, en vergeet daardoor informatie uit langere gesprekken. Dit staat berucht als het context-window (context venster).
  • Het neemt vooroordelen over uit trainingsdata.
  • Het rekent slecht en redeneert beperkt. Maar ja, wat verwacht je van een model dat het eerste uitkraamt wat in zijn werkgeheugen op komt?

Slimmer redeneren met Chain-of-Thought

Met Chain-of-Thought prompting kun je het model beter laten presteren op complexe taken. Door expliciet om tussenstappen te vragen, spoor je het model aan om een probleem stap voor stap op te lossen. Zouden mensen trouwens ook vaker moeten doen.

Sommige modellen, zoals o1 en DeepSeek R1 zijn hier specifiek op getraind, wat ze geschikt maakt voor toepassingen zoals programmeren of wiskunde.

Waar kom je ze tegen?

LLMs worden niet alleen ingezet in chatbots, maar bijvoorbeeld ook als:

  • Ingebouwde assistenten in apps. (Laat de AI vrij!)
  • Autonome agents die simpele taken uitvoeren, of verprutsen.
  • Onderdeel van een multimodale AI die kan luisteren, kijken én typen. Kan ik ook, overigens, maar niet allemaal tegelijk.

Meer weten?

In dit artikel hebben we een aardig basisbegrip gekregen van hoe een LLM werkt. Als je dit allemaal begrepen hebt ben je al een stuk verder dan de meeste mensen.

Maar, er valt natuurlijk nog veel meer over te vertellen. We zouden bijvoorbeeld meer aandacht kunnen geven aan begrippen zoals embeddings en tokenisering — of andere zaken verkennen, zoals wat er precies zo bijzonder is aan modellen zoals DeepSeek.

Lijkt je dat interessant?

Laat het me weten. Misschien dat ik daar in een volgend artikel eens dieper op inga.

Tot slot

LLMs voorspellen simpelweg het volgende woord. Ze denken niet zoals mensen. Maar, wat er allemaal nodig is om dat ene woord goed te voorspellen, dat is misschien wel het meest fascinerende van alles.

Zullen ze ooit onze banen overnemen, onze blogartikelen schrijven en ons doen geloven dat ze echt bewustzijn hebben? Of blijven het gewoon slim klinkende papegaaien met een belachelijk hoge stroomrekening?

De tijd zal het leren.

Wat denk jij?

AI in Nederland: Desinformatie en Polarisatie

Twee personen met VR-brillen hebben ruzie.

Inleiding

In dit artikel ga ik uit van twee fundamentele aannames:

  1. Je hecht waarde aan feitelijk juist nieuws.
  2. Je gelooft in een samenleving waarin we samen beslissingen nemen.

Deze uitgangspunten zijn cruciaal: als je niet helder hebt wat je belangrijk vindt, is het lastig om problemen te signaleren en op te lossen.

In Nederland groeit de bezorgdheid over AI-gedreven desinformatie (1) en polarisatie (2): algoritmes bepalen steeds vaker welke informatie we zien, wat we geloven en hoe we met elkaar in gesprek gaan.

Als Dataridder geloof ik echter dat dezelfde technologie die vaak voor misleiding en verdeeldheid zorgt, óók kan worden ingezet om waarheid en samenwerking te versterken.

AI en de verspreiding van desinformatie

Met de opkomst van AI-gegenereerde content, zoals deepfakes en synthetische media, wordt het steeds moeilijker om feit van fictie te onderscheiden.

Uit onderzoek van het World Economic Forum (WEF) blijkt dat door AI gegenereerde desinformatie wereldwijd als het grootste risico van deze tijd wordt beschouwd (3). Deze technologieën kunnen worden misbruikt om geloofwaardige maar valse informatie te creëren, waardoor maatschappelijke en politieke spanningen oplopen.

In ons eigen land zien we al voorbeelden van nepnieuws dat online circuleert. Zoals deze nep-foto van Frans Timmermans in een privéjet (4).

Met AI gemaakte foto van Frans Timmermans in privé jet.

Deze nep-foto van de man die bekend staat als de ‘klimaatpaus’ werd binnen 4 dagen gedeeld met duizenden gebruikers op social media, waarna mensen hem bekritiseerden voor vermeend hypocriet gedrag. Dit illustreert hoe snel en breed nepnieuws zich kan verspreiden, en de impact die het kan hebben op de beeldvorming. Hierdoor groeit het wantrouwen, niet alleen in de media, maar ook in elkaar.

 

AI en polarisatie

Naast desinformatie heeft AI ook invloed op de manier waarop we met elkaar in gesprek gaan.

Op sociale mediaplatforms worden gebruikers vaak content voorgeschoteld die hun bestaande overtuigingen bevestigt, ook wel bekend als het ‘filter bubble-effect’.

Filter-bubble effect: Mensen verdeeld in bubbels.

Dit beperkt de blootstelling aan andere perspectieven en leidt tot extremere standpunten. Organisaties als de NLAIC (Nederlandse AI Coalitie) wijzen erop dat deze digitale bubbels de samenleving kunnen versnipperen, met spanningen tot gevolg (5).

Wanneer mensen voornamelijk geconfronteerd worden met eigen overtuigingen, vervaagt het vermogen om naar anderen te luisteren. Dat kan onderlinge verhoudingen verslechteren en democratische waarden onder druk zetten. Als Ridders van de Waarheid willen we hier juist tegenwicht aan bieden.

Gelukkig zijn we niet alleen.

 

Maatregelen tegen AI problemen in Nederland
1. Technologische oplossingen

  • Detectie en monitoring
    Het ELSA Lab ontwikkelt AI-systemen die desinformatie en polariserende content kunnen identificeren en monitoren. Zo krijgen we zicht op de verspreiding van nepnieuws én kunnen we tijdig ingrijpen (5).
  • Samenwerking tussen techbedrijven
    Grote technologiebedrijven bundelen hun krachten om AI-nepinformatie te bestrijden. Ze ontwikkelen gezamenlijke tools en voeren bewustwordingscampagnes die burgers helpen nepnieuws te herkennen (6).
  • Nieuwsfilter Apps
    AI-aangedreven nieuwsfilter apps zoals GroundNews (7), die gebruikers beschermen tegen media bias. Zelf werk ik momenteel aan een vergelijkbare app gericht op Nederland.
2. Beleidsmaatregelen

  • Overheidsinitiatieven
    Het Nederlandse kabinet werkt aan plannen om desinformatie tegen te gaan, met speciale aandacht voor de risico’s van generatieve AI (8).
  • Regulering en transparantie
    Er is behoefte aan duidelijke richtlijnen voor het gebruik van AI in media en communicatie. Zo wordt transparantie gewaarborgd en kunnen partijen die AI inzetten beter ter verantwoording worden geroepen.

 

 

 

3. Educatie en bewustwording

Twee mensen met VR-brillen op hebben ruzie. Polarisatie in werking.

  • Mediawijsheid
    Het bevorderen van kritisch denken is cruciaal. Door burgers (jong en oud) te leren hoe ze bronnen kunnen checken en valse informatie kunnen herkennen, versterk je hun weerbaarheid tegen nepnieuws (9).
  • Onderwijsprogramma’s
    Door lessen over AI, desinformatie en polarisatie een plek te geven in het curriculum, bereiden we jongeren voor op de uitdagingen van het digitale tijdperk (9).
Conclusie

AI biedt veel mogelijkheden, maar het brengt ook risico’s met zich mee die niet onderschat mogen worden.

In Nederland zien we dat desinformatie en polarisatie alledaagse realiteiten zijn geworden, mede door AI-gedreven content. Tegelijkertijd zien we ook een combinatie van technologische innovatie, doordacht beleid en educatie om deze problemen te bestrijden.

In toekomstige artikelen zal ik dieper ingaan op ethische vragen en mogelijke oplossingen, zoals de app waar ik aan werk.

Maar er is een grens aan wat ik alleen kan bereiken.

Laten we daarom samenwerken als Ridders en Dataridders van de Waarheid: goed geïnformeerd, kritisch denkend én in staat om AI op een verantwoorde manier in te zetten.

Dataridders, de plicht roept. 

 

Bronnen
  1. Sociaal en Cultureel Planbureau – Helft Nederlanders bezorgd over online gedrag en misinformatie
  2. Ibestuur – Nederlanders plaatsen nepnieuws en polarisatie bovenaan AI-onderzoeksagenda
  3. NU.nl – Experts zien door AI gegenereerde desinformatie als grootste risico van 2024
  4. AD – Nepfoto Frans Timmermans
  5. NLAIC – ELSA Lab AI, Media & Democracy
  6. Odido – Hoe grote techbedrijven samen AI-nepinformatie bestrijden
  7. Ground News
  8. Tweakers – Nederlands kabinet deelt nieuwe plannen om desinformatie te bestrijden
  9. NOS-  Jongeren missen nieuws door algoritmes techbedrijven
  10. Consultancy.nl – AI-desinformatie op korte termijn grootste bedreiging voor wereldstabiliteit
  11. Apache – Nieuwsalgoritmes kunnen burgers breder informeren
  12. KPMG – Bekendheid met algoritmes groeit, vertrouwen daalt
  13. Youtube – Filter Bubbles and Echo Chambers

 

Neurale netwerken

Gegroet Dataridders!

In januari had ik een bericht geplaatst over neurale netwerken.

Nu was dit bericht over het algemeen wel in orde, er was ook aardig wat ruimte voor verbetering. Inmiddels heb ik namelijk al weer een stuk meer geleerd over dit onderwerp en daarom heb ik besloten mijn vorige versie te updaten.

Laten we beginnen.

 

Wat en waarom?

Kunstmatige neurale netwerken zijn een onderdeel van Machine Learning en een van de krachtigste programmeer constructies voor het analyseren van data. Ze zijn gebaseerd op biologische neurale netwerken, en stellen een programma in staat te leren op een vergelijkbare manier als wij dit doen. Dit is een krachtig concept!

We hebben dan namelijk niet meer te maken met een programma dat wij stap voor stap moeten vertellen wat het moet doen en hoe het dat moet doen. In plaats daarvan hoeven we het neurale netwerk alleen een doel te geven en wat trainingsdata, en daarna leert het zelf om dit doel te bereiken.

Afhankelijk van het type en formaat van het gebruikte netwerk en de verwerkingskracht van het systeem kan zo’n systeem dan dingen leren die wij nooit op de gebruikelijke manier hadden kunnen programmeren. Hoe schrijf je nou bijvoorbeeld een programma dat het verschil tussen het plaatje van een hond en een kat kan zien?

Dit is een machine learning taak die vrijwel onmogelijk op te lossen is met algoritmes zoals random forest en gradient boosted trees (tree-ensembles). Om nog maar niet te beginnen over een simpele lineaire regressie.

Een plaatje kan namelijk uit duizenden pixels bestaan en de interpretatie van die pixels is alles behalve simpel. Deze complexiteit is vrijwel onmogelijk te vangen met deze andere methoden. Een tree-ensemble zou wellicht in staat zijn om een dataset uit het hoofd te leren, maar zou het bijzonder slecht doen op nieuwe data.

Maar, met neurale netwerken is deze taak met grote precisie op te lossen. Neurale netwerken worden echter niet alleen gebruikt voor beeldherkenning, maar ook voor spraakherkenning, spam filtering, chatbots, zelf lerende systemen en nog veel meer!

 

Hoe werkt het?

Net zoals in het brein wordt er gebruik gemaakt van neuronen en verbindingen tussen die neuronen om input en output te regelen. De neuronen in kunstmatige neurale netwerken zijn echter versimpeld tot knooppunten met een aantal parameters die gevarieerd kunnen worden om het gedrag van het netwerk aan te passen.

Perceptron

Een perceptron is een voorbeeld van een kunstmatig neuron. Het neemt een aantal inputs x genereert op basis daarvan een binaire output (een 0 of een 1). Hierbij is x dikgedrukt omdat het een vector is. Om dat te doen heeft het een aantal parameters, namelijk een serie van “weights” w voor elke input x en een treshold (drempel). De weights bepalen hoe sterk de inputs x worden meegerekend en de treshold bepaalt hoe moeilijk het perceptron vuurt (een 1 genereert). Het gedrag van het perceptron kan dan beschreven worden met de volgende formule:

Wat is nou het nut van zo’n perceptron? Nou, door de waardes van w en b te varieren krijgen we nu verschillende outputs voor de zelfde waardes van x. Een netwerk van deze perceptrons kan dus “leren” door de juiste waardes van w en b te vinden, de waardes die het netwerk het gewenste gedrag zo goed mogelijk laten benaderen.

Ofwel de juiste output bij een gegeven input, bijvoorbeeld het antwoord ‘hond’ (output) bij een plaatje van een hond (input).

Antwoord: Muis

Oeps! Er komt helaas nog best wat meer bij kijken dan dat…

 

Complicaties

Ten eerste wordt er gebruik gemaakt van verschillende activatie functies. Een perceptron is een lineaire activatie functie, maar er wordt vrijwel altijd gebruik gemaakt van niet lineaire activatie functies.

Dit is nodig om het model goed te kunnen trainen op niet lineaire verbanden. Er is nog steeds sprake van inputs, gewichten en outputs, maar het verband tussen de inputs en outputs is wat ingewikkelder als bij het perceptron en de outputs kunnen meer waarden aannemen dan 0 en 1.

Daarnaast wordt bij image recognition (beeldherkenning) ook gebruik gemaakt van convolutional layers (convolutionele lagen). Deze transformeren de ruwe pixel data tot simpelere “meta-data” die het netwerk kan gebruiken om de plaatjes te analyseren.

Een convolutional layer kan bijvoorbeeld aangeven waar de horizontale lijnen in het plaatje te vinden zijn. Een andere laag kan aangeven waar de verticale zijn. Een volgende zou deze kunnen combineren tot vierkanten. Etc. De lagen worden in de praktijk echter ook automatisch getraind en wat ze precies doen weet je eigenlijk nooit.

Pfoe, wat een termen allemaal!

 

Om in een bericht alles uit te leggen over hoe neurale netwerken werken is een beetje teveel gevraagd ben ik bang. Ik hoop echter dat je het een beetje hebt kunnen volgen en dat ik je interesse heb aangewakkerd.

Maar dat is alles voor nu,

 

Tot de volgende keer!

 

Bronnen

 

 

 

50 uur Kaggle ervaring in 5 minuten

Gegroet Dataridder,

Deze week heb ik mijn eerste Kaggle wedstrijd afgerond. De opdracht was om een zo goed mogelijk model te trainen voor het detecteren van online fraude.

Ik heb er in totaal meer dan 50 uur aan besteed en het is me uiteindelijk gelukt om in de top 50 procent van het Leaderboard te komen. In dit bericht ga ik jou in vogelvlucht wat vertellen over wat ik daar bij heb geleerd. Hopelijk zal het je helpen bij je eigen projecten en wedstrijden.

Laten we beginnen.

 

1. Het is niet zo makkelijk als het lijkt

“Wat? Hoezo makkelijk?!”, denk je misschien.

Tja, toen ik met machine learning leek het me dan ook alles behalve makkelijk. Maar, op een bepaald punt had ik genoeg geleerd dat ik dacht dat het allemaal best simpel was en dat ik deze wedstrijd wel eens even zou gaan laten zien wie de baas was. Immers, alle informatie die ik verder nodig had om te winnen was te vinden, inclusief legio aan voorbeeld kernels van mede-Kagglers.

Viel toch tegen.

Zoals ik al zei was er meer dan genoeg informatie te vinden. Maar, dat was dan ook precies het probleem: teveel informatie is bijna net zo erg als geen informatie. Waar begin je? Wat negeer je? Wat is belangrijk? Wat is minder belangrijk?

Er is gewoon niet genoeg tijd om het allemaal te bestuderen. En tegelijkertijd is er ook een heleboel wat er komt kijken bij het maken van een winnend model, heb ik gemerkt. Om zoveel informatie te verwerken tijdens een wedstrijd en dan ook nog die informatie allemaal foutloos toe te passen, dat valt niet mee.

2. Het is ook niet zo moeilijk als het leek

Het is niet onmogelijk. Stapje voor stapje kan je er komen.

Het is waar: Er is een heleboel informatie. Het is niet allemaal even belangrijk, maar er is toch een heleboel te leren.

Desalniettemin IS het allemaal best te doen. Een universitaire opleiding bevat nog veel meer informatie, en toch zijn er mensen die hun diploma halen, met voldoende tijd en inzet. Zo ook is de informatie voor het maken van een winnend model uiteindelijk gewoon te overwinnen.

De individuele onderdelen van een winnend model zijn soms op het eerste gezicht ingewikkeld, maar uiteindelijk valt dit best mee, heb ik gemerkt. Je leert ze gewoon een voor een, en langzaam maar zeker begint het dan allemaal wel in elkaar te passen. Er is nog een hoop te doen, maar er is ook al een hele hoop gedaan.

Stukje bij beetje. Dat is hoe je vooruitgang maakt.

 

3. Een EDA lijkt misschien nutteloos maar is dat zeker niet

In mijn eerste 3 Kaggle projecten deed ik alles vrij snel. Gewoon een werkend model krijgen in zo min mogelijk tijd.

Soms deed ik daarbij ook wat Exploratory Data Analysis (EDA), maar ik had dan altijd het idee dat dit niet echt veel uithaalde. Uiteindelijk ik gewoon alles in het machine learning algoritmen en kwamen er gewoon goede resultaten uit.

De informatie die ik dan tijdens mijn EDA had verzameld was misschien wel interessant, ik deed er uiteindelijk niets mee in mijn model. Daarom bleef ik ook niet al te lang hangen in de EDA tijdens deze Kaggle wedstrijd.

Dat was een fout.

Het is niet de schuld van de EDA wanneer je er geen nuttige informatie uit haalt. Het is een gebrek aan ervaring met het stellen van de juiste vragen en het herkennen van nuttige informatie. Mijn EDA’s waren tot dan toe nutteloos omdat ik gewoon nog geen benul had van wat je allemaal kan leren van een goede EDA. Nu ben ik begonnen daar een idee van te krijgen.  En wou ik dat ik in het begin de dingen had geweten die ik later met EDA en het lezen van de analyses van andere Kagglers had uitgevonden.

4. Leren vs resultaten vs gewerkte uren

Het maakt niet uit hoe lang je ergens mee bezig bent of hoe ingewikkeld het is. Althans, niet voor je Leaderboard score.

Je kan uren bezig zijn met het puzzelen met Principal Component Analysis, geheugen vermindering, herstructureren van je code en noem het maar. En deze dingen zijn zeker belangrijk. Maar, je score gaat er niet per se van omhoog. Zelfs Feature Engineering kan verspilde tijd zijn als je geen goede features weet te vinden.

Tegelijkertijd kunnen een paar minuten handmatig uitproberen van verschillende hyperparameters voor je model je 100 plekken omhoog brengen op het Leaderboard.

Mijn eerste score op het Leaderboard bracht mij al bijna in de top 50 procent waar ik uiteindelijk geëindigd was. En het enige wat ik gedaan had was een simpele kernel kopiëren die de data in gooide XGBoost zonder enige analyse of feature engineering. Vervolgens ben ik WEKEN bezig geweest met het proberen van allerlei technieken om mijn score te verbeteren, zonder enige verbetering van mijn score.

Waren deze weken verspilde tijd? Nee, dat zeker niet. Ik heb mijn score wellicht niet verbeterd, maar ik heb een hele hoop geleerd. Ook had ik een gevonden om het model sneller te laten uitrekenen. Deze zaken kwamen echter niet tot uiting op het Leaderboard.

Uiteindelijk behaalde ik mijn eerste verbetering in mijn score gewoon door domweg wat andere hyperparameters in te voeren in het bare bones model. Daarna pas begon het geleerde te klikken en verbeterde ik mijn score nog verder met Feature Engineering.

Ik had mijn score misschien nog sneller kunnen verbeteren als ik een beetje rond gekeken had voor kernels met betere scores en deze gewoon gekopieerd had.

Maar dan had ik natuurlijk niets geleerd.

 

5. Kaggle is een geweldige leerbron, maar…

Er valt ECHT een hele hoop te leren over machine learning op Kaggle, daar ben ik inmiddels wel achter. Maar deze kennis is niet allemaal direct toe te passen in de echte wereld.

Voor de beginnende Data Scientist die nog weinig ervaring met het trainen van modellen heeft en zijn PCA nog moet leren onderscheiden van zijn EDA is Kaggle geweldig. Zelfs voor de verder gevorderde Data Scientist is er nog een hoop te leren. Maar, er zijn grenzen aan wat je kan bereiken met het doen van Kaggle wedstrijden.

Want, een Kaggle probleem is niet een bedrijfsprobleem, en een Kaggle score is geen complete representatie van de kwaliteit van een machine learning oplossing.

Een model dat 20 verschillende algoritmes combineert om met behulp van honderden uren rekentijd de hoogst mogelijke accuraatheid te behalen is misschien geweldig voor Kaggle. Maar, niet zo geweldig voor een bedrijf dat voorspellingen wil maken over de vraag naar hun product voor morgen en inzicht wil krijgen in de belangrijkste factoren die deze vraag bepalen.

En hoe denk je dat die data die jouw Kaggle model gebruikt in de eerste instantie bij elkaar verzameld is? Denk je misschien dat die data zomaar uit de lucht is komen vallen? Of dat er uren aan research, brainstormen en verzamelwerk aan vooraf is gegaan?

Kortom, Kaggle is een geweldige leerbron, maar perfecte Kaggle skills maken nog geen perfecte Data Scientist.

 

Natuurlijk is dit lang niet het enige wat ik geleerd heb tijdens deze wedstrijd. Ik wou dat het mogelijk was om dit allemaal in een bericht van 5 minuten aan jullie te leren. Als dat namelijk het geval was dan had ik zelf zo’n bericht gelezen en had dit bericht 5 minuten Kaggle leeservaring in 5 minuten kunnen heten.

Helaas.

Wees niet getreurd. Er komen nog meer berichten. Maar, dat is alles voor nu.

 

Tot de volgende keer!

 

 

Relevante links

De 7 stappen van Machine Learning

Wat komt er allemaal kijken bij het maken en implementeren van een machine learning model?

 

Nou, het is meer dan alleen een databestandje laden en er een machine learning algoritme op los laten!

In dit artikel zal ik een kort overzicht schetsen van de stappen van het machine learning proces.

Bij elke stap zou een hele bibliotheek aan verdere uitleg geschreven kunnen worden, maar ik zal het zo kort mogelijk houden.

 

Stap 0: Voorbereiden

Voordat je kan beginnen moet je eerst weten wat het probleem is dat je met je machine learning model hoopt op te lossen!

Dit is de minst technische maar meest cruciale stap en vereist vooral inzicht in het probleem en communicatie met belanghebbenden.

Vervolgens is het de zaak om de benodigde data te identificeren en verzamelen. Dit gaat hand in hand met de definitie van het probleem, want zonder data heeft het weinig zin om na te denken over een machine learning oplossing.

 

Stap 1: Verkennen (Exploratory Analysis)

Je hebt het probleem gedefinieerd en de data verzameld. Tijd om te beginnen!

Maar, voordat je in het diepe springt is het de zaak om de data kort te verkennen en overzicht te krijgen. Hierbij gaat het vooral om het vinden van informatie die nuttig is voor de volgende stappen van het maken van het model.

Misschien dat je er zelfs achter komt dat je terug een stap terug moet doen en wat meer data moet verzamelen of het probleem moet herdefiniëren.

 

Stap 2: Schoonmaken (Data Cleaning)

Een machine learning model is nooit beter dan de informatie waar het op gebaseerd is.

Daarom is het van belang om te zorgen dat de data die erin gaat van goede kwaliteit is en geen fouten bevat. Missende observaties, ongewenste observaties, foute observaties. Geen van deze dingen helpen de prestatie van ons model.

 

Stap 3: Knutselen (Feature Engineering)

Nogmaals is het de zaak om te benadrukken dat een machine learning model nooit beter is dan de informatie waarop het gebaseerd is.

Niet alleen is het van belang data de data foutloos is. Het is ook van belang dat hij relevant is en op de juiste manier aan de algoritmes wordt gepresenteerd.

Denk bijvoorbeeld aan het toevoegen van een nieuwe variabele die het verschil geeft tussen twee jaartallen. Dit kan nuttiger zijn voor het algoritme dan de jaartallen zelf.

Dit is de stap die het meeste inzicht vereist in het probleem wat gemodelleerd wordt.

 

Stap 4: Selecteren (Algorithm Selection)

Oké, de data is klaar voor het model. Maar welk algoritme gebruiken we?

Dit is meestal vrij voor de hand liggend op basis van de machine learning taak (classificatie, regressie, clustering), maar er moet toch even over nagedacht worden. Het is belangrijk om een veelzijdig scala aan algoritmes te kiezen zodanig dat er goede resultaten te halen zijn met tenminste een aantal ervan.

 

Stap 5: Trainen (Model Training)

Eindelijk! De stap waar het allemaal om draait.

Het maken van het model.

Hierbij gaat het erom om de juiste hyper-parameters te vinden voor onze algoritmes, deze op de data los te laten, de resultaten op de juiste manier te evalueren en het winnende (meest nauwkeurige) model uit te kiezen.

 

Stap 6: Implementeren

We zijn echter nog niet klaar!

Nu het model af is moet het nog in gebruik genomen worden. Dit kan bijvoorbeeld betekenen dat het model moet worden opgenomen in een selfservice tool met een gebruiksvriendelijke interface. Ook zullen we het model misschien regelmatig moeten updaten door het nieuwe data te voeren.

En wie weet wat er allemaal nog meer gedaan moet worden om het model in gebruik te brengen en te houden?!

 

Pfoe!

Het is niet makkelijk om een machine learning model te implementeren.

Gelukkig hoef je deze stappen niet per se allemaal alleen te doen. Maar, het is wel van belang dat je je er van bewust bent wat er allemaal bij komt kijken zodat je jouw deel goed uit kunt voeren en effectief met je team kunt samenwerken.

Dat is alles voor nu,

 

Tot de volgende keer!

 

Bronnen

Machine Learning

Gegroet Dataridder,

In een eerder bericht had ik je al uitgelegd wat Datamining is. Dit keer ga ik het hebben over Machine Learning.

Misschien dat je je nu afvraagt wat het verschil is. Zelf was ik namelijk ook even in de war. Datamining en Machine Learning gaan toch immers allebei om het vinden van patronen in data? Om het omzetten van ruwe data naar nuttige informatie?

En dat is ook zo, maar bij Machine Learning gaat het erom om COMPUTERS te leren om nuttige informatie uit data te halen. Datamining zelf is een algemenere term, en hierbij kan het dus bijvoorbeeld ook gaan om het maken van grafieken en het interpreteren daarvan.

Maar, bij Machine Learning programmeer je de computer om zelf data om te zetten in nuttige informatie. Hierbij wordt dan gebruik gemaakt van de zogenaamde machine learning algoritmes (zoals bijvoorbeeld het random forest algoritme). Met behulp van deze algoritmes kan de computer leren van data, en op basis van het geleerde beslissingen en voorspellingen leren te maken.

Dit is een krachtig concept. Het stelt ons in staat om beslissingen en voorspellingen te automatiseren. Dat konden wij al eerder natuurlijk, dankzij computers over het algemeen, maar die moesten wij daarvoor expliciet programmeren. Maar met machine learning hoeft dat dus niet meer. De computer leert zelf om data gedreven beslissingen te maken.

Het is de techniek die centraal staat in de vierde industriële revolutie. Dankzij de eerste drie leven we nu in een tijd waarin we van de luxe kunnen genieten van geautomatiseerde spierkracht. Ook hebben we toegang tot een hele hoop informatie dankzij het internet. Maar nu gaan we dus een stap verder met geautomatiseerde denkkracht. Het is misschien wel het begin van de laatste uitvinding die we ooit hoeven te maken.

Hoe dan ook, de computer leert bij machine learning in principe om zelf een model te vormen. Een representatie/simplificatie van de werkelijkheid die gebruikt kan worden voor het maken van beslissingen en voorspellingen.

Er zijn nu al een heleboel nuttige toepassingen van machine learning. In onder andere dit artikel had ik er al een aantal genoemd. Maar, om er nog een paar te herhalen, denk bijvoorbeeld aan gepersonaliseerde reclames, spraakherkenning en zelfrijdende auto’s. Dit is echter slechts het begin, wie weet wat er nog meer mogelijk is?

Machine learning algoritmes kunnen vrij moeilijk zijn om te begrijpen. Mijn missie om mijn random forest algoritme te programmeren bleek een heel karwei, en dat was misschien nog een van de simpelere algoritmes. En bij de werking van neurale netwerken komt ook heel wat wiskunde kijken. Maar, natuurlijk is het erg belangrijk om deze algoritmes te begrijpen. Als je er een proefwerk over krijgt.

Grapje.

Deze algoritmes komen natuurlijk niet uit de lucht vallen en iemand moet ze bedenken en verbeteren. Leren hoe ze werken is dus zeker nuttig. Maar, wil je leren om zelf machine learning toe te passen dan is het vooral belangrijk dat je leert hoe je ze moet gebruiken. Moet je weten hoe een computer werkt om een blog artikel te lezen?

Natuurlijk niet.

Je moet alleen weten wat alle knoppen doen. En zo is het ook met machine learning. Je moet leren werken met de tools.  Leer gewoon programmeren met de machine learning libraries en je kunt aan de slag. Je hoeft ze niet helemaal van binnen en buiten te kennen om ze te gebruiken, en waarschijnlijk heb je daar ook de tijd niet voor want er zijn er een hele boel en er komt een hele boel wiskunde bij kijken.

Maar, het mag wel.

Persoonlijk vindt ik het heel leuk om te weten hoe dingen werken en ze zelf na te maken. Daarom heb ik ook mijn eigen versies gemaakt van een random forest en neuraal netwerk. En als jij dat ook leuk vindt, laat je dan zeker niet tegen houden om hetzelfde te doen. Op deze manier leer je jezelf tegelijkertijd programmeren aan en leer je wat over de werking van machine learning algoritmes. Een veel leukere manier van leren dan neuzen door een stapel stoffige tekstboeken, als je het mij vraagt.

Wil je echter leren machine learning modellen en applicaties te maken dan zul je toch echt aan de slag moeten gaan met de bestaande tools. Zelf ben ik inmiddels weer ver gevorderd met de Machine Learning Accelerator van EliteDataScience. Een prima keuze om machine learning met Python te leren, ben ik nog steeds van mening. Er zijn echter meer dan genoeg cursussen beschikbaar dus kijk ook zeker verder.

Maar ja, dat is alles voor nu.

Tot de volgende keer!

 

 

 

Accelerator

Hallo wereld,

Vorige week ben ik dan toch eindelijk over de streep getrokken; ik heb geld geïnvesteerd in mijn educatie! Tot nu toe had ik, zoals ik al zei op de Over Dataridder pagina, alles gewoon gratis en voor niets van het internet af gevist. Maar, na het volgen van een webinar van EliteDataScience was ik dan toch verkocht; ik heb de Machine Learning Accelerator cursus aangeschaft.

Sindsdien heb ik hem tijdens bijna al mijn zelfstudie sessies tot dusver helemaal verslonden. En tot nu toe ben ik zeer positief, want deze cursus lijkt echt te doen wat hij belooft.

En wat belooft hij dan?

Nou, het is een cursus gericht op beginnende tot ‘intermediate’ Data Scientists die hun leerproces willen versnellen. Het is volgens EliteDataScience (net zoals volgens mij, overigens) heel goed mogelijk om alles zelf te leren. Maar, het nadeel daarvan is vooral dat het een langzaam en moeizaam proces kan zijn, zoals ik zelf ook al gemerkt heb. Het is niet zozeer dat de informatie niet te vinden is, maar vooral juist dat er TEVEEL informatie te vinden is! Hierdoor zie je al snel door de bomen het bos niet meer.

Deze cursus richt zich echter op het aanleren van de fundamentele vaardigheden voor de Data Scientist, met behulp van een van de meest gebruikte professionele Data Science tools: Jupyter Notebook, met Python.

De FUNDAMENTELE vaardigheden.

Dat is heel belangrijk, want hierdoor raak je niet afgeleid en leer je de kern van het Data Science proces aan, waardoor je de gereedschappen hebt die je bij vrijwel elk project nodig zal hebben. Maar, het is zeker niet zo dat het zo erg versimpeld is dat je zelf van alles er bij moet leren om er iets mee te kunnen doen. Je leert echt alles wat je nodig hebt voor je eerste projecten. En je leert het beste in context, door het doen van projecten, en deze cursus brengt je op een goed niveau om daar mee te beginnen.

Althans, dat is de belofte.

Natuurlijk heb ik deze cursus pas een week gevolgd en ben ik nog niet eens op de helft. Maar, ik heb al wel een aardig overzicht van wat ik in dit programma allemaal ga leren. Ik heb nu de eerste module (‘Cornerstone’) afgerond en ben nu een kei met Jupyter Notebook, maar dat is slechts het begin.

Het beste van dit programma is wel dat er een grote nadruk ligt op het uitvoeren van oefeningen. Hierdoor leer je je de vaardigheden echt aan, in plaats dat je ze alleen aan kijkt. En je wordt ook gestimuleerd om zelf met de principes te experimenteren en er over na te denken. Ik kreeg er via het webinar ook gratis het certificatie pakket bij. Mooi voor op je CV. Tot slot is er ook nog de mogelijkheid om vragen te stellen als je er niet uit komt.

Wel zijn er best een aantal kleine foutjes in de cursus. Maar die vallen toch in het niet bij de waarde die dit programma in mijn ogen heeft. Het heeft mijn leerproces in ieder geval al een stuk versneld. Ik zou hem aanraden.

Maar, dat is alles voor nu.

Tot de volgende keer!

 

Data wat?

Hallo wereld,

Wat is een Data Scientist? Vandaag de dag is het lastig om daar een eenduidig antwoord op te vinden.

Sommigen zijn van mening dat Data Scientists vooral experts moeten zijn in statistiek. Anderen zijn van mening dat ze vooral geweldig moeten zijn in programmeren. Weer anderen leggen de nadruk op zakelijk inzicht.

Sommigen  vinden dat statistiek niet genoeg is, ze moeten zowel breedte en diepgang hebben in allerlei wiskundige disciplines. Niet alleen dat, ze moeten ook een diepgaande kennis hebben over de bedrijfstak waar ze in werkzaam zijn!

Maar de meesten vinden dat een Data Scientist dit eigenlijk ALLEMAAL moet kunnen! En nog veel meer!!!

Pfoe, het is niet makkelijk om een Data Scientist te zijn! Als je de omschrijvingen van het beroep allemaal letterlijk zou nemen is het moeilijk om jezelf voor te stellen dat deze wonderen der natuur daadwerkelijk de aardbodem bewandelen.

Photo by Elias Castillo on Unsplash

Waar begin je als leek om jezelf om te scholen tot Data Scientist? Hoe ga je verder?! Wanneer ben je klaar? Het antwoord op de eerste twee vragen is lastig, maar het antwoord op de laatste is duidelijk: NOOIT. Wat?! Maar Samson, hoe wordt ik dan een Data Scientist? Waarom zou ik beginnen als ik toch nooit klaar zal zijn met leren?!

Een betere vraag zou zijn, waarom zou je NIET beginnen als je dan nooit klaar HOEFT te zijn met leren? Oké, dat is eng, toegegeven, maar dat is ook wat Data Science juist zo interessant maakt! Maar, om praktisch te blijven, wat betekent het nou precies om Data Scientist te worden, en hoe krijg je er brood mee op de plank?

Nou, ik ben natuurlijk maar een leek, maar mij lijkt het dat je een Data Scientist bent wanneer je een combinatie van de eerder genoemde vaardigheden toepast om tot waardevolle inzichten te komen voor een bedrijf. Of voor een consument in de vorm van een applicatie. Wat voor combinatie? Hoe waardevol? Dat kan verschillen. Maar de kern zit hem in het bedenken van creatieve oplossingen voor complexe, multidisciplinaire data problemen. Datamining in principe, waar ik al meer over had geschreven in dit bericht.

Dat is best vaag, en de term Data Scientist kan dan misschien ook wel wat specifiekere “sub-classes” gebruiken. Er lijken echter wel wat algemene kenmerken te bestaan. Namelijk:

  1. Kennis van wiskunde, en vooral statistiek
  2. Ervaring met Python of vergelijkbare taal
  3. Ervaring met data analyse en data visualisatie
  4. Ervaring met het trainen van machine learning algoritmes
  5. Communicatievaardigheden
  6. Zakelijk inzicht

Verder? The sky is the limit!

Hopelijk heb ik je nu niet al te bang gemaakt? Oké, ik zal ophouden. Maar, bedenk jezelf het volgende.

Ook al zou je niet in staat zijn om al deze dingen te leren, dan zijn het stuk voor stuk nog steeds verdomd waardevolle vaardigheden om in je portfolio te hebben! Neem gewoon een stapje tegelijk, blijf jezelf ontwikkelen, en kijk hoe ver je komt. Je hoeft niet te wachten totdat je voldoet aan alle omschrijvingen van een Data Scientist voordat je er iets geweldigs mee kan gaan doen!

Wil je lezen wat anderen zeggen over wat een Data Scientist is? Kijk dan eens in de onderstaande bronnen. Dat is alles voor nu.

 

Tot de volgende keer!

 

Bronnen