Carrière – Dataridder

Waarom je aarzelt en waarom het niet nodig is

Waarom?

Waarom is het dat je op sommige dagen moeiteloos door kunt gaan met leren en op andere dagen jezelf moet dwingen om het ook maar een enkel uurtje vol te houden?

En waar is al dat enthousiasme gebleven waarmee je deze reis begonnen was?!

Is het dat je op sommige dagen meer zin hebt dan op andere?
Is het dat je er meer plezier in hebt wanneer het goed gaat?
Is het dat je liefde voor het onderwerp over de tijd heen is uitgedoofd?

Dat speelt er misschien allemaal een rol bij, maar er is meer aan de hand. En als jij dit inziet dan kun je ophouden jezelf tegen te houden en eindelijk op volle toeren op je doel afvliegen!

Jij bent begonnen met leren omdat jij een passie hebt voor het werk waar jij voor aan het leren bent. Die passie was misschien wat sterker in het begin, toen alles nog nieuw en opwindend was, maar zelfs nu merk jij op sommige dagen dat die passie er nog steeds is. Waarom is het dan op die andere dagen zo moeilijk om jezelf op gang te laten komen en door te zetten?

Zoals ik al zei is een deel ervan dat dingen leuker zijn wanneer ze goed gaan. Maar, tegelijkertijd zijn dingen ook weer leuker als ze uitdagend zijn. Dus waarom zou je ontmoedigd moeten raken als iets uitdagend is? Je zou toch juist enthousiast moeten worden? En op sommige dagen is dat ook zo, maar op andere dagen niet. Hoe komt dit nou?

Onzekerheid.

De reden waarom jij het werk ontwijkt waar jij zoveel plezier in hebt is NIET dat dat plezier vervaagd is. Integendeel. Nee, de reden is dat jij twijfelt. Jij twijfelt of je wel de capaciteiten bezit om het te maken. Om je doel te bereiken. Om de prijs te veroveren waarvoor je dit allemaal begonnen bent: het werk doen waar jij van houdt.

En omdat jij twijfelt voel jij je ongemakkelijk wanneer je bezig bent met het werk. Omdat jij twijfelt voel jij je moedeloos. Je voelt je onzeker. Je schaamt je. Je bent bang voor de toekomst.

“Waar ben ik mee bezig?”
“Het gaat me nooit lukken.”
“Dit is onmogelijk.”
“Hoe ga ik mijn brood verdienen als dit het niet wordt?”
“Wat zullen ze wel niet van me denken?”

Dat zijn de gedachten die jou tegenhouden. Dat zijn de gedachten die door jou hoofd spoken wanneer jij aan het leren bent voor het beroep waar jij van houdt. En de gevoelens die deze gedachten opwekken zijn de reden waarom jij het plezier op deze dagen niet kan vinden en het tempo niet kan vol houden.

Wat is nu de oplossing? Nou, ik heb hem tijdens dit artikel al meerdere keren genoemd.

Dit is het werk waar jij van houdt.

En de kans is groot dat dit niet alleen het werk is waar jij van houdt, maar dat het ook het werk is waarvoor jij een natuurlijke aanleg hebt.

Maar, zelfs al zou dit niet het geval zijn dan is dat geen probleem. Want de belangrijkste sleutel tot succes is niet talent, maar consistente inzet. En wat is nou een groter voordeel in het leveren van die consistente inzet dan pure passie voor het leerproces zelf?!

Jij houdt namelijk niet alleen van het het werk dat jij mag gaan doen zodra je je baan hebt veroverd. Jij houdt van het werk dat jij moet doen om de baan in de eerste instantie te krijgen! En niets is zo krachtig voor het behalen van jouw doel.

Dus jij hoeft niet onzeker te zijn. Jij bent hiervoor gemaakt. En het enige wat je hoeft doen is het werk waar jij van houdt, totdat en lang nadat jij je baan veroverd hebt.

Dat is alles voor nu,

Tot de volgende keer!

Moeiteloos leren

Gegroet aspirant Dataridder,

Ben je al DAGEN, WEKEN, misschien zelfs MAANDEN lang aan het studeren voor Machine Learning? Heb je je verdiept in Neurale Netwerken, Beslissingsbomen, Lineaire Algebra, Statistiek en Python en ben je inmiddels al weer vergeten wat je geleerd had over Neurale Netwerken? En heb je nog steeds geen enkele praktijk ervaring met het trainen van Machine Learning modellen?

Dat moet toch makkelijker kunnen?

In een eerder bericht had ik je al verteld dat ik recent mijn eerste eigen Machine Learning project volbracht had. In dit bericht ga ik jou vertellen hoe jij dit OOK kan bereiken, maar dan zo snel, gemakkelijk en plezierig mogelijk!

Waarom is dit eerste project nou zo belangrijk?

Nou, het is mijn ervaring dat je het beste leert programmeren door, je raadt het al, te programmeren. Het merendeel van mijn vaardigheden met Java heb ik aangeleerd door gewoon lekker te prutsen met het maken van mijn eigen spellen. En wat dat betreft is machine learning precies hetzelfde.

Dankzij de Machine Learning Accelerator had ik de vaardigheden geleerd die nodig waren om mijn eerste project te volbrengen. En tijdens dat project heb ik een hele hoop geleerd.

Vervolgens ben ik door gegaan naar Kaggle en heb ik in een fractie van de tijd NOG een project volbracht, de Titanic wedstrijd, en daarbij NOG meer geleerd.

Nu ben ik met enthousiasme begonnen aan de Digit Recognizer en daarvoor het Deep Learning traject aan het bestuderen voor Image Recognition met TensorFlow. Dankzij de ervaring die ik heb opgedaan tijdens mijn eerste twee projecten sluit deze nieuwe informatie geweldig aan bij wat ik al weet.

Zie je wat de kracht is van het maken van je eerste machine learning model?

Je zou jaren lang door kunnen blijven leren over Neurale Netwerken, Lineaire Algebra, optimalisatie problemen en ga zo maar door en nog steeds geen stap dichterbij zijn bij het maken van je eerste model. De kans is groot dat je ook de motivatie verliest LANG voordat je zover bent. Maar leer om één model te maken, hoe stom of simpel dan ook, en je hebt niet alleen de basiskennis om een geavanceerder model te maken, maar ook de motivatie!

Misschien dat je denkt dat dit allemaal vanzelfsprekend is. Geweldig! Maar, zelf heb ik gemerkt hoe gemakkelijk het is om verdwaald te raken in de overvloed aan informatie die beschikbaar is op het internet, vooral als je helemaal zelfstandig en groen aan het leren bent.

Oké, hopelijk heb ik je nu overtuigd.

Maar, wat moet je nu leren om je eerste machine learning project te volbrengen? Nou, er is niet echt één antwoord. Het hangt ervan af wat je wil maken. En dat is maar goed ook. Want, dat betekent dat er ook al meteen een hele hoop is wat je NIET hoeft te leren.

Desalniettemin zijn er een aantal dingen die ik zou adviseren om te leren, ongeacht wat je eerste project ook zal zijn:

Wat is Machine Learning?
Basis van met Python programmeren in Jupyter Notebook
Hoe werkt een Machine Learning Algoritme?
De Machine Learning Workflow

En dat is het!

Blijf echter niet te lang vast hangen in deze stappen. Zorg gewoon dat je snel een overzicht hebt van deze onderwerpen en begin dan gewoon. Als er gaten blijken te zijn dan kan je die het best al doende aanvullen tijdens het uitvoeren van je eerste project. Zo voorkom je dat je tijd en momentum verspilt aan dingen die je niet echt nodig hebt voor het volbrengen van je eerste project.

Nu zijn er meer dan genoeg opties beschikbaar om dit punt te bereiken. Het IS mogelijk om dit allemaal stukje voor stukje van het internet aan te vissen, maar ik zou aanraden om een tutorial te volgen die al deze stappen behandeld zonder teveel overige afleidingen.

Zelf heb ik dat dus gedaan met de Machine Learning Accelerator cursus, maar Kaggle heeft bijvoorbeeld ook een Intro to Machine Learning cursus van Dan Becker, welke al deze elementen lijkt te bevatten. Nu heb ik deze cursus zelf niet gevolgd, maar de Deep Learning cursus die ik nu volg is ook van Dan Becker en de kwaliteit is goed, al vermoed ik wel dat het lastig kan zijn om het te volgen als je niet een beetje meer achtergrond hebt.

Maar ja, welke cursus het meest geschikt voor jou is hangt af van je bestaande voorkennis en hoe snel je dingen op pakt. Dat is aan jou. Maar, wat ik je met dit bericht hopelijk heb meegebracht is dat de leukste, makkelijkste en snelste manier om te leren programmeren of modelleren al doende is.

En dat je daarom dan ook van het begin af aan zo weinig mogelijk tijd wilt verspillen aan andere onzin. Focus op het leren van alleen het meest essentiële voor het uitvoeren van dat eerste project. Zodra je dat in je zak hebt wordt het leerproces opeens een stuk leuker en gaat het bijna vanzelf.

Ik zou daarom ook aanraden om dat eerste project niet al te ambitieus te maken. Begin bijvoorbeeld gewoon met de Titanic wedstrijd op Kaggle. Dat is al uitdaging genoeg voor een beginner, geloof me. En als je dan vast loopt zijn er dan ook meer dan genoeg hulpbronnen te vinden om je verder te helpen.

Bijvoorbeeld sedaniel@dataridder.nl 😉

Maar dat is alles voor nu,

Tot de volgende keer!

FOCUS Evaluatie

Gegroet Dataridders,

Een aardig tijdje terug schreef ik een post met de titel FOCUS. In dit bericht stelde ik een aantal doelen voor de volgende 6 maanden. Nu, 7 maanden later, zal ik mijn prestatie evalueren.

Mijn doel was om redelijk tot uitstekend te worden op de volgende gebieden:

Toegepaste Statistiek
Machine Learning
Python
Java
SQL
R
Excel
Git
Calculus
Lineaire Algebra

Ik zal heel eerlijk zijn, zwart op wit heb ik het niet bijzonder goed gedaan. Mijn doelen waren ook een beetje vaag, maar dat was onvermijdelijk.

Echter, tegelijkertijd ben ik ook niet al te teleurgesteld. Want, hoewel ik niet alles geleerd heb wat ik mij had voorgenomen realiseer ik mij nu de volgende drie dingen:

1. Ik had teveel hooi op mijn vork genomen.

2. Niet alles wat ik dacht te moeten leren was essentieel.

3. Wat ik geleerd heb, dat is volgens mij wel het belangrijkste.

Had ik meer kunnen leren met meer discipline en inzet? Sowieso. Maar, uiteindelijk ben ik ook maar mens, en had ik ook andere dingen aan mijn hoofd.

Uiteindelijk heb ik vooral veel over Statistiek en, nog belangrijker, Applied Machine Learning met Python geleerd. Ook ben ik een stuk handiger geworden met Excel en heb ik een beetje geprutst met SQL. Ik had ook een beetje herhaling gedaan voor Java, Calculus en Lineaire Algebra, maar heb daar niet veel nieuws over geleerd en heb er niet al te veel tijd aan besteed. Git heb ik ook nog steeds regelmatig gebruikt. Maar aan R ben ik niet meer toegekomen.

Desalniettemin heb ik nu wel het punt bereikt waar ik mij in staat voel om een Applied Machine Learning project van start tot finish uit te voeren. In ieder geval van dataset tot machine learning model. Dankzij de Machine Learning Accelerator (grotendeels) bezit ik nu namelijk alle fundamentele vaardigheden die daarvoor nodig zijn en heb ik een goed begrip van het stappenplan, alsmede ervaring met het uitvoeren van die stappen.

Mijn zelfstudie en herhaling van wiskundige vaardigheden heeft me geen wiskundige excellentie opgeleverd, maar wel een goed overzicht van de relevante principes en hun rol in de wereld van Data Science. En ook over de rol van Excel, Java en Git heb ik nu een stuk meer duidelijkheid.

Tijdens het leren was ik vooral aan het leren wat ik nu eigenlijk moest leren. Dat is wel goed gelukt denk ik.

Maar wat van mijn doelen voor Dataridder?

Ik wilde dat jullie aan het einde van de 6 maanden toegang zouden hebben tot een hele hoop artikelen “waarin ik uitleg wat ik heb geleerd en de projecten die ik heb uitgevoerd presenteer en uitleg”. Dat is min of meer gelukt, maar niet helemaal zoals ik toentertijd voor ogen had.

Ik kwam er namelijk al snel achter dat het onmogelijk was om alles wat ik leerde, of zelfs maar een significant deel van wat ik leerde, in detail uit te leggen. Daar was simpelweg niet genoeg tijd voor. Niet alleen dat, het leek mij ook niet al te waardevol, aangezien er al meer dan genoeg goede leerbronnen voor handen waren.

Daarom probeerde ik mij al snel meer te focussen op het grote plaatje in mijn berichten, en een overzicht te schetsen van de relevante begrippen en principes, en ook te linken naar goede leerbronnen.

Later ontwikkelde zich dat meer en meer tot artikelen over de mindset alsmede over wat je nou überhaupt moest leren en waarom, omdat ik daar zelf ook veel mee bezig was en ook dacht dat jullie daar het meeste aan zouden hebben. Zelf lees ik mijn artikelen af en toe ook nog eens door als ik een beetje herhaling nodig heb.

Ook heb ik jullie regelmatig op de hoogte gehouden van mijn projecten.

Ik hoop dat jullie er wat aan gehad hebben, en ook dat toekomstige lezers het nuttig zullen vinden.

Hoe nu verder?

Nou, volgens de makers van de Machine Learning Accelerator ben ik nu klaar om te solliciteren voor mijn eerste (Junior) Data Science baan. In hoeverre dat waar is moet ik nog achter komen. Ik zal beginnen mijn moed te verzamelen en ondertussen gewoon door gaan met leren en vooral ook oefenen.

Wat betreft Dataridder, ik denk dat ik voorlopig gewoon zal doorgaan zoals de afgelopen maanden, wat betreft de inhoud. Wel zal ik proberen de frequentie weer een beetje op te voeren. Mijn aanvankelijke voornemen om elke week minimaal een artikel te posten was niet helemaal succesvol, maar gemiddeld genomen heb ik dat toch wel gehaald. Toch zal ik proberen om weer wat consistenter te worden.

Maar dat is alles voor nu,

Tot de volgende keer!

Vervulling en frustratie

Gegroet Dataridder,

De meest vervullende dingen in het leven zijn vaak ook het meest frustrerend. Afgelopen week heb ik mijn eerste echte Applied Machine Learning Project afgerond, en daarmee mijn certificaat voor de Machine Learning Accelerator cursus behaald.

Het was niet makkelijk.

En ik zou liegen als ik zou zeggen dat het alleen maar plezierig en totaal niet onaangenaam was. Sterker nog, er waren meerdere periodes waar dit totaal niet het geval was, en waarin ik mezelf moest dwingen om door te gaan. Maar, uiteindelijk was het ook heel leerzaam en waren er ook veel periodes van plezier en vervulling.

In dit artikel zal ik mijn ervaringen met mijn eerste machine learning project bespreken in de hoop je voor te bereiden voor je eigen eerste project, mocht je daar nog niet aan begonnen zijn. Zowel, dan herken je je misschien in mijn ervaringen en weet je dat je niet de enige bent.

Voor de cursus mocht ik na het afronden van de leermodules mijn eigen eindproject formuleren. De eerste uitdaging was het kiezen van een onderwerp. Het is makkelijk genoeg om classificatie, regressie of clustering taken te bedenken, maar om taken te bedenken die ook nuttig en haalbaar zijn voor een eerste project en aansluiten bij mijn persoonlijke interesses, dat was echt bijzonder lastig. Ik was er dan ook vele uren aan kwijt, verspreid over vele, vele dagen.

De tweede uitdaging was het vinden van een goede dataset bij dat gekozen onderwerp. Het was echt verrassend lastig om een dataset te vinden die zowel geschikt is voor machine learning als goed gedocumenteerd is. Ik heb zo’n beetje het hele internet afgezocht en data voorbij zien komen in alle vormen en maten, van csv tot json en noem het maar.

Uiteindelijk heb ik gekozen voor het maken van een voorspellend model voor het succes van telemarketing voor een termijndeposito. De dataset kwam van The UCI Machine Learning Repository, was al eerder gebruikt door onderzoekers voor het zelfde doeleinde en goed gedocumenteerd. Een project dat zowel haalbaar leek als interessant, ook al sloot het niet helemaal aan bij mijn eerste ideeën en was het niet erg revolutionair.

Maar, na uren lang zoeken naar de perfecte dataset was het toch echt tijd om eens te gaan beginnen. Beter om een minder dan perfect project te doen, en dan nog een, en dan nog een, en op deze manier dan ook daadwerkelijk iets te leren, dan om voor altijd vast te blijven hangen in het keuzeproces.

Na de eerste stappen kwam ik uit bij de volgende uitdaging: het bedenken van goede ideeën voor feature engineering, het selecteren en vervormen van de gegevens voor het verbeteren van de prestatie van het model. Mijn domeinkennis bij mijn gekozen onderwerp was vrij beperkt, maar ook de dataset zelf liet vrij weinig ruimte over voor creativiteit aangezien hij al door een proces van filteren en feature engineering onderworpen was.

Na veel onderzoek kwam ik slechts met een handvol ideeën en deze bleken de prestatie van het model niet significant te verbeteren. Dit was erg frustrerend maar van wat ik gelezen en geleerd had tijdens de cursus ook niet ongebruikelijk. In ieder geval had ik wel veel geleerd en geoefend met de technieken die ik geleerd had in de cursus.

De vierde uitdaging was het wachten op het trainen van het model.

Ja, serieus.

Stel je het volgende scenario voor:

Je hebt eindelijk je feature engineering gedaan, je hyperparameters gekozen en je start het algoritme. Geweldig, nu kun je een paar uur wachten op de uitslag voordat je weer verder kunt. Na een paar uur wachten kom je terug om je resultaat te bewonderen. Maar, je bent ergens iets vergeten en/of de resultaten zijn teleurstellend en je kunt het hele proces weer opnieuw kunt beginnen.

Zucht…

Het kostte me een significant aantal iteraties om mijn aanpak en functies voldoende te verfijnen om dit proces wat vlotter te laten verlopen.

De laatste uitdaging was het documenteren van het proces zelf. Het eindresultaat moest namelijk een mooi lineair verslag zijn dat de lezer laat zien hoe je aan je resultaat gekomen bent. Vrij lastig om te doen voor een totaal niet-lineair proces waarbij je constant stappen terug zet en extra onderzoek doet om je resultaten te verbeteren. Uiteindelijk heb ik er maar het beste van gemaakt en mijn persoonlijke aantekeningen zo goed mogelijk omgezet in documentatie voor de lezer.

En dat was dus mijn project. Een proces van vele frustratie en vervulling als gevolg van het overwinnen van die frustratie. Hopelijk heb ik je met het delen van mijn uitdagingen een beetje voorbereid op je eigen toekomstige machine learning projecten, en/of je wat beter laten voelen over de projecten die je al gedaan hebt.

Dat was alles voor nu,

Tot de volgende keer.

De 7 stappen van Machine Learning

Wat komt er allemaal kijken bij het maken en implementeren van een machine learning model?

Nou, het is meer dan alleen een databestandje laden en er een machine learning algoritme op los laten!

In dit artikel zal ik een kort overzicht schetsen van de stappen van het machine learning proces.

Bij elke stap zou een hele bibliotheek aan verdere uitleg geschreven kunnen worden, maar ik zal het zo kort mogelijk houden.

Stap 0: Voorbereiden

Voordat je kan beginnen moet je eerst weten wat het probleem is dat je met je machine learning model hoopt op te lossen!

Dit is de minst technische maar meest cruciale stap en vereist vooral inzicht in het probleem en communicatie met belanghebbenden.

Vervolgens is het de zaak om de benodigde data te identificeren en verzamelen. Dit gaat hand in hand met de definitie van het probleem, want zonder data heeft het weinig zin om na te denken over een machine learning oplossing.

Stap 1: Verkennen (Exploratory Analysis)

Je hebt het probleem gedefinieerd en de data verzameld. Tijd om te beginnen!

Maar, voordat je in het diepe springt is het de zaak om de data kort te verkennen en overzicht te krijgen. Hierbij gaat het vooral om het vinden van informatie die nuttig is voor de volgende stappen van het maken van het model.

Misschien dat je er zelfs achter komt dat je terug een stap terug moet doen en wat meer data moet verzamelen of het probleem moet herdefiniëren.

Stap 2: Schoonmaken (Data Cleaning)

Een machine learning model is nooit beter dan de informatie waar het op gebaseerd is.

Daarom is het van belang om te zorgen dat de data die erin gaat van goede kwaliteit is en geen fouten bevat. Missende observaties, ongewenste observaties, foute observaties. Geen van deze dingen helpen de prestatie van ons model.

Stap 3: Knutselen (Feature Engineering)

Nogmaals is het de zaak om te benadrukken dat een machine learning model nooit beter is dan de informatie waarop het gebaseerd is.

Niet alleen is het van belang data de data foutloos is. Het is ook van belang dat hij relevant is en op de juiste manier aan de algoritmes wordt gepresenteerd.

Denk bijvoorbeeld aan het toevoegen van een nieuwe variabele die het verschil geeft tussen twee jaartallen. Dit kan nuttiger zijn voor het algoritme dan de jaartallen zelf.

Dit is de stap die het meeste inzicht vereist in het probleem wat gemodelleerd wordt.

Stap 4: Selecteren (Algorithm Selection)

Oké, de data is klaar voor het model. Maar welk algoritme gebruiken we?

Dit is meestal vrij voor de hand liggend op basis van de machine learning taak (classificatie, regressie, clustering), maar er moet toch even over nagedacht worden. Het is belangrijk om een veelzijdig scala aan algoritmes te kiezen zodanig dat er goede resultaten te halen zijn met tenminste een aantal ervan.

Stap 5: Trainen (Model Training)

Eindelijk! De stap waar het allemaal om draait.

Het maken van het model.

Hierbij gaat het erom om de juiste hyper-parameters te vinden voor onze algoritmes, deze op de data los te laten, de resultaten op de juiste manier te evalueren en het winnende (meest nauwkeurige) model uit te kiezen.

Stap 6: Implementeren

We zijn echter nog niet klaar!

Nu het model af is moet het nog in gebruik genomen worden. Dit kan bijvoorbeeld betekenen dat het model moet worden opgenomen in een selfservice tool met een gebruiksvriendelijke interface. Ook zullen we het model misschien regelmatig moeten updaten door het nieuwe data te voeren.

En wie weet wat er allemaal nog meer gedaan moet worden om het model in gebruik te brengen en te houden?!

Pfoe!

Het is niet makkelijk om een machine learning model te implementeren.

Gelukkig hoef je deze stappen niet per se allemaal alleen te doen. Maar, het is wel van belang dat je je er van bewust bent wat er allemaal bij komt kijken zodat je jouw deel goed uit kunt voeren en effectief met je team kunt samenwerken.

Dat is alles voor nu,

Tot de volgende keer!

Bronnen

Data Science Build – Deel 2

“I fear the man who has practised one kick 10,000 times, but the man who has practiced 10,000 kicks once scares the shit out of me.

And don’t even get me started on the man who has practiced 10,000 kicks twice!”

– Sam Dee

Gegroet Dataridder,

Zou je niet willen dat alles in het leven zwart of wit zou zijn? Dat er geen tegenstrijdigheden waren en alle vragen één antwoord hadden?

Jammer dan.

Dit is de echte wereld en in de echte wereld is alles grijs.

Nou ja, figuurlijk gesproken dan.

In mijn eerdere bericht vertelde ik je dat je beste kans om een Data Scientist te worden specialisatie was. In dit bericht ga ik je compleet in de war brengen en alles in dat vorige bericht compleet tegenspreken.

En bevestigen.

Heb je wel eens Skyrim gespeeld? Of een andere RPG misschien? Heb je weleens geprobeerd om een build te maken die slechts een of twee skills gebruikt?

Hoe was dat?

Effectief. Meestal. Soms. Een beetje.

Ik had het er al over in mijn eerdere bericht. Het is niet altijd handig om een specialist te zijn. In sommige gevallen is jouw specialisme compleet nutteloos. De zwaardvechter die een draak probeert te bestrijden komt er al gauw achter dat zwaarden niet veel schade doen als je tegenstander vliegt. En ze zijn ook niet echt nuttig om drakenvuur van je gezicht af te houden.

Maar niet alleen dat. Het was ook nogal saai, nietwaar?

Elk gevecht is hetzelfde:

“HAK! HAK! HAK! ”

– Warrior

“POW! POW! POW!”

– Mage

“PEW! PEW! PEW!”

– Archer

Dat moet toch beter kunnen?

En ik heb het niet alleen over mijn geluidseffecten. Waarom geen meer veelzijdige build? Een build die zich kan aanpassen aan elke situatie? Een build waarmee elk gevecht een nieuw avontuur is?

Een GENERALIST.

Zoals ik al zei heeft de generalist echter zijn eigen problemen. Overal slecht in, nergens goed in. Maar het is mogelijk om je build veelzijdiger te maken. Flexibeler te maken. Interessanter te maken. En het is in mijn mening ook zeker aan te raden om dat te doen.

Maar, hoe doe je dat zonder je build compleet waardeloos te maken?

Nou, ten eerste is het van belang om vaardigheden te kiezen die elkaar aanvullen in plaats van vaardigheden die precies hetzelfde doen op een iets andere manier. Ga geen build maken met zowel de two handed als one handed weapon skill.

Logisch.

Maar, one handed en destruction doen in principe ook hetzelfde: schade aanbrengen. Ze doen het echter op verschillende manieren en zijn nuttig in verschillende situaties. Hierdoor word de build opeens een stuk flexibeler.

En dat wil je dus ook doen met Data Science. Je wilt vaardigheden kiezen die elkaar aanvullen. Niet vaardigheden die elkaar in de weg zitten.

Het lijkt dan op het eerste gezicht ook een slecht idee om Data Science te leren en tegelijkertijd ook proberen om een Front-End Web Developer te worden.

Maar, wat als je je specialiseert in A/B testing en ook in staat bent om zelf verschillende webpagina’s te bouwen? Dat zou dan misschien weer WEL nuttig kunnen zijn, maar alleen als je om de een of andere reden niet in staat of bereid bent om iemand anders het bouwen van de webpagina’s voor je te laten doen.

Ingewikkeld allemaal hè?

Nou het wordt nog ingewikkelder. Als mens zijn wij namelijk geëvolueerd als generalisten. Onze grootste kracht en zwakte was ons vermogen om bijna overal slecht in te zijn. We hadden geen warme vacht. We hadden geen scherpe tanden of klauwen. We hadden geen vleugels.

We hadden bijzonder weinig.

Maar, we waren wel nieuwsgierig, slim en creatief. We waren constant op onderzoek, aan het experimenteren en aan het uitvinden. Hierdoor konden wij ons aanpassen aan vrijwel elke situatie.

We hadden geen vacht nodig want we maakten kleren. We hadden geen klauwen nodig want we maakten speren. We hadden geen vleugels nodig want we maakten bogen.

En we waren ook sociaal. Langzaam maar zeker waren wij in staat om samen te werken in steeds grotere aantallen. Maatschappijen ontstonden en groeien nog altijd groter en groter. En in een maatschappij is het mogelijk om jezelf te specialiseren in het maken van kleren en niet om te komen van de honger. Specialisatie werd geboren en verheven.

Maar, diep van binnen zijn wij nog steeds allemaal een stelletje generalisten. Nieuwsgierige kunstenaars die verslaafd zijn aan afwisseling. En als we de hele dag hetzelfde moeten doen, dan worden wij daar bijzonder depressief van. Variatie is daarom niet alleen nuttig voor flexibiliteit, maar ook voor je mentale gezondheid.

Laten we nu even terug gaan naar de man die 10,000 trappen één keer oefende. Heb je wel eens nagedacht over wat nou echt het effect zou zijn van zo’n training? Denk je niet dat deze man niet afschuwelijk sterke en behendige benen zou ontwikkelen? Denk je niet dat hij afschuwelijk onvoorspelbaar en flexibel zou zijn? En denk je niet dat hij een stuk meer plezier heeft gehad in het leven dan de man die een trap 10,000 keer geoefend heeft? En een stuk minder last van RSI?

Het lijkt erop dat ik mijzelf compleet tegen gesproken heb, maar dat is niet zo. Wat ik in mijn eerdere bericht had gezegd was ook allemaal waar. Het is echter allemaal wat ingewikkelder dan het op het eerste gezicht lijkt.

Maar, dat is geen tegenstrijd. Dat is complexiteit. Het lijkt alleen maar tegenstrijdig, omdat we het met ons kleine brein niet allemaal tegelijkertijd kunnen begrijpen.

Denk daar maar eens over na.

Ik hoop dat ik je niet al te veel in de war heb gebracht. In tegenstelling tot wat ik eerder zei was dat echt niet mijn bedoeling. Maar het leven is nou eenmaal niet altijd zo simpel als we zouden willen.

Is het nu mijn advies om een trap 10,000 keer te oefenen? Nee. 10,000 trappen een keer te oefenen? Ook niet. De beste oplossing zit er waarschijnlijk ergens tussen in.

Specialisatie is een krachtig en noodzakelijk principe. Maar, vergeet niet dat het bijzonder veel makkelijker en leuker is om 10,000 trappen TWEE keer te oefenen dan een trap 20,000 keer, en dat een high kick bijzonder nutteloos is tegen een dwerg met een machinegeweer.

Dat is alles voor nu,

Tot de volgende keer!

Data Science Build

Een van mijn favoriete bezigheden in het verleden was het spelen van Skyrim. In dit spel kun je je character build compleet zelf bepalen. Je kan spelen als een mage, warrior, thief of hybrid en zelfs daarbij kun je nog oneindig veel variëren met de skills waar je je op focust.

Echter, wil je in Skyrim succes hebben dan is het niet zo’n goed idee om alles tegelijk te doen. Tuurlijk, de sterkste Dragonborn is de Dragonborn die het allemaal kan, maar met zoveel verschillende skills duurt het helaas veel te lang als je alles tegelijk doet.

Niet alleen dat, de vijanden schalen met je level. Dus, als jij je levels te dun spreidt over alle verschillende vaardigheden dan eindig je uiteindelijk met met een Dragonborn die nergens goed in is en compleet ingemaakt wordt door alles wat hij tegenkomt.

De andere kant die je op kunt gaan is het jezelf specialiseren in slechts een enkele skill. Dit werkt al een stuk beter dan wanneer je alles tegelijk probeert te doen, zolang je je maar specialiseert op een skill waarmee je daadwerkelijk kunt winnen, oftewel damage doen. En het is waar, een pure Destruction mage met stagger lock is een gevaarlijke tegenstander waar veel vijanden in Skyrim lastig mee om kunnen gaan.

Een puur offensieve two handed warrior is ook een gevaarlijke tegenstander, maar raakt al gauw in de problemen omdat hij in de buurt moet komen van de tegenstander om damage te doen. Hierdoor krijgt hij ofwel zelf al snel teveel damage om te overleven, of kan hij niet eens damage doen omdat zijn tegenstander vliegt en hem van een afstand tot een hoopje as reduceert.

Maar, ook de Destruction mage raakt in de problemen wanneer hij in een gevecht terecht komt met meerdere boogschutters die allemaal in staat zijn om hem met een pijl uit te schakelen aangezien hij totaal geen armor heeft.

De volgende logische stap is dan ook om ervoor te zorgen dat je ook defensieve kwaliteiten hebt. Als je dood bent houdt het immers allemaal op, en meer verdediging geeft meer tijd om damage te doen en te reageren op lastige situaties. Een build met slechts een offensieve en een defensieve kwaliteit is al een stuk robuuster en doet het bijzonder goed in de meeste situaties.

Maar, zelfs zo’n build komt nog steeds situaties tegen waar hij niet goed mee om kan gaan, en waar de toevoeging van slechts een enkele skill al een wereld van verschil had kunnen maken! Echter, wat je ook toe voegt, er zullen altijd gaten blijven bestaan. Tenzij je alles toe voegt, in welk geval je weer overal slecht in bent.

Wat heeft dit nu allemaal te maken met Data Science?

Nou, Data Science is net zoals Skyrim: er zijn teveel vaardigheden om allemaal in een keer te leren. Er is te weinig tijd om het allemaal te leren, en je concurrentie zal je voorbij schieten als je het probeert.

De enige manier om een kans te maken is door jezelf te specialiseren!

Het is waar, door jezelf te specialiseren zul je jezelf automatisch diskwalificeren voor een groot aantal Data Science vacatures. Maar, je zult jezelf ook bijzonder geschikt maken voor het vervullen van een klein maar fijn aantal vacatures en projecten die precies de vaardigheid vereisen die jij bezit.

Dit is natuurlijk voorwaardelijk aan het kiezen van een specialiteit die daadwerkelijk het gewenste resultaat behaald. In de echte wereld ben je echter altijd op de een of andere manier onderdeel van een team. Als jij het juiste team kan vinden dan maakt het niet uit hoe klein jouw specialisme is op zichzelf. Als het een waardevol onderdeel is van het gehele proces, dan is het een nuttig specialisme.

Dat heet teamwork.

Kun jij bijvoorbeeld alleen data vanuit een database met SQL verzamelen in een csv bestand, dan is dat mogelijk een heel nuttige vaardigheid. Echter, de kans is groot dat je het moeilijk zult vinden om een team te vinden dat op zoek is naar een specialisme dat zo specifiek is. Al is het niet onmogelijk als jij jezelf genoeg kan onderscheiden van de concurrentie door er absurd goed in te zijn.

“I fear not the man who has practiced 10,000 kicks once, but I fear the man who has practiced one kick 10,000 times.” – Bruce Lee

Echter, het is waarschijnlijk praktischer als jij wat excellentie op geeft in het maken van csv bestanden en je bijvoorbeeld specialiseert in het maken van machine learning modellen.

Natuurlijk komt er een stuk meer kijken bij een succesvol machine learning project en het bereiken van een data driven bedrijf. Wat is het waard om te modelleren? Waar haal je de data vandaan? Hoe breng je het in de praktijk? Dat zijn allemaal vragen die ook belangrijk zijn en een hoop aandacht en expertise vragen. Bovendien zijn er nog veel meer dingen belangrijk bij het realiseren van een data driven bedrijf, zoals bijvoorbeeld A/B testing.

Maar, deze vaardigheid kan zeker een waardevolle toevoeging zijn voor veel bedrijven. En dit is natuurlijk slechts één voorbeeld van de vele mogelijke builds die je je maar kunt bedenken! Maar, wat je ook doet, probeer niet alles tegelijk te doen, of je zult nooit resultaten behalen.

Het is beter om slechts een skill te trainen dan na te denken over hoe je hem het beste kan aanvullen dan om alle skills tegelijk te oefenen en compleet ingemaakt te worden door elke mudcrab die je tegen komt.

Bedenk een build voor jezelf.

Data wat?

Hallo wereld,

Wat is een Data Scientist? Vandaag de dag is het lastig om daar een eenduidig antwoord op te vinden.

Sommigen zijn van mening dat Data Scientists vooral experts moeten zijn in statistiek. Anderen zijn van mening dat ze vooral geweldig moeten zijn in programmeren. Weer anderen leggen de nadruk op zakelijk inzicht.

Sommigen vinden dat statistiek niet genoeg is, ze moeten zowel breedte en diepgang hebben in allerlei wiskundige disciplines. Niet alleen dat, ze moeten ook een diepgaande kennis hebben over de bedrijfstak waar ze in werkzaam zijn!

Maar de meesten vinden dat een Data Scientist dit eigenlijk ALLEMAAL moet kunnen! En nog veel meer!!!

Pfoe, het is niet makkelijk om een Data Scientist te zijn! Als je de omschrijvingen van het beroep allemaal letterlijk zou nemen is het moeilijk om jezelf voor te stellen dat deze wonderen der natuur daadwerkelijk de aardbodem bewandelen.

Waar begin je als leek om jezelf om te scholen tot Data Scientist? Hoe ga je verder?! Wanneer ben je klaar? Het antwoord op de eerste twee vragen is lastig, maar het antwoord op de laatste is duidelijk: NOOIT. Wat?! Maar Samson, hoe wordt ik dan een Data Scientist? Waarom zou ik beginnen als ik toch nooit klaar zal zijn met leren?!

Een betere vraag zou zijn, waarom zou je NIET beginnen als je dan nooit klaar HOEFT te zijn met leren? Oké, dat is eng, toegegeven, maar dat is ook wat Data Science juist zo interessant maakt! Maar, om praktisch te blijven, wat betekent het nou precies om Data Scientist te worden, en hoe krijg je er brood mee op de plank?

Nou, ik ben natuurlijk maar een leek, maar mij lijkt het dat je een Data Scientist bent wanneer je een combinatie van de eerder genoemde vaardigheden toepast om tot waardevolle inzichten te komen voor een bedrijf. Of voor een consument in de vorm van een applicatie. Wat voor combinatie? Hoe waardevol? Dat kan verschillen. Maar de kern zit hem in het bedenken van creatieve oplossingen voor complexe, multidisciplinaire data problemen. Datamining in principe, waar ik al meer over had geschreven in dit bericht.

Dat is best vaag, en de term Data Scientist kan dan misschien ook wel wat specifiekere “sub-classes” gebruiken. Er lijken echter wel wat algemene kenmerken te bestaan. Namelijk:

Kennis van wiskunde, en vooral statistiek
Ervaring met Python of vergelijkbare taal
Ervaring met data analyse en data visualisatie
Ervaring met het trainen van machine learning algoritmes
Communicatievaardigheden
Zakelijk inzicht

Verder? The sky is the limit!

Hopelijk heb ik je nu niet al te bang gemaakt? Oké, ik zal ophouden. Maar, bedenk jezelf het volgende.

Ook al zou je niet in staat zijn om al deze dingen te leren, dan zijn het stuk voor stuk nog steeds verdomd waardevolle vaardigheden om in je portfolio te hebben! Neem gewoon een stapje tegelijk, blijf jezelf ontwikkelen, en kijk hoe ver je komt. Je hoeft niet te wachten totdat je voldoet aan alle omschrijvingen van een Data Scientist voordat je er iets geweldigs mee kan gaan doen!

Wil je lezen wat anderen zeggen over wat een Data Scientist is? Kijk dan eens in de onderstaande bronnen. Dat is alles voor nu.

Tot de volgende keer!

Tagarchief: Carrière

Stap 0: Voorbereiden

Stap 1: Verkennen (Exploratory Analysis)

Stap 2: Schoonmaken (Data Cleaning)

Stap 3: Knutselen (Feature Engineering)

Stap 4: Selecteren (Algorithm Selection)

Stap 5: Trainen (Model Training)

Stap 6: Implementeren

Bronnen

Bronnen