FOCUS Evaluatie

Gegroet Dataridders,

Een aardig tijdje terug schreef ik een post met de titel FOCUS. In dit bericht stelde ik een aantal doelen voor de volgende 6 maanden. Nu, 7 maanden later, zal ik mijn prestatie evalueren.

Mijn doel was om redelijk tot uitstekend te worden op de volgende gebieden:

  • Toegepaste Statistiek
  • Machine Learning
  • Python
  • Java
  • SQL
  • R
  • Excel
  • Git
  • Calculus
  • Lineaire Algebra

Ik zal heel eerlijk zijn, zwart op wit heb ik het niet bijzonder goed gedaan. Mijn doelen waren ook een beetje vaag, maar dat was onvermijdelijk.

Echter, tegelijkertijd ben ik ook niet al te teleurgesteld. Want, hoewel ik niet alles geleerd heb wat ik mij had voorgenomen realiseer ik mij nu de volgende drie dingen:

1. Ik had teveel hooi op mijn vork genomen.

2. Niet alles wat ik dacht te moeten leren was essentieel.

3. Wat ik geleerd heb, dat is volgens mij wel het belangrijkste.

 

Had ik meer kunnen leren met meer discipline en inzet? Sowieso. Maar, uiteindelijk ben ik ook maar mens, en had ik ook andere dingen aan mijn hoofd.

Uiteindelijk heb ik vooral veel over Statistiek en, nog belangrijker, Applied Machine Learning met Python geleerd. Ook ben ik een stuk handiger geworden met Excel en heb ik een beetje geprutst met SQL. Ik had ook een beetje herhaling gedaan voor Java, Calculus en Lineaire Algebra, maar heb daar niet veel nieuws over geleerd en heb er niet al te veel tijd aan besteed. Git heb ik ook nog steeds regelmatig gebruikt. Maar aan R ben ik niet meer toegekomen.

Desalniettemin heb ik nu wel het punt bereikt waar ik mij in staat voel om een Applied Machine Learning project van start tot finish uit te voeren. In ieder geval van dataset tot machine learning model. Dankzij de Machine Learning Accelerator (grotendeels) bezit ik nu namelijk alle fundamentele vaardigheden die daarvoor nodig zijn en heb ik een goed begrip van het stappenplan, alsmede ervaring met het uitvoeren van die stappen.

Mijn zelfstudie en herhaling van wiskundige vaardigheden heeft me geen wiskundige excellentie opgeleverd, maar wel een goed overzicht van de relevante principes en hun rol in de wereld van Data Science. En ook over de rol van Excel, Java en Git heb ik nu een stuk meer duidelijkheid.

Tijdens het leren was ik vooral aan het leren wat ik nu eigenlijk moest leren. Dat is wel goed gelukt denk ik.

Maar wat van mijn doelen voor Dataridder?

Ik wilde dat jullie aan het einde van de 6 maanden toegang zouden hebben tot een hele hoop artikelen “waarin ik uitleg wat ik heb geleerd en de projecten die ik heb uitgevoerd presenteer en uitleg”. Dat is min of meer gelukt, maar niet helemaal zoals ik toentertijd voor ogen had.

Ik kwam er namelijk al snel achter dat het onmogelijk was om alles wat ik leerde, of zelfs maar een significant deel van wat ik leerde, in detail uit te leggen. Daar was simpelweg niet genoeg tijd voor. Niet alleen dat, het leek mij ook niet al te waardevol, aangezien er al meer dan genoeg goede leerbronnen voor handen waren.

Daarom probeerde ik mij al snel meer te focussen op het grote plaatje in mijn berichten, en een overzicht te schetsen van de relevante begrippen en principes, en ook te linken naar goede leerbronnen.

Later ontwikkelde zich dat meer en meer tot artikelen over de mindset alsmede over wat je nou überhaupt moest leren en waarom, omdat ik daar zelf ook veel mee bezig was en ook dacht dat jullie daar het meeste aan zouden hebben. Zelf lees ik mijn artikelen af en toe ook nog eens door als ik een beetje herhaling nodig heb.

Ook heb ik jullie regelmatig op de hoogte gehouden van mijn projecten.

Ik hoop dat jullie er wat aan gehad hebben, en ook dat toekomstige lezers het nuttig zullen vinden.

Hoe nu verder?

Nou, volgens de makers van de Machine Learning Accelerator ben ik nu klaar om te solliciteren voor mijn eerste (Junior) Data Science baan. In hoeverre dat waar is moet ik nog achter komen. Ik zal beginnen mijn moed te verzamelen en ondertussen gewoon door gaan met leren en vooral ook oefenen.

Wat betreft Dataridder, ik denk dat ik voorlopig gewoon zal doorgaan zoals de afgelopen maanden, wat betreft de inhoud. Wel zal ik proberen de frequentie weer een beetje op te voeren. Mijn aanvankelijke voornemen om elke week minimaal een artikel te posten was niet helemaal succesvol, maar gemiddeld genomen heb ik dat toch wel gehaald. Toch zal ik proberen om weer wat consistenter te worden.

Maar dat is alles voor nu,

 

Tot de volgende keer!

Accelerator

Hallo wereld,

Vorige week ben ik dan toch eindelijk over de streep getrokken; ik heb geld geïnvesteerd in mijn educatie! Tot nu toe had ik, zoals ik al zei op de Over Dataridder pagina, alles gewoon gratis en voor niets van het internet af gevist. Maar, na het volgen van een webinar van EliteDataScience was ik dan toch verkocht; ik heb de Machine Learning Accelerator cursus aangeschaft.

Sindsdien heb ik hem tijdens bijna al mijn zelfstudie sessies tot dusver helemaal verslonden. En tot nu toe ben ik zeer positief, want deze cursus lijkt echt te doen wat hij belooft.

En wat belooft hij dan?

Nou, het is een cursus gericht op beginnende tot ‘intermediate’ Data Scientists die hun leerproces willen versnellen. Het is volgens EliteDataScience (net zoals volgens mij, overigens) heel goed mogelijk om alles zelf te leren. Maar, het nadeel daarvan is vooral dat het een langzaam en moeizaam proces kan zijn, zoals ik zelf ook al gemerkt heb. Het is niet zozeer dat de informatie niet te vinden is, maar vooral juist dat er TEVEEL informatie te vinden is! Hierdoor zie je al snel door de bomen het bos niet meer.

Deze cursus richt zich echter op het aanleren van de fundamentele vaardigheden voor de Data Scientist, met behulp van een van de meest gebruikte professionele Data Science tools: Jupyter Notebook, met Python.

De FUNDAMENTELE vaardigheden.

Dat is heel belangrijk, want hierdoor raak je niet afgeleid en leer je de kern van het Data Science proces aan, waardoor je de gereedschappen hebt die je bij vrijwel elk project nodig zal hebben. Maar, het is zeker niet zo dat het zo erg versimpeld is dat je zelf van alles er bij moet leren om er iets mee te kunnen doen. Je leert echt alles wat je nodig hebt voor je eerste projecten. En je leert het beste in context, door het doen van projecten, en deze cursus brengt je op een goed niveau om daar mee te beginnen.

Althans, dat is de belofte.

Natuurlijk heb ik deze cursus pas een week gevolgd en ben ik nog niet eens op de helft. Maar, ik heb al wel een aardig overzicht van wat ik in dit programma allemaal ga leren. Ik heb nu de eerste module (‘Cornerstone’) afgerond en ben nu een kei met Jupyter Notebook, maar dat is slechts het begin.

Het beste van dit programma is wel dat er een grote nadruk ligt op het uitvoeren van oefeningen. Hierdoor leer je je de vaardigheden echt aan, in plaats dat je ze alleen aan kijkt. En je wordt ook gestimuleerd om zelf met de principes te experimenteren en er over na te denken. Ik kreeg er via het webinar ook gratis het certificatie pakket bij. Mooi voor op je CV. Tot slot is er ook nog de mogelijkheid om vragen te stellen als je er niet uit komt.

Wel zijn er best een aantal kleine foutjes in de cursus. Maar die vallen toch in het niet bij de waarde die dit programma in mijn ogen heeft. Het heeft mijn leerproces in ieder geval al een stuk versneld. Ik zou hem aanraden.

Maar, dat is alles voor nu.

Tot de volgende keer!

 

Eerste Youtube video!

Hallo wereld,

Dataridder is vanaf nu ook te vinden op Youtube. Ik wilde namelijk een video over mijn projecten met neurale netwerken met jullie delen, maar kwam er achter dat deze te groot was om in een bericht te posten. Dus heb ik maar besloten om een Youtube kanaal aan te maken en de video daar op te posten. Ik was al van plan om dit vroeger of later te gaan doen, maar aldus werd het dus vroeger. Ook heb ik een bericht geschreven over neurale netwerken dat jullie kunnen lezen voor een uitleg over hoe ze werken. Oh, en de code is te vinden op mijn Github. Dat is alles voor nu.

Tot de volgende keer!

FOCUS

Wat is het doel van deze blog? Wat wil ik bereiken voor mijn lezers en voor mezelf? Dat zijn de vragen die ik de afgelopen dagen geprobeerd heb te beantwoorden.

In mijn laatste mededeling merkte ik dat de antwoorden op deze vragen nog niet helemaal duidelijk waren, voor mij noch voor jullie. En dat was een probleem, want als je niet weet waar je naar toe wilt dan kom je niet vooruit. Ik wist niet precies wat ik wilde leren, waarom ik het wilde leren, en hoe ik jullie kon helpen met wat ik aan het leren was. De wereld van data is zo groot, en mijn brein is zo klein. Hoe graag ik ook mezelf en jullie alles zou willen leren over data, dat lukt niet. Maar wat ik wel kan doen is alles leren wat essentieel is om een carrière in Data Science te beginnen, en onderweg delen wat ik leer zodat jullie dit ook kunnen. Wat ik wel kan doen is andere mensen aanmoedigen om daarbij te helpen door hun eigen kennis en vaardigheden te delen en in te zetten. En dat is dan ook wat ik ga doen.

Het plan voor de komende 6 maanden is als volgt. Ik ga alles leren wat essentieel is voor het krijgen van een baan als Junior Data Scientist. Om te bepalen wat dat is heb ik het advies op EliteDataScience opgevolgd en een toekomstig CV opgesteld voor mezelf.

Bijna alle vaardigheden op dit CV komen frequent in een of andere vorm voor in de functie-eisen voor Junior Data Scientist. De tools, talen en details verschillen, maar het komt in principe neer op :

  1. Kennis van (toegepaste) wiskunde, en vooral statistiek
  2. Ervaring met Python en/of R of vergelijkbare taal
  3. Ervaring met data analyse en data visualisatie en bijbehorende tools
  4. Ervaring met het trainen van machine learning algoritmes

Daarnaast wordt ook waarde gehecht aan ervaring met Git of een andere tool voor version control, ervaring met andere programmeertalen en een goede beheersing van zowel de Nederlandse als de Engelse taal. Zoals ik al zei verschillen de details, maar de vaardigheden die op mijn toekomstige CV staan zijn:

  • Toegepaste Statistiek
  • Machine Learning
  • Python
  • Java
  • SQL
  • R
  • Excel
  • Git
  • Calculus
  • Lineaire Algebra

Een aantal van deze vaardigheden beheers ik al tot op bepaalde hoogte, een aantal ervan heb ik in mijn opleidingen al voorbij zien komen, en met een aantal ervan heb ik nog vrijwel geen ervaring. Maar aan het einde van de komende 6 maanden is het mijn doel dat ik al deze vaardigheden redelijk tot uitstekend beheers. En dat jullie toegang hebben tot een hele hoop berichten waarin ik uitleg wat ik heb geleerd en de projecten die ik heb uitgevoerd presenteer en uitleg. En natuurlijk ook tot de informatie die alle andere Dataridders hier willen delen.

Lijkt dat je interessant en waardevol? Mooi, dan zie ik jou graag terug bij Dataridder! Ik heb overigens ook de Over Dataridder pagina aangepast aan deze nieuwe doelstelling. De pagina op EliteDataScience waarop onder andere het advies wordt gegeven om een toekomstig CV voor jezelf samen te stellen kun je hier vinden. Dat is alles voor nu.

Tot de volgende keer!

Project brainstorm fall-out 2.0

Update: Dit is een aangepaste versie van een eerder bericht.

Hallo wereld,

Pfoe, ik heb echt heel veel nagedacht de afgelopen twee weken. Ik had het in mijn eerdere projectaankondiging al over mijn beslissing om toch iets anders te doen dan ik eerst in gedachten had. Het eerdere idee was een Simulatie Data Applicatie. Dit project had twee onderdelen, aan de ene kant een simulatie die data genereerde, en aan de andere kant het analyseren van die data.

Het eerste probleem was bedenken wat ik zou gaan simuleren. Eerst was mijn idee om een marktwerking simulatie te maken, met consumenten en producenten die op basis van individuele gedragingen een marktproces zouden genereren. Best een leuk idee, maar ook best complex en een beetje of topic. Dus ik besloot daarna om in plaats daarvan een oude simulatie op te graven: PredPrey, een simpele simulatie die ik had gemaakt van de interactie tussen roofdieren en prooien. Maar toen moest ik nog bedenken wat ik dan ging analyseren, en hoe, en waarom, en toen liep het helemaal uit de hand.

Eigenlijk kwam het allemaal terug op de vraag: wat wil ik leren? In het begin had ik hierop geantwoord: data analyse en opslag systemen programmeren. Echter, hoe meer ik nadacht en onderzoek deed, hoe meer ik me realiseerde dat dit antwoord niet compleet was, en tegelijkertijd ook best vaag en breed. Dingen waar ik me tot nu toe namelijk mee bezig hield, of van plan was mee bezig te houden, waren:

  • Applicaties met user interface te schrijven die gebruikers in staat stellen om data te analyseren. Grafieken maken, machine learning algoritmes erop los laten etc.
  • Databases programmeren, voor het opslaan, organiseren en aanpassen van data.
  • Simulatie applicaties schrijven die leervolle data genereren.
  • Zelf goede data analyse uit voeren met behulp van bestaande applicaties.
  • Zelf machine learning algoritmes schrijven die data analyseren.

En dat is eigenlijk allemaal veel te veel voor een persoon om met enige diepgang te bestuderen. En zonder diepgang zijn de praktische toepassingen beperkt. Aldus dacht ik. En ik wilde mij daarom gaan specialiseren, zodat ik meer diepgang kon opbouwen en meer waarde toevoegen. En in de vorige versie van dit bericht kondigde ik dan ook aan dat ik mij ging specialiseren in het begrijpen en programmeren van machine learning algoritmes voor data analyse. Dit leek mij het meest interessant en waardevol.

Maar, inmiddels weet ik het eerlijk gezegd allemaal niet zo zeker meer. Al deze dingen zijn interessant en waardevol. Het is waar dat ik meer expertise kan opbouwen als ik mij focus, en uiteindelijk zal ik dat dan ook willen doen. Maar ik weet eerlijk gezegd nog niet waar ik mij in wil specialiseren. Ik denk dat het nog te vroeg is om te zeggen.

Dus, hoewel ik mij in mijn volgende project daadwerkelijk ga focussen op het begrijpen en toepassen van het random forest algoritme, zal ik in de toekomst waarschijnlijk gewoon een beetje blijven experimenteren. Ik zal blijven posten over meerdere van die dingen die ik heb genoemd die met data en data systemen te maken hebben, en wie weet ook nog wat andere dingen binnen dit onderwerp. Ik kan er wel meer bedenken namelijk. bijvoorbeeld:

  • Applicaties die automatisch data verzamelen van het internet, of andere bronnen.
  • Persoonlijke (mobiele) applicaties die handige data analyse taken kunnen uitvoeren. (Denk aan spraakherkenning, muzieksuggesties, maar ook medische diagnoses en beroepsadvies.)

Misschien dat dit jullie ook helpt om te bepalen wat jullie het meest interessant vinden. Of wat leert over wat jullie al weten dat jullie het meest interessant vinden. Weten jullie zelf nog meer interessante onderwerpen, laat het weten. Maar dat is alles voor nu.

Tot de volgende keer.

Dataridder is online

Hallo wereld,

Mijn naam is Samson en dit is Dataridder. Op deze site zal ik jullie informeren over alles wat te maken heeft met het programmeren van data opslag en analyse applicaties.

Op dit moment ben ik hier zelf nog niet al te ervaren mee, maar ik ben al wel een aardige Java ridder, en heb al met verschillende andere talen en tools geëxperimenteerd. Deze site zal dus samen met mij groeien, en hoe meer ik leer, hoe meer jullie van deze site zullen kunnen leren.

Tot de volgende keer!