Accelerator

Hallo wereld,

Vorige week ben ik dan toch eindelijk over de streep getrokken; ik heb geld geïnvesteerd in mijn educatie! Tot nu toe had ik, zoals ik al zei op de Over Dataridder pagina, alles gewoon gratis en voor niets van het internet af gevist. Maar, na het volgen van een webinar van EliteDataScience was ik dan toch verkocht; ik heb de Machine Learning Accelerator cursus aangeschaft.

Sindsdien heb ik hem tijdens bijna al mijn zelfstudie sessies tot dusver helemaal verslonden. En tot nu toe ben ik zeer positief, want deze cursus lijkt echt te doen wat hij belooft.

En wat belooft hij dan?

Nou, het is een cursus gericht op beginnende tot ‘intermediate’ Data Scientists die hun leerproces willen versnellen. Het is volgens EliteDataScience (net zoals volgens mij, overigens) heel goed mogelijk om alles zelf te leren. Maar, het nadeel daarvan is vooral dat het een langzaam en moeizaam proces kan zijn, zoals ik zelf ook al gemerkt heb. Het is niet zozeer dat de informatie niet te vinden is, maar vooral juist dat er TEVEEL informatie te vinden is! Hierdoor zie je al snel door de bomen het bos niet meer.

Deze cursus richt zich echter op het aanleren van de fundamentele vaardigheden voor de Data Scientist, met behulp van een van de meest gebruikte professionele Data Science tools: Jupyter Notebook, met Python.

De FUNDAMENTELE vaardigheden.

Dat is heel belangrijk, want hierdoor raak je niet afgeleid en leer je de kern van het Data Science proces aan, waardoor je de gereedschappen hebt die je bij vrijwel elk project nodig zal hebben. Maar, het is zeker niet zo dat het zo erg versimpeld is dat je zelf van alles er bij moet leren om er iets mee te kunnen doen. Je leert echt alles wat je nodig hebt voor je eerste projecten. En je leert het beste in context, door het doen van projecten, en deze cursus brengt je op een goed niveau om daar mee te beginnen.

Althans, dat is de belofte.

Natuurlijk heb ik deze cursus pas een week gevolgd en ben ik nog niet eens op de helft. Maar, ik heb al wel een aardig overzicht van wat ik in dit programma allemaal ga leren. Ik heb nu de eerste module (‘Cornerstone’) afgerond en ben nu een kei met Jupyter Notebook, maar dat is slechts het begin.

Het beste van dit programma is wel dat er een grote nadruk ligt op het uitvoeren van oefeningen. Hierdoor leer je je de vaardigheden echt aan, in plaats dat je ze alleen aan kijkt. En je wordt ook gestimuleerd om zelf met de principes te experimenteren en er over na te denken. Ik kreeg er via het webinar ook gratis het certificatie pakket bij. Mooi voor op je CV. Tot slot is er ook nog de mogelijkheid om vragen te stellen als je er niet uit komt.

Wel zijn er best een aantal kleine foutjes in de cursus. Maar die vallen toch in het niet bij de waarde die dit programma in mijn ogen heeft. Het heeft mijn leerproces in ieder geval al een stuk versneld. Ik zou hem aanraden.

Maar, dat is alles voor nu.

Tot de volgende keer!

 

Eerste Youtube video!

Hallo wereld,

Dataridder is vanaf nu ook te vinden op Youtube. Ik wilde namelijk een video over mijn projecten met neurale netwerken met jullie delen, maar kwam er achter dat deze te groot was om in een bericht te posten. Dus heb ik maar besloten om een Youtube kanaal aan te maken en de video daar op te posten. Ik was al van plan om dit vroeger of later te gaan doen, maar aldus werd het dus vroeger. Ook heb ik een bericht geschreven over neurale netwerken dat jullie kunnen lezen voor een uitleg over hoe ze werken. Oh, en de code is te vinden op mijn Github. Dat is alles voor nu.

Tot de volgende keer!

FOCUS

Wat is het doel van deze blog? Wat wil ik bereiken voor mijn lezers en voor mezelf? Dat zijn de vragen die ik de afgelopen dagen geprobeerd heb te beantwoorden.

In mijn laatste mededeling merkte ik dat de antwoorden op deze vragen nog niet helemaal duidelijk waren, voor mij noch voor jullie. En dat was een probleem, want als je niet weet waar je naar toe wilt dan kom je niet vooruit. Ik wist niet precies wat ik wilde leren, waarom ik het wilde leren, en hoe ik jullie kon helpen met wat ik aan het leren was. De wereld van data is zo groot, en mijn brein is zo klein. Hoe graag ik ook mezelf en jullie alles zou willen leren over data, dat lukt niet. Maar wat ik wel kan doen is alles leren wat essentieel is om een carrière in Data Science te beginnen, en onderweg delen wat ik leer zodat jullie dit ook kunnen. Wat ik wel kan doen is andere mensen aanmoedigen om daarbij te helpen door hun eigen kennis en vaardigheden te delen en in te zetten. En dat is dan ook wat ik ga doen.

Het plan voor de komende 6 maanden is als volgt. Ik ga alles leren wat essentieel is voor het krijgen van een baan als Junior Data Scientist. Om te bepalen wat dat is heb ik het advies op EliteDataScience opgevolgd en een toekomstig CV opgesteld voor mezelf.

Bijna alle vaardigheden op dit CV komen frequent in een of andere vorm voor in de functie-eisen voor Junior Data Scientist. De tools, talen en details verschillen, maar het komt in principe neer op :

  1. Kennis van (toegepaste) wiskunde, en vooral statistiek
  2. Ervaring met Python en/of R of vergelijkbare taal
  3. Ervaring met data analyse en data visualisatie en bijbehorende tools
  4. Ervaring met het trainen van machine learning algoritmes

Daarnaast wordt ook waarde gehecht aan ervaring met Git of een andere tool voor version control, ervaring met andere programmeertalen en een goede beheersing van zowel de Nederlandse als de Engelse taal. Zoals ik al zei verschillen de details, maar de vaardigheden die op mijn toekomstige CV staan zijn:

  • Toegepaste Statistiek
  • Machine Learning
  • Python
  • Java
  • SQL
  • R
  • Excel
  • Git
  • Calculus
  • Lineaire Algebra

Een aantal van deze vaardigheden beheers ik al tot op bepaalde hoogte, een aantal ervan heb ik in mijn opleidingen al voorbij zien komen, en met een aantal ervan heb ik nog vrijwel geen ervaring. Maar aan het einde van de komende 6 maanden is het mijn doel dat ik al deze vaardigheden redelijk tot uitstekend beheers. En dat jullie toegang hebben tot een hele hoop berichten waarin ik uitleg wat ik heb geleerd en de projecten die ik heb uitgevoerd presenteer en uitleg. En natuurlijk ook tot de informatie die alle andere Dataridders hier willen delen.

Lijkt dat je interessant en waardevol? Mooi, dan zie ik jou graag terug bij Dataridder! Ik heb overigens ook de Over Dataridder pagina aangepast aan deze nieuwe doelstelling. De pagina op EliteDataScience waarop onder andere het advies wordt gegeven om een toekomstig CV voor jezelf samen te stellen kun je hier vinden. Dat is alles voor nu.

Tot de volgende keer!

Project brainstorm fall-out 2.0

Update: Dit is een aangepaste versie van een eerder bericht.

Hallo wereld,

Pfoe, ik heb echt heel veel nagedacht de afgelopen twee weken. Ik had het in mijn eerdere projectaankondiging al over mijn beslissing om toch iets anders te doen dan ik eerst in gedachten had. Het eerdere idee was een Simulatie Data Applicatie. Dit project had twee onderdelen, aan de ene kant een simulatie die data genereerde, en aan de andere kant het analyseren van die data. Het eerste probleem was bedenken wat ik zou gaan simuleren. Eerst was mijn idee om een marktwerking simulatie te maken, met consumenten en producenten die op basis van individuele gedragingen een marktproces zouden genereren. Best een leuk idee, maar ook best complex en een beetje of topic. Dus ik besloot daarna om in plaats daarvan een oude simulatie op te graven: PredPrey, een simpele simulatie die ik had gemaakt van de interactie tussen roofdieren en prooien. Maar toen moest ik nog bedenken wat ik dan ging analyseren, en hoe, en waarom, en toen liep het helemaal uit de hand.

Eigenlijk kwam het allemaal terug op de vraag: wat wil ik leren? In het begin had ik hierop geantwoord: data analyse en opslag systemen programmeren. Echter, hoe meer ik nadacht en onderzoek deed, hoe meer ik me realiseerde dat dit antwoord niet compleet was, en tegelijkertijd ook best vaag en breed. Dingen waar ik me tot nu toe namelijk mee bezig hield, of van plan was mee bezig te houden, waren:

  • Applicaties met user interface te schrijven die gebruikers in staat stellen om data te analyseren. Grafieken maken, machine learning algoritmes erop los laten etc.
  • Databases programmeren, voor het opslaan, organiseren en aanpassen van data.
  • Simulatie applicaties schrijven die leervolle data genereren.
  • Zelf goede data analyse uit voeren met behulp van bestaande applicaties.
  • Zelf machine learning algoritmes schrijven die data analyseren.

En dat is eigenlijk allemaal veel te veel voor een persoon om met enige diepgang te bestuderen. En zonder diepgang zijn de praktische toepassingen beperkt. Aldus dacht ik. En ik wilde mij daarom gaan specialiseren, zodat ik meer diepgang kon opbouwen en meer waarde toevoegen. En in de vorige versie van dit bericht kondigde ik dan ook aan dat ik mij ging specialiseren in het begrijpen en programmeren van machine learning algoritmes voor data analyse. Dit leek mij het meest interessant en waardevol. Maar, inmiddels weet ik het eerlijk gezegd allemaal niet zo zeker meer. Al deze dingen zijn interessant en waardevol. Het is waar dat ik meer expertise kan opbouwen als ik mij focus, en uiteindelijk zal ik dat dan ook willen doen. Maar ik weet eerlijk gezegd nog niet waar ik mij in wil specialiseren. Ik denk dat het nog te vroeg is om te zeggen.

Dus, hoewel ik mij in mijn volgende project daadwerkelijk ga focussen op het begrijpen en toepassen van het random forest algoritme, zal ik in de toekomst waarschijnlijk gewoon een beetje blijven experimenteren. Ik zal blijven posten over meerdere van die dingen die ik heb genoemd die met data en data systemen te maken hebben, en wie weet ook nog wat andere dingen binnen dit onderwerp. Ik kan er wel meer bedenken namelijk. bijvoorbeeld:

  • Applicaties die automatisch data verzamelen van het internet, of andere bronnen.
  • Persoonlijke (mobiele) applicaties die handige data analyse taken kunnen uitvoeren. (Denk aan spraakherkenning, muzieksuggesties, maar ook medische diagnoses en beroepsadvies.)

Misschien dat dit jullie ook helpt om te bepalen wat jullie het meest interessant vinden. Of wat leert over wat jullie al weten dat jullie het meest interessant vinden. Weten jullie zelf nog meer interessante onderwerpen, laat het weten. Maar dat is alles voor nu.

Tot de volgende keer.

Datasystemen zijn saai?

Hallo wereld,

Gisterenochtend had ik een bericht geplaatst getiteld: Datasystemen zijn SAAI! In dit bericht vertelde ik over hoe ik na een saaie dag was gaan nadenken over wat ik nou echt interessant vond aan programmeren, en dat ik datasystemen, databases in het bijzonder, saai en droog vond en dat jullie dat waarschijnlijk ook vonden, en dat ik liever wou gaan schrijven over kunstmatige intelligentie. Maar diezelfde middag heb ik dit bericht er weer af gehaald, want ik had er toch bedenkingen over.

Ik denk dat er zeker een kern van waarheid zat in wat ik gisteren schreef. Ik vindt databases programmeren best saai. Ik vindt kunstmatige intelligentie heel interessant. Maar het was eigenlijk nooit de bedoeling van deze blog om alleen te gaan schrijven over het programmeren van databases. Dit begon alleen zo te lijken met mijn eerste project, het studenten datamanagement systeem, en de ietwat incomplete formulering van deze blog op de Over Mij pagina. Ik zal deze pagina dan ook nog aanpassen. Het eerste bericht dat ik heb geplaatst formuleerde echter beter wat de bedoeling van deze blog origineel was. Het programmeren van datasystemen, ja, maar niet alleen voor het opslaan en organiseren van data, ofwel het bouwen van databases, maar ook vooral juist voor het ANALYSEREN van die data! En dat is nou net wat mij het meest interessant lijkt, zowel voor mij als voor jullie. Niet alleen interessant om te doen, maar ook wat je er mee kan doen is interessant.

En wat nu precies de mogelijkheden zijn en de toepassingen hiervan, daar zal ik nu niet al te diep op in gaan. Maar om alvast een grappig voorbeeld te noemen, Target, een Amerikaanse winkelketen, had een programma geschreven dat op basis van onschuldig lijkend koop gedrag van tieners kon bepalen of ze zwanger waren of niet. Ze hadden bijvoorbeeld ontdekt dat deze tieners al vroeg in de zwangerschap meer lotion gingen kopen. Een vader klaagde bij een lokale manager nadat zijn dochter, die nog op de middelbare school zat, reclame ontving voor baby kleertjes en kinderbedjes. Hij wilde weten waarom ze zijn kleine kindje aanmoedigden om zwanger te worden? Een paar dagen later verontschuldigde hij zich over de telefoon: blijkbaar waren er bij hem thuis dingen gaande waar Target meer van af wist dan hij zelf! Je kunt het volledige artikel op Forbes hier vinden. Maar dit is slechts één voorbeeld, er zijn oneindig veel toepassingen te bedenken voor data analyse systemen!

En ja, dit analyseren van data kan ook met kunstmatige intelligentie, en ja, dat is heel erg interessant, en zal nog veel interessanter worden naarmate kunstmatige intelligentie zich verder ontwikkelt. En ja, dat is iets waar ik het op deze blog ook zeker over wil gaan hebben en waar ik ook zeker zelf mee wil gaan experimenteren.  En ik heb al een idee voor een eerste project dat sowieso data analyse gaat bevatten, en wellicht ook wel data analyse met kunstmatige intelligentie. Dus dat is iets om naar uit te kijken! Maar dat is alles voor nu.

Tot de volgende keer!

De wereld is zo groot en mijn brein is zo klein!

Hoe kan ik godsnaam een expert worden over alles wat te maken heeft met data? De wereld van data is zo groot, en mijn brein is zo klein! Daarom is het dus noodzakelijk dat ik mij ga specialiseren in een zo smal mogelijk deelonderwerp, in ieder geval om mee te beginnen. Ik zou er ook voor kunnen kiezen om een beetje te doen van alles, maar dat zou resulteren in een dataridder die slecht is in alles en goed is in niets. En dat willen we natuurlijk niet!

Daarom heb ik gekozen om, in ieder geval voor deze blog, te beginnen met de volgende specialisatie: Data management systemen gemaakt met Java. Mogelijkerwijs zal ik mij hier nog verder in specialiseren. Maar voor nu zal dit de focus zijn van de artikelen die op Dataridder zullen verschijnen. Het is mogelijk dat ik ook nog wat artikelen zal publiceren over andere onderwerpen als ik daar zin in heb of een gebrek aan andere ideeën heb. Maar het is de bedoeling dat het merendeel van de artikelen voor de komende maanden over dit onderwerp zullen gaan. Dat is alles voor nu. Tot de volgende keer.

Dataridder is online

Hallo wereld, mijn naam is Samson en dit is Dataridder. Op deze site zal ik jullie informeren over alles wat te maken heeft met het programmeren van data opslag en analyse applicaties. Op dit moment ben ik hier zelf nog niet al te ervaren mee, maar ik ben al wel een aardige Java ridder, en heb al met verschillende andere talen en tools geëxperimenteerd. Deze site zal dus samen met mij groeien, en hoe meer ik leer, hoe meer jullie van deze site zullen kunnen leren.