Project brainstorm fall-out 2.0

Update: Dit is een aangepaste versie van een eerder bericht.

Hallo wereld,

Pfoe, ik heb echt heel veel nagedacht de afgelopen twee weken. Ik had het in mijn eerdere projectaankondiging al over mijn beslissing om toch iets anders te doen dan ik eerst in gedachten had. Het eerdere idee was een Simulatie Data Applicatie. Dit project had twee onderdelen, aan de ene kant een simulatie die data genereerde, en aan de andere kant het analyseren van die data.

Het eerste probleem was bedenken wat ik zou gaan simuleren. Eerst was mijn idee om een marktwerking simulatie te maken, met consumenten en producenten die op basis van individuele gedragingen een marktproces zouden genereren. Best een leuk idee, maar ook best complex en een beetje of topic. Dus ik besloot daarna om in plaats daarvan een oude simulatie op te graven: PredPrey, een simpele simulatie die ik had gemaakt van de interactie tussen roofdieren en prooien. Maar toen moest ik nog bedenken wat ik dan ging analyseren, en hoe, en waarom, en toen liep het helemaal uit de hand.

Eigenlijk kwam het allemaal terug op de vraag: wat wil ik leren? In het begin had ik hierop geantwoord: data analyse en opslag systemen programmeren. Echter, hoe meer ik nadacht en onderzoek deed, hoe meer ik me realiseerde dat dit antwoord niet compleet was, en tegelijkertijd ook best vaag en breed. Dingen waar ik me tot nu toe namelijk mee bezig hield, of van plan was mee bezig te houden, waren:

  • Applicaties met user interface te schrijven die gebruikers in staat stellen om data te analyseren. Grafieken maken, machine learning algoritmes erop los laten etc.
  • Databases programmeren, voor het opslaan, organiseren en aanpassen van data.
  • Simulatie applicaties schrijven die leervolle data genereren.
  • Zelf goede data analyse uit voeren met behulp van bestaande applicaties.
  • Zelf machine learning algoritmes schrijven die data analyseren.

En dat is eigenlijk allemaal veel te veel voor een persoon om met enige diepgang te bestuderen. En zonder diepgang zijn de praktische toepassingen beperkt. Aldus dacht ik. En ik wilde mij daarom gaan specialiseren, zodat ik meer diepgang kon opbouwen en meer waarde toevoegen. En in de vorige versie van dit bericht kondigde ik dan ook aan dat ik mij ging specialiseren in het begrijpen en programmeren van machine learning algoritmes voor data analyse. Dit leek mij het meest interessant en waardevol.

Maar, inmiddels weet ik het eerlijk gezegd allemaal niet zo zeker meer. Al deze dingen zijn interessant en waardevol. Het is waar dat ik meer expertise kan opbouwen als ik mij focus, en uiteindelijk zal ik dat dan ook willen doen. Maar ik weet eerlijk gezegd nog niet waar ik mij in wil specialiseren. Ik denk dat het nog te vroeg is om te zeggen.

Dus, hoewel ik mij in mijn volgende project daadwerkelijk ga focussen op het begrijpen en toepassen van het random forest algoritme, zal ik in de toekomst waarschijnlijk gewoon een beetje blijven experimenteren. Ik zal blijven posten over meerdere van die dingen die ik heb genoemd die met data en data systemen te maken hebben, en wie weet ook nog wat andere dingen binnen dit onderwerp. Ik kan er wel meer bedenken namelijk. bijvoorbeeld:

  • Applicaties die automatisch data verzamelen van het internet, of andere bronnen.
  • Persoonlijke (mobiele) applicaties die handige data analyse taken kunnen uitvoeren. (Denk aan spraakherkenning, muzieksuggesties, maar ook medische diagnoses en beroepsadvies.)

Misschien dat dit jullie ook helpt om te bepalen wat jullie het meest interessant vinden. Of wat leert over wat jullie al weten dat jullie het meest interessant vinden. Weten jullie zelf nog meer interessante onderwerpen, laat het weten. Maar dat is alles voor nu.

Tot de volgende keer.

Projectaankondiging: Random Forest Wijnproever

Hallo wereld,

Een tijd geleden gaf ik al aan dat ik een nieuw idee had voor een project.  Ik had het idee om een simulatie te programmeren, data te genereren en een programma te schrijven om die data te analyseren. Echter, dit idee gaat voorlopig niet door. Waarom niet? Nou het was me nog niet echt duidelijk hoe deze programma’s er precies uit zouden komen te zien. En hoe meer ik hierover nadacht, hoe meer ik me realiseerde dat ik me eigenlijk eerst ergens anders op wilde focussen. Namelijk, het bestuderen, toepassen en zelf programmeren van machine learning algoritmes. Aldus koos ik voor het volgende project.

Ik ga een tutorial volgen voor het schrijven van een machine learning applicatie in Python die wijnkwaliteit leert beoordelen. Een tutorial op EliteDataScience, een website die mensen de leermiddelen aanreikt om een data wetenschapper te worden. Nu vindt ik dat reuze interessant, maar het is op het moment niet mijn bedoeling om een data wetenschapper te worden, maar een programmeur van datasystemen. En met deze tutorial leer ik onder andere hoe ik de data science libraries van Python kan gebruiken om data te analyseren. En ik heb al wat geleerd op deze site over wat er allemaal komt kijken bij het uitvoeren van een goede data analyse, maar ik wil een stapje verder gaan. Ik wil ZELF het algoritme programmeren dat de data analyseert, in plaats van alleen de kant en klare versie in de gebruikte Python library te leren toepassen. En dat is dan ook het echte project: mijn eigen algoritme programmeren.

Misschien dat je je afvraagt wat het nut hier van is. Immers, waarom zou ik iets programmeren waar al een library voor is? Nou, het antwoord daarop is natuurlijk dat ik wil leren hoe het het algoritme werkt. Ik wil het zo goed leren begrijpen dat ik het zelf kan programmeren.

Bovendien zal ik hiermee ook mijn programmeervaardigheden over het algemeen verbeteren. En ja, ik ga dat doen met Python. Een taal waar ik tot nu toe slechts een klein beetje ervaring mee heb opgedaan met het maken van Conway’s Game of Life. Dat is het eerste en enige programma dat ik tot nu toe met Python heb gemaakt. Dus ook dat zal leerzaam zijn.

Eerst volg ik de tutorial en voer ik de data analyse uit met de methode uit de library. In de tutorial leer je om een programma te schrijven dat leert om een cijfer voor de wijnkwaliteit te berekenen op basis van een lijst van eigenschappen. Het leert om dit te doen op basis van een set trainingsdata. Het doet dit met een random forest algoritme uit de Scikit-Learn library. Daarna schrijf ik mijn eigen random forest algoritme, voer de analyse daarmee opnieuw uit, en vergelijk de resultaten. Het random forest algoritme is een regressie algoritme: het leert om een variabele te berekenen op basis van een aantal inputvariabelen. En zegt dit je niet niets, bekijk dan eventueel ook mijn post over datamining waarin ik onder andere kort uitleg wat regressie is. En wat het random forest algoritme betreft, daarover en ook over regressie zal ik meer uitleggen in de loop dit project. Wil je nu al meer weten hierover, kijk dan misschien eens naar H5 van de Data Science Primer op EliteDataScience. Daar wordt het heel duidelijk uitgelegd. Dat is alles voor nu.

Tot de volgende keer!

Datamining

Hallo wereld. Dit keer ga ik jullie wat vertellen over datamining. Datamining (gegevensdelving, datadelving) is het gericht zoeken naar patronen en verbanden in verzamelingen van gegevens met als doel tot waardevolle kennis te komen. Het wordt toegepast in legio aan gebieden, zoals de wetenschap, de detailhandel, de financiële sector, de politie en de journalistiek. Denk bijvoorbeeld aan het analyseren van het aankoopgedrag van klanten om bedrijfsstrategieën te verbeteren, of het vinden van onregelmatigheden in online activiteit voor het opspeuren van criminelen.

De technologische ontwikkelingen van de laatste tijd hebben het verzamelen en opslaan van data steeds makkelijker gemaakt. Niet alleen dat, de wetenschappelijke en economische ontwikkelingen hebben ervoor gezorgd dat er veel meer data relevant voor ons geworden is. Echter, als mens zijn we niet opeens beter geworden in het verwerken van al die gegevens. Hierdoor hoopt het aantal gegevens zich op, gegevens die mogelijk tot waardevolle informatie zouden kunnen leiden als we ze zouden kunnen analyseren. Dit is waarom datamining steeds interessanter wordt als technologie. Het stelt ons in staat het onttrekken van informatie, dat wil zeggen nuttige inzichten en voorspellingen, uit die steeds harder groeiende hoop van gegevens te automatiseren.

Hierbij is het echter belangrijk dat dit allemaal op een verstandige en wetenschappelijke manier gebeurt. Het is heel gemakkelijk om verbanden te vinden met een programma die in werkelijkheid niets zeggen of iets heel anders betekenen dan op het eerste gezicht lijkt. Wist je bijvoorbeeld dat er meer mensen verdrinken op dagen dat er meer ijsjes verkocht worden? We moeten echt ophouden met al die ijsjes, niet waar?! Oh, of is het misschien dat er op warmere dagen meer mensen naar het strand komen en het risico lopen te verdrinken, en dat er ook meer ijsjes verkocht worden omdat er meer mensen op het strand zijn?

Datamining is onderdeel van een groter proces bekend als KDD: knowledge discovery in databases (kennisvergaring uit databases), waar meer bij komt kijken dan alleen het analyseren van de data. Maar met datamining wordt gerefereerd naar de analyse stap zelf en hierbij zijn een aantal verschillende analyse taken te onderscheiden:

  • Het groeperen van data. (Clustering)
  • Het vinden van verbanden tussen data. (Dependency modeling)
  • Het vinden van onregelmatigheden in data. (Anomaly detection)
  • Classificatie. (Classification)
  • Regressie. (Regression)
  • Samenvatten. (Summarization)
Het groeperen van data. (Clustering)

Hierbij gaat het om het groeperen van objecten op een dusdanige manier dat de objecten binnen een groep meer met elkaar in gemeen hebben dan met objecten binnen een andere groep. Hierbij gaat het om het vormen van nieuwe groepen in plaats van het indelen in bestaande categorieën. Dit kan worden toegepast op allerlei gebieden en leiden tot interessante nieuwe inzichten. Bijvoorbeeld een nieuwe groep consumenten met bepaalde gemeenschappelijke kenmerken die voorheen onopgemerkt bleven, door deze techniek toe te passen op klantonderzoeksgegevens.

Het vinden van verbanden tussen data. (Dependency modeling)

Het schijnt dat er een verband is tussen het aantal ooievaars dat wordt aangetroffen in een land en het aantal baby’s dat geboren wordt. Wist je dat? Helaas, het is weer niet echt een veelzeggend verband, en heeft meer te maken met het feit dat grotere landen zowel meer ooievaars als geboortes hebben. Toch, met datamining kunnen allerlei verbanden worden ontdekt tussen gegevens en soms zeggen die verbanden wel nuttige dingen. Bijvoorbeeld dat het gebruik van een bepaald medicijn vaak voorkomt in combinatie met hartproblemen. Handig om te weten. Of bijvoorbeeld om te voorspellen wat voor weer het morgen wordt.

Het vinden van onregelmatigheden in data. (Anomaly detection)

Je hebt een oneindige hoeveelheid aan gegevens en je bent op zoek naar de uitschieters, de objecten die buiten de boot vallen. Bijvoorbeeld om criminelen op te sporen, of een defect product. Succes om dat met het blote oog te doen. Daar heb je datamining voor nodig. Het is in principe niets anders dan het vinden van waarden die buiten bepaalde grenzen vallen, maar dus ook het bepalen van de grenzen waarbinnen het merendeel van de andere gegevens liggen.

Classificatie. (Classification)

Is dit een foto van een hond of een kat? Is dit bericht spam of geen spam? Is deze persoon zwanger, of niet zwanger? Zal deze persoon zijn lening wel of niet gaan aflossen? Dit zijn voorbeelden van vragen die je met (statistische) classificatie kan beantwoorden. En hoe doet een systeem dat? Nou, door op basis van een training set van objecten met bekende classificatie te leren onbekende objecten te classificeren. Als dat te ingewikkeld klinkt, het komt er in principe op neer om een systeem bijvoorbeeld een aantal plaatjes van honden en katten te laten zien totdat het in staat is om zelf te raden (met een bepaalde nauwkeurigheid) of een plaatje van een hond of een kat is. Dit is dan ook een van de hoofdtoepassingen van machine learning.

Regressie. (Regression)

Welke functie beschrijft deze datapunten het beste? Regressie is het proces waarmee verbanden tussen gegevens worden ingeschat. Het gaat er dan om uit te vinden hoe veranderingen in een bepaalde onafhankelijke variabele een bepaalde afhankelijke variabele beïnvloedt. Hierbij worden de andere onafhankelijke variabelen constant gehouden. Bijvoorbeeld: als je een hele hoop gegevens hebt over de verkoop van ijsjes N op een bepaalde dag onder bepaalde omstandigheden, hoe hangt dan de verkoop van ijsjes af van de temperatuur T? We zijn dan op zoek naar een functie N(T) die dit verband beschrijft zodat we voor elke T kunnen voorspellen hoeveel ijsjes er verkocht zullen worden.

Samenvatten. (Summarization)

Hierbij gebeurt er letterlijk wat er staat. Er wordt wat samengevat. Heb je bijvoorbeeld een groot document (of een grote hoeveelheid grote documenten) dan kun je met een programma een samenvatting genereren die bijvoorbeeld bepaalde veelvoorkomende zinnen verzameld. Of als je een grote verzameling tekst hebt van bijvoorbeeld een klantenonderzoek, dan kun je uitzoeken wat het meest gebruikte woord of de meest voorkomende zin is. Hierbij komt natuurlijk het een en ander kijken om dit goed te kunnen doen en met meer diepgang dan alleen het uitvinden van de meest gebruikte combinatie van letters. Ook hier komt machine learning bij kijken.

En dat is het! Nou niet per se. Dit zijn slechts de taken die genoemd werden op Wikipedia, en er zijn er waarschijnlijk nog wel meer te bedenken. Ja ik geef het toe, ik heb deze informatie voor een groot deel (maar niet exclusief) van Wikipedia afgehaald. Ik hoop echter dat je mijn uitleg beter begrijpt dan het lange en technische verhaal dat daar te vinden is. De bronnen die ik gebruikt heb staan onderaan dit bericht. Dat is alles voor nu.

Tot de volgende keer!

Bronnen

https://nl.wikipedia.org/wiki/Datamining

https://en.wikipedia.org/wiki/Data_mining

https://en.wikipedia.org/wiki/Cluster_analysis

https://nl.wikipedia.org/wiki/Rofecoxib

https://en.wikipedia.org/wiki/Regression_analysis

https://en.wikipedia.org/wiki/Statistical_classification

Data Mining Practical Machine Learning Tools and Techniques – I. Witten, E. Frank (Geweldig boek!)

StudentApp klaar voor nu

Hallo wereld!

Ik heb nog een aantal laatste aanpassingen gemaakt aan het studenten datasysteem. Dit zullen waarschijnlijk de laatste aanpassingen zijn die ik voorlopig zal maken. In plaats daarvan ga ik verder met nieuwe projecten, waarvan ik al wat gezegd had in mijn mededeling van vorige week.

Ten eerste heb ik de code een beetje gereorganiseerd. In JavaFX maakt men gebruik van wat men noemt Scenes om de windows te vullen met alle interface componenten. Tot nu toe had ik al deze Scenes in een method gepropt. Het resultaat? Een lange onoverzichtelijke rij van code met allerlei interface componenten die allemaal naamconflicten oproepen die constant moeten worden opgelost. Nu heb ik elke Scene laten genereren in een aparte method per stuk. Het resultaat? Een lange onoverzichtelijke rij van methods die in ieder geval geen naamconflicten meer veroorzaken. Na al het scrollen en programmeren en tijdens het schrijven van dit bericht kwam ik er echter weer achter dat je die lange onoverzichtelijke rijen code in Netbeans ook kon inklappen door op het minteken ernaast te klikken. Zucht…

Bovendien bleek het ook handig te zijn om Scenes te laten genereren in de functionaliteit van andere Scenes, door die methodes op deze plekken in te voeren. Bijvoorbeeld om de naam van de ingelogde student aan te passen tijdens het inloggen zelf. Waarschijnlijk kan het nog steeds allemaal veel beter, maar JavaFX was nog steeds onwennig voor mij en dit is de beste oplossing die ik voor nu kon vinden.

Ook heb ik de mogelijkheid om de save folder te wijzigen toegevoegd. Zoals ik al zei is dat veel professioneler. Niet alleen kun je hem nu wijzigen, het is nu ook niet meer zo dat hij automatisch wordt gemaakt in je C directory. In plaats daarvan wordt automatisch de folder geselecteerd waarin je de jar-file hebt opgeslagen voor opslag. Wees echter gewaarschuwd, als je hem in je IDE runt dan wordt automatisch de build folder geselecteerd, en die is niet geschikt voor permanente opslag. Zorg er dan in dit geval dus voor dat je de folder dan ook wijzigt met de handige functionaliteit die ik heb toegevoegd! Wil je niet dat de informatie direct in je geselecteerde folder wordt opgeslagen maar een nieuwe folder aanmaken? Dat kan ook. Type gewoon de naam van de folder die je wilt maken achter het bestandspad en de folder wordt automatisch aangemaakt.

Daarnaast heb ik ook een simpele zoekfunctie toegevoegd. Niets bijzonders, maar wat heb je aan een database waarin je niet kan zoeken? In mijn database staan dan misschien maar slechts een paar elementen, maar in een echte toepassing zouden er al snel honderden tot duizenden rijen in staan. De droom dat deze database een echte toepassing zou worden heb ik voorlopig echter even uitgesteld. Voor nu is het dan ook alleen maar mogelijk om op ID-nummer te zoeken. Meer als proof-of-concept dan als handige functionaliteit dus.

Tot slot heb ik ook een simpele cirkeldiagram scene toegevoegd die de verdeling van de studenten over de verschillende studiejaren toont. Om deze functioneel te maken heb ik dan de beschikbare jaarkeuzes beperkt tot 1 tot en met 5. Deze scene is mijn poging om een beetje data analyse aan het data opslag systeem toe te voegen. Want data analyse is natuurlijk veel leuker dan data opslag!

En dat is het! De code is te vinden op https://github.com/SamsonCodes/StudentenData/tree/evenmorechanges. Het is tijd voor een nieuw project. Wat voor project? Nou, dat vertel ik jullie volgende week natuurlijk.

Tot de volgende keer!

 

Java Tutorial: Data laden

Update: Dankzij Thom, een oud-medestudent en vriend van mij, is deze tutorial nu verbeterd. Thom, je bent een held!

Gegroet Dataridders,

Welkom bij de tweede Java data tutorial. Dit keer zal ik jullie leren hoe je data die je hebt opgeslagen in een bestand als tekst kunt laden. Opnieuw geldt hierbij: Dit is hoe ik het altijd gedaan heb en niet per se de enige noch de beste methode. Voor deze tutorial gelden dezelfde benodigdheden als bij de vorige:

  • Java SDK geïnstalleerd op je systeem
  • Een Java IDE, bijvoorbeeld Netbeans of Eclipse
  • Basiskennis van programmeren met Java

Om te beginnen zullen we weer eerst onze methode definiëren. We willen een functie die als input een bestandslocatie filePath voor een tekstbestand neemt en dan als output ons de tekst in dat bestand geeft in een ArrayList van String gegevens. En net zoals de vorige keer mag de functie weer static zijn, aangezien er geen object nodig is om hem te gebruiken. Dit ziet er dan als volgt uit:

public static ArrayList<String> loadData(String filePath)
{
ArrayList<String> loadedData = new ArrayList();
return loadedData;
}

Op dit moment wordt er nog niets geladen en is de ArrayList die wordt gereturned door onze methode nog leeg. Laten we daar verandering in brengen. Om onze data te laden zullen we gebruik maken van een FileReader. Moet ik echt uitleggen wat deze class doet?

Hij leest bestanden.

Maar een FileReader is niet erg efficiënt voor onze toepassing. Daarom hebben we nog een class nodig: BufferedReader. Een BufferedReader neemt als input een ander Reader object, en het resultaat is een Reader met byte-buffering, welke efficiënter is.

Echter, voor onze toepassing maakt die extra efficiëntie niet veel uit. We zijn meer geïnteresseerd in de readLine() methode van de BufferedReader, maar daarover later meer. Dat ziet er dan als volgt uit:

FileReader fileReader = new FileReader(filePath);
BufferedReader bufferedReader = new BufferedReader(fileReader);

Wat in Google’s naam is byte-buffering?! Eerlijk gezegd heb ik geen idee. Sterker nog, voordat ik deze tutorial maakte wist ik niet eens wat een BufferedReader was, waarom ik het moest gebruiken en waarom het een FileReader als input nam. Maar ik wist wat Google was en ik wist wat copy-paste was en dus ik wist hoe ik data moest laden.

Ik wilde voor deze tutorial echter toch wel iets meer kunnen uit leggen over het onderliggende proces dan dat, en dus heb ik maar wat onderzoek gedaan. Wil je meer weten over byte-buffering dan heb je twee opties: Wacht totdat ik besluit een tutorial of blog post te doen over byte-buffering, of doe wat ik doe als ik iets niet weet: Google het!

Genoeg intermezzo, verder met programmeren!

Net zoals bij de constructor van de PrintWriter moeten er weer wat Exceptions opgevangen worden bij de initialisatie van de FileReader. We zullen de code dus weer met try en catch omringen.

try
{
fileReader = new FileReader(filePath);
BufferedReader bufferedReader = new BufferedReader(fileReader);
}
catch (FileNotFoundException ex)
{
Logger.getLogger(DataLoadingTutorial.class.getName()).log(Level.SEVERE, null, ex);
}

Nu kunnen we de BufferedReader gebruiken om ons bestand te lezen. We doen dat met de eerder genoemde readLine() functie van BufferedReader en een while loop. De readline() functie stelt ons in staat hele regels tegelijk te lezen in ons programma, iets wat met FileReader niet kan. Zolang ons bestand nieuwe regels met tekst bevat zal readLine() ons deze geven. We willen voor onze while loop dan de output van readLine() toe blijven voegen aan onze ArrayList totdat readLine() ons een lege regel geeft. Dit ziet er dan als volgt uit:

String line;
while ((line = bufferedReader.readLine()) != null)
{
loadedData.add(line);
}

Ook readLine genereert echter weer wat vervelende Exceptions die moeten afgehandeld worden, IOExceptions dit keer. We zullen dus een catch-clausule moeten toevoegen:

catch (FileNotFoundException ex)
{
Logger.getLogger(DataLoadingTutorial.class.getName()).log(Level.SEVERE, null, ex);
}
catch (IOException ex)
{
Logger.getLogger(DataLoadingTutorial.class.getName()).log(Level.SEVERE, null, ex);
}

De Logger code is overigens weer automatisch gegenereerd en wordt gebruikt om de foutmeldingen in het log scherm te weergeven maar is niet essentieel, en kan weggelaten of bijvoorbeeld vervangen worden door een “System.out.println()” met tekst naar keuze.

In principe werkt deze code zo dan ook, maar dankzij Thom weten we nu hoe het beter kan. Ten eerste was ik vergeten om de reader te sluiten nadat de File gelezen was. De meest elegante methode om dit te doen met Java is door de constructor te verplaatsen naar de try opening zoals hieronder:

try (BufferedReader bufferedReader = new BufferedReader(new FileReader(filePath)))
{
String line;
while ((line = bufferedReader.readLine()) != null)
{
loadedData.add(line);
}
}

Dit zorgt ervoor dat de reader gesloten wordt, zelfs als er een Exception plaatsvindt. Hetzelfde principe geldt overigens voor de PrintWriter van de savefunctie.

try (PrintWriter writer = new PrintWriter(filePath, StandardCharsets.UTF_8.name()))

Daarnaast is een FileNotFoundException een subclass van een IOException en kunnen we de catch voor de FileNotFoundException dus weglaten, en alles met de IOException opvangen.

catch (IOException ex)
{
Logger.getLogger(DataLoadingTutorial.class.getName()).log(Level.SEVERE, null, ex);
}

Tot slot is er blijkbaar nog een alternatieve, makkelijkere manier om gegevens te laden met Java 8, door gebruik te maken van Streams met de Files class.

// Alternative: Java 8 way with Streams
try
{
System.out.println(“”);
System.out.println(“Inhoud:”);
Files.lines(Paths.get(PATH + “test.txt”)).forEach(System.out::println);
}
catch (IOException ex)
{
Logger.getLogger(DataLoadingTutorial.class.getName()).log(Level.SEVERE, null, ex);
}

Ja, ik weet het, waarom niet gewoon deze tutorial daarmee beginnen?! Maar ik zei al, ik ging jullie laten zien hoe IK het deed, en ik kende deze manier nog niet. Bovendien kan ik jullie er op het moment ook weinig over deze alternatieve methode uitleggen, en denk ik dat het proces dat ik heb uitgestippeld in mijn methode nog steeds heel leerzaam is. In de toekomst zal ik deze manier echter misschien ook gaan gebruiken.

En klaar is kees!

Zolang je nu maar de juiste bestandslocatie opgeeft zal deze code alle regels uit je tekstbestand in een ArrayList zetten. De volledige code, inclusief extra code voor het testen is te vinden op https://github.com/SamsonCodes/DataLoadingTutorial. Trouwens, mocht je het nog niet weten, de Java files binnen een Netbeans project zijn te vinden in de src folder. In dit geval is er slechts een Java file, en die is te vinden in de dataloadingtutorial folder (in Netbeans: package) binnen deze src folder.

Dat is alles voor nu,

 

Tot de volgende keer!

Dataridders, Eretitels en de Heldentabel

Gegroet Dataridders,

Willen jullie ook dat Dataridder.nl een site wordt waar iedereen terecht kan om te leren een expert te worden in data?

Ik wel namelijk, en tot nu toe heb ik dat dan ook in mijn eentje proberen te doen. Maar ik realiseer me dat dit best wat tijd en moeite gaat kosten. Nu ben ik bereid om die tijd en moeite te investeren, maar ik vroeg me af of jullie het niet leuk zouden vinden om OOK een bijdrage te leveren aan deze missie. Want samen kunnen we veel meer bereiken dan ik alleen ooit zou kunnen.

En dus kwam ik op het idee voor een nieuw systeem dat jullie in staat te stelt een bijdrage te leveren en daarvoor te bedanken.

Wat voor systeem?

Van nu af aan zal ik regelmatig, waarschijnlijk elke vrijdag, missies posten die jullie kunnen uitvoeren om Dataridder.nl te verbeteren en titels en privileges te verdienen.

Wat voor titels? Nou, ten eerste is er de titel “Dataridder”. Een Dataridder is iemand die zijn expertise heeft aangetoond met het virtuele zwaard (programmeren) om de ruwe, meedogenloze wereld van data te temmen en orde en wijsheid in deze wereld te brengen (data opslag en analyse).

Ten tweede is er de titel “Ridder van de Heldentabel”. Een Ridder van de Heldentabel (niet te verwarren met de veel minder coole en onhandige “Ronde Tabel” van Koning Arthur) is iemand die een of meerdere waardevolle bijdragen heeft geleverd aan de missie van Dataridder.nl. Dat wil zeggen iemand die zijn unieke talenten heeft ingezet om deze site te transformeren tot een plek waar iedereen kan leren om een expert te worden in data. In het geval dat die unieke talenten zijn met het virtuele zwaard is zo’n persoon dan dus een “Dataridder van de Heldentabel’. Maar die talenten hoeven niet per se met het virtuele zwaard te zijn, en dat brengt mij op de laatste soort titels, “Eretitels”.

Eretitels zijn titels die men kan verdienen door het uitvoeren van speciale “Heldenmissies”, of door het op eigen initiatief uitvoeren van bijzonder heldhaftige daden die Dataridder.nl een betere leerplek maken. Het zijn toevoegingen aan de eerste twee soorten titels, die de belangrijkste bijdrage van deze persoon aan Dataridder.nl omschrijven. Dit kan een tutorial zijn over het gebruiken van TensorFlow voor data analyse, maar ook het helpen promoten of het verbeteren van het uiterlijk van de site. Hoe zou zo’n titel er dan uit kunnen zien? Nou bijvoorbeeld: AndroidAapje1 (gebruikersnaam), Dataridder van de Heldentabel (riddertitel), Maker van den Dataridder App (eretitel).

Wat voor privileges? Nou ten eerste zal je als Ridder of Dataridder van de Heldentabel een plaats verdienen op de toekomstige eervolle vermeldingspagina op deze site: de Heldentabel. Ten tweede zul je als Dataridder en of Ridder van de Heldentabel in de toekomst kunnen rekenen op speciale aanbiedingen, exclusieve inhoud en wie weet wat nog meer? Reken er echter op dat ik je dankbaar zal zijn en dat ik mijn best ga doen om dit te laten merken.

Maar alleen de mogelijkheid voor het verdienen van titels is nog niet echt ideaal als systeem. Wanneer is iemand een Dataridder? Hoeveel bijdrages moet iemand leveren om geridderd te worden, of moet het juist een enkele bijzonder grote bijdrage zijn? Daarom is er nog een element nodig, een puntensysteem. In dit puntensysteem zullen er twee typen punten te verdienen zijn, Datapunten en Ridderpunten. Datapunten representeren de expertise die iemand heeft getoond als virtuele zwaardvechter in de data wereld. Ridderpunten representeren de bijdrage die iemand heeft geleverd aan de Dataridder missie. Met voldoende Datapunten (1000) kun je de titel van Dataridder verdienen en met voldoende Ridderpunten (1000) kun je een plaats verdienen aan de Gegevenstabel.

Op dit moment is het zover ik weet nog niet echt mogelijk om een account aan te maken op deze website, WordPress heeft nog steeds een aantal mysteries voor mij en ook dit mysterie zal ik dus nog even moeten uitvogelen. Maar dat is geen reden waarom jullie niet nu al zouden kunnen beginnen met het verdienen van punten en titels. Dus reken er maar op dat die missies er aan komen. En de eerste missie komt volgende week! Om alvast een hint te geven: vinden jullie ook niet dat Dataridder er op het moment nog een beetje standaard uit ziet? Een tweede hint: De winnaar van deze missie zou weleens kunnen bepalen hoe de eerste producten van Dataridder er uit zouden komen te zien. Een derde hint: Elke ridder moet herkenbaar zijn voor zijn bondgenoten.

Weet jij wat deze missie gaat worden? Stuur mij dan een email met het antwoord op sedaniel@dataridder.nl, en de eerste persoon die het raadt verdient de eerste 100 Ridderpunten! Zo makkelijk ga je ze echt nooit meer verdienen…

Dataridders, de plicht roept.

Java Tutorial: Data opslaan

Hallo wereld!

Dit keer heb ik een tutorial voor jullie gemaakt over het opslaan van data met Java.

Er zijn meerdere manieren om dit te doen, en ze zijn niet per se allemaal even goed, en sommige manieren zijn beter in bepaalde situaties dan in andere. Maar ik ga jullie leren hoe IK het tot nu toe heb gedaan voor MIJN projecten. Als jij dit leest en jij denkt een betere manier te weten, laat het me weten! Ik wil het graag horen.

Om deze tutorial te volgen heb je nodig:

  • Java SDK geïnstalleerd op je systeem
  • Een Java IDE, bijvoorbeeld Netbeans of Eclipse
  • Basiskennis van programmeren met Java

Met dat uit de weg, laten we beginnen. Eerst zullen we het frame van onze methode ontwerpen. We willen een methode maken die als input een ArrayList van String gegevens data neemt om op te slaan en een String met de opslaglocatie filePath. De methode heeft geen output, maar schrijft de data naar een tekstbestand in de opgeven locatie. Als het tekstbestand nog niet bestaat dan wordt het overigens gecreëerd, maar de folder moet wel al bestaan. Dit ziet er dan als volgt uit:

public static void saveData(ArrayList<String> data, String filePath) { }

We kunnen de methode de static eigenschap geven omdat het niet nodig is om een object te initialiseren om hem te gebruiken, de methode is zelfstandig. Public is hier ook wel handig zodat je hem overal in je project kan gebruiken.

Om data op te slaan in een tekstbestand zullen we gebruiken van de PrintWriter class. Deze class stelt je in staat om tekst te printen in een “tekst outputstream”. Om de PrintWriter te initialiseren gebruiken we de volgende code:

PrintWriter writer = new PrintWriter(filePath, “UTF-8”);

De “UTF-8” String geeft informatie over de karakters die gebruikt kunnen worden in het tekst bestand. Maar maak je daar maar niet al te druk om.

Er is echter nog een probleem met de bovenstaande code. Als je de informatie op docs.oracle.com doorleest zul je namelijk zien dat deze constructor een aantal Exceptions gooit die moeten worden opgevangen. Daarom zullen we de code omringen met een try catch statement. Als je Netbeans gebruikt dan kun je deze automatisch laten genereren door de regel te selecteren, op Alt-Enter te drukken en dan te selecteren “Surround Statement with try catch”. Vervolgens kunnen we eventueel Alt-Enter opnieuw gebruiken om er een multicatch van te maken, zodat alle foutmeldingen in een catch statement worden gevangen.

Het resultaat is het onderstaande. Eventueel kun je deze regels gewoon overtypen of kopiëren uit de volledige code.

try
{
PrintWriter writer = new PrintWriter(filePath, “UTF-8”);
}
catch (FileNotFoundException | UnsupportedEncodingException ex)
{
Logger.getLogger(DataHandlingTutorial.class.getName()).log(Level.SEVERE, null, ex);
}

De Logger code is hier dus automatisch gegenereerd en wordt gebruikt om de foutmeldingen in het log scherm te weergeven maar is niet essentieel, en kan weggelaten of bijvoorbeeld vervangen worden door een “System.out.println()” met tekst naar keuze.

Nu dat we de PrintWriter hebben geïnitialiseerd kunnen we beginnen met het opslaan van de gegevens. Om dit te doen gebruiken we een simpele for loop om alle data te printen.

for(String line: data)
{
writer.println(line);
}

Tot slot sluiten we nu we klaar zijn de PrintWriter met de volgende regel:

writer.close();

En klaar is kees! De volledige code kun je vinden op https://github.com/SamsonCodes/DataSavingTutorial. Wees geadviseerd dat de code niet voor je zal werken tenzij je de opslaglocatie PATH aanpast.

Maar als je kijkt naar de code die ik bijvoorbeeld heb gebruikt in mijn studenten datasysteem zul je zien dat er een klein verschil is. De loop voor het schrijven naar het bestand is daar anders:

data.stream().forEach((line)
->
{
writer.println(line);
});

Dit is te danken aan Netbeans. Die gaf mij namelijk de suggestie om een Functional Operator te gebruiken. Wat dat was wist ik niet, maar als Netbeans het beter vondt, waarom niet? Dus liet ik Netbeans het aanpassen en het werkte nog steeds precies hetzelfde.

Maar om niet al te onprofessioneel over te komen heb ik dan maar besloten het eens te googelen voor deze tutorial. Het antwoord op wat een Functional Operator nou is wordt hier gegeven op StackExchange. Het komt er in principe op neer dat het korter en beter te lezen is in het geval dat je nested loops gebruikt of meerdere loops die gedeeltelijke bewerkingen doen. Weer wat geleerd!

Dat is alles voor nu.

Tot de volgende keer!

StudentApp ontwikkelt zich verder

Hallo wereld!

Opnieuw een vooruitgangsrapport over het studenten data systeem, of StudentApp. Kort voor applicatie, niet te verwarren met de Android variant.

Inmiddels is het programma een stuk gevorderd sinds de vorige post. Een van de belangrijkste aanvullingen is die van een save systeem. Want, wat heb je aan een database die elke keer als je hem sluit alles vergeet wat je hebt gedaan?

Vrij weinig.

De informatie wordt opgeslagen in een map in C:\StudentenDataManager. Natuurlijk is dit niet de meest professionele oplossing en zou het beter zijn als de gebruiker zelf een map kan aanwijzen, maar voor nu werkt dit prima. De gegevens worden opgeslagen in een zelf bedacht XML-format en kunnen vervolgens door de code weer gebruikt worden om de objecten opnieuw aan te maken.

studenten data in XML-format

Ook wordt er nu bij het inloggen gekeken naar het wachtwoord. Voor nu laat ik dit wachtwoord echter standaard ingevuld zijn bij het opstarten zodat ik het niet steeds opnieuw hoef te typen. Het is voor nu dan ook voor elke gebruiker hetzelfde. Wat is het wachtwoord? Het wachtwoord is “dataridder” natuurlijk, wat anders?

Hoe kun je dit wachtwoord nou niet goed krijgen?

De studenten kunnen nu dan dus ook inloggen op hun persoonlijke account via hun studentennummer en zich in- en uitschrijven voor vakken. Ook kan de administrator nu studenten verwijderen in plaats van alleen toevoegen en zijn er meer gegevens om in te vullen. De studentengegevens en de inschrijfgegevens worden nu ook weergegeven in een TableView. Een JavaFX component dat gegevens presenteert in een tabel. Had je nooit geraden, of wel?

Schrijf je in voor plezier!
Voeg al je vrienden toe aan het systeem!

TableView was iets complexer dan de andere interface componenten van JavaFX om te leren gebruiken. Er is een enorme hoeveelheid aan opties en er is makkelijk een klein boek vol aan uitleg en documentatie over te vinden. Tegelijkertijd is het echter ook niet al te moeilijk om uit te vogelen zo lang je je maar richt op de informatie die je nodig hebt om te beginnen en je niet laat afschrikken of afleiden door de rest. Dat is een algemeen advies, maar wat TableView betreft, zorg eerst dat je een tabel op je interface hebt zonder je druk te maken over functionaliteit en maak dan een ObservableList van de gegevens waar je hem mee wilt vullen. ObservableList klinkt ingewikkeld maar is in principe niets anders dan een ArrayList voor in een tabel. Zorg ervoor dat de kolommen de juiste data presenteren en vergeet niet om alle data daadwerkelijk zowel aan de ObservableList toe te voegen als de list aan de tabel toe te voegen. En klaar is kees!

Dat zijn de belangrijkste aanvullingen tot nu toe. De code is te vinden op https://github.com/SamsonCodes/StudentenData/tree/morechanges. Dat is alles voor nu.

Tot de volgende keer!

Thank you Simple Programmer!

Hello world,

Today I want to give special thanks to Simple Programmer for creating the blogging course that helped me start my own blog. Seriously, I’m not sure when or if I had gotten around to it if it weren’t for this email course. I would seriously recommend it to anyone who wants to start his or her own blog. You can find the course here. Oh, and did I mention it is absolutely FREE?

As you may or may not have noticed already, I am writing this blog post in English. Somehow it just seemed fitting. The blogging course is in English, Simple Programmer is in English as well, and although John Sonmez, the founder of Simple Programmer, is a very smart man, I don’t think he has gotten around to learning Dutch yet.

About the course: This course will help you through the entire process of setting up your blog, from coming up with a theme to writing your first blog post to actually getting people to read it. Along the way you will get valuable advice for what to write about, how to come up with ideas and how to stay consistent.

About Simple Programmer: Well, you can go and look at the about page yourself here. But In short, it is a website dedicated to helping software developers, programmers and other IT professionals improve their careers and live better lives. But in all honesty, this website doesn’t just help programmers and IT professionals, it helps anyone who reads it. I have also followed John Sonmez on Youtube for quite some time now and he gives plenty of good free advice there too. So if you are interested in that, go check by clicking on any one of the previous links I so painstakingly scattered throughout this post for you.

I know I have given you a lot of links and praise now. It is because I really think it is good content, I am not getting paid for this or anything.

I wish!

That is all for now.

Until next time!

 

 

Vooruitgangsrapport Studenten Datasysteem

Gegroet Dataridders,

Ik ben inmiddels begonnen aan het programmeren van mijn studenten datasysteem. En hoewel ik nog niet al te ver ben gekomen is de eerste opzet er al wel.

Het was lastiger dan ik van te voren had gedacht om met JavaFX te werken. Ik was veel tijd kwijt aan het zoeken naar een opzet met de interface en een soort game-loop in afzonderlijke threads. Ik had eerst dan ook deze loop in de main thread en wilde de JavaFX applicatie in een afzonderlijke class en thread doen maar dat gaf een hoop foutmeldingen die ik niet wist op te lossen. Dus heb ik het uiteindelijk maar omgedraaid en heb ik de JavaFX applicatie als main class genomen en ben ik van plan geen game-loop meer te gebruiken, maar alle achtergrond activiteit te laten activeren als respons op de user input.

Tot nu toe heb ik een simpel inlogscherm, een invoerscherm voor het invoeren van studenten en een titelscherm voor het aanmelden voor vakken voor studenten. Voor nu wordt bij het inlogscherm alleen de naam als input gecontroleerd. De naam Admin laat je inloggen in het invoerscherm, en een ‘s’ gevolgd door het id nummer, bijvoorbeeld s10000 (het eerste nummer dat gebruikt wordt), laat je als student inloggen mits je in het systeem staat. In beide schermen kun je ook uitloggen en terug naar het inlogscherm gaan. Hieronder zijn wat screenshots van de applicatie zoals hij er nu uitziet. Zie https://github.com/SamsonCodes/StudentenData voor de code.

Inlogscherm

Log in als admin
Ingelogd als admin
Student toegevoegd
Log in als student s10000
Ingelogd als student

Dat is alles voor nu. Tot de volgende keer!