
Ik dacht dat ik begreep wat RLHF was.
Menselijke feedback, een soort beloningssysteem, model dat zich aanpast — duidelijk.
Maar toen ik er over na ging denken, merkte ik dat ik toch nog vragen had…
Hoe ziet die feedback er precies uit?
Hoeveel heb je ervan nodig?
Is het wel mogelijk om dat allemaal te verzamelen?
Blijkbaar snapte ik het dus niet.
En dat vond ik best vervelend. Want je hoort tegenwoordig van alles over AI, en als je niet snapt hoe het werkt, hoe weet je dan wat je moet geloven?
Dus ik ging op onderzoek. En dat was verhelderend, maar ook best lastig.
Herkenbaar?
Dan zit je hier goed. In dit artikel leg ik je namelijk precies uit hoe RLHF werkt — maar dan zonder de wiskunde, technische toverspreuken en gebakken lucht.
Stap 1: Een onbeleefd model
Voordat feedback in beeld komt, heb je eerst gewoon een model nodig dat kan schrijven.
Zo’n model wordt getraind met één simpele missie: voorspel het volgende woord.
Om dat te leren verwerkt het enorme hoeveelheden tekst en leert het welke woorden vaak samen voorkomen. Het resultaat is een model dat zinnen kan vormen die logisch klinken en goed aansluiten op de context.
Maar daar stopt het ook.
Het model heeft namelijk geen idee wat mensen een goed antwoord vinden. Het heeft nooit geleerd om behulpzaam te zijn, of duidelijk, of prettig om te lezen. Het weet alleen wat waarschijnlijk volgt.
Je zou kunnen zeggen dat het een beetje onbeleefd is.

Niet omdat het verkeerde bedoelingen heeft — maar omdat het nooit geleerd heeft waar mensen op letten.
En dat is precies waar RLHF (Reinforcement Learning from Human Feedback) om de hoek komt kijken.
Stap 2: Feedback verzamelen
Voordat het model kan leren wat “beter” is, moet eerst duidelijk worden wat mensen belangrijk vinden in een antwoord.
Maar hoe meet je zoiets?
Je zou mensen een score kunnen laten geven voor verschillende vraag-antwoordcombinaties. In de praktijk blijkt dat echter lastig: mensen zijn inconsistent, en zulke scores bevatten vaak weinig bruikbare structuur.
Wat beter werkt, is mensen antwoorden met elkaar laten vergelijken. Ze geven geen absolute labels of cijfers, maar maken relatieve keuzes: dit antwoord is beter dan dat andere.

Dat levert verrassend bruikbare informatie op — maar nog niet in een vorm waar het taalmodel direct mee geoptimaliseerd kan worden.
Stap 3: Een beloningsmodel bouwen
Daar komt het beloningsmodel (reward model) om de hoek kijken.
Dit model wordt getraind op de vergelijkingen die mensen hebben gemaakt. Het leert om, gegeven een prompt en een antwoord, een score toe te kennen die aangeeft hoe goed dat antwoord aansluit bij menselijke voorkeuren.

Dit is nog steeds geen reinforcement learning.
Het is gewoon supervised learning: het model leert van voorbeelden welke antwoorden doorgaans verkozen worden.
Maar het resultaat is precies wat we nodig hebben: een hulpmodel dat aangeeft hoe goed een antwoord is, zonder dat er steeds een mens aan te pas hoeft te komen.
Stap 4: Zelfverbetering
Met dat beloningsmodel kan het taalmodel zichzelf gaan bijsturen.
Het model krijgt een prompt en genereert een antwoord. Dat antwoord wordt beoordeeld door het beloningsmodel, dat een score geeft.
Op basis van die score worden de keuzes die het model maakt een klein beetje aangepast.
Kreeg het antwoord een relatief hoge score, dan worden die keuzes iets waarschijnlijker gemaakt.
Kreeg het een lage score, dan juist iets minder.
Daarna begint het proces opnieuw met een nieuwe prompt.

Na veel herhaling verschuift het gedrag van het model richting antwoorden die consistent hoger scoren volgens het beloningsmodel.
Het model ontwikkelt dus een voorkeur om te antwoorden op manieren die over het algemeen goed beoordeeld worden.
Je weet wel: niet al te veel schelden, zeg alsjeblieft en dankjewel, en houd politieke voornemens buiten zakelijke discussies — dat soort zaken.
Redeneermodellen
Hetzelfde proces wordt gebruikt voor redeneermodellen, maar het verschil zit in wat er beoordeeld wordt.
In plaats van alleen het eindantwoord, krijgen de mensen ook de tussenstappen van het model te zien. Antwoorden die hun redenering duidelijk beschrijven en tot een correct resultaat komen, worden hoger gerankt.

Het beloningsmodel leert niet alleen wat een goed antwoord is, maar ook hoe een “goede redenering” eruitziet in tekstvorm.
Tijdens reinforcement learning wordt het model vervolgens bijgestuurd om dat soort antwoorden vaker te produceren.
Beperkingen
Dit proces is niet helemaal waterdicht.
Het model leert namelijk niet waarom een antwoord goed of slecht was. Het krijgt alleen een eindscore, en moet daarna zelf maar uitvogelen welke keuzes nuttig waren.
Daar komt bij dat het beloningsmodel geen orakel is. Het is een benadering van menselijke voorkeuren, geen perfecte maatstaf voor goede antwoorden. Als je het taalmodel daar onbeperkt op laat trainen, kan het gedrag leren dat prima scoort volgens het beloningsmodel, maar toch vreemd begint te worden.

Ook bij redeneringsmodellen wordt de kwaliteit van de redenering beoordeeld op basis van hoe die eruitziet, niet op basis van een controle van elke tussenstap.
Daarom worden in de praktijk extra technieken gebruikt, zoals kleine en gecontroleerde updates, of aanvullende checks bij specifieke taken zoals wiskunde en code.
Het proces wordt dus voortdurend bijgestuurd, maar blijft grotendeels afhangen van de kwaliteit van het beloningsmodel.
Tot slot
Hopelijk snap je nu beter hoe RLHF werkt. Wiskunde en technische spreuken zijn ook leuk om te leren, maar niet altijd even handig wanneer je gewoon de kern probeert te snappen.
Wanneer dat begint te lukken, verdwijnt er vooral een ding: het mysterie. En dat maakt het een stuk makkelijker om wat je over AI hoort met nuchterheid te bekijken.
Niet omdat je nu alle antwoorden hebt, maar gewoon omdat je beter snapt wat er achter de schermen gebeurt.
Wat dat betekent voor die claims over AI?
Dat mag je zelf bepalen.

Wil je ook begrijpen hoe taalmodellen überhaupt leren schrijven? Lees dan mijn eerste uitleg over LLMs.


















