... tenminste, als je een propere machine learning wil
Een interessant artikel waarop wij vandaag stuitten, gaat over machine learning. Daarbij gaan computers met heel veel data gevoed worden, zodat zij zelf in de toekomst, op basis van die data, hun conclusie kunnen trekken. Maar soms zijn de datasets die daarvoor gebruikt worden, niet zuiver. MIT computerwetenschappers hebben gekeken naar de 10 meest gebruikte datasets, die gebruikt werden om machine learning sytemen te testen. En kwamen tot de conclusie dat 3,4% ervan onjuist was of verkeerd gelabeled. De QuickDraw test set van Google, die door gebruikers ingediende doodles omvat, bevatte het meeste fouten, namelijk 10% van de dataset.
Maar waar komen de fouten vanaan? Dat kan zijn doordat er dieren verkeerd benoemd worden (een meerkat wordt een rode panda genoems bijvoorbeeld)) of doordat de afbeelding een label krijgt op basis van een voorwerp die zich ook in de afbeelding bevindt, maar waarover het eigenlijk niet gaat.
Daarop zijn de onderzoekers aan de slag gegaan met een 'confidence learning' framework, om te onderzoeken hoeveel labels bij afbeeldingen foutief waren. De resultaten kan je binden bij LabelErrors.com
Het hele onderzoek lees je bij Engadget. De moraal van het verhaalt? Wanneer je je computer zelfstandig wil leren denken, dan moet hij wel de juiste informatie krijgen waarop hij zich baseert - want foutieve beginselen om zich op te funderen, kunnen erg verstrekkende gevolgen hebben. En dus is het erg nodig dat deze computerwetenschappers dit onderzoek doen!
https://www.engadget.com/mit-datasets-ai-machine-learning-la ...
https://labelerrors.com/
https://l7.curtisnorthcutt.com/label-errors
|