Hoe kun je software trainen op een gedeeltelijke waarheid?

15-09-2017

15.45

Aula

Data Science with Humans in the Loop

prof.dr. L.N. Aroyo

Faculteit der Bètawetenschappen

Exacte wetenschappen

Oratie

Hoogleraar ‘Human Computer Interaction’ Lora Aroyo (Informatica) houdt haar oratie over het probleem dat menselijke kennis niet altijd duidelijk en bruikbaar is voor machines.

Software wordt steeds intelligenter en bruikbaarder, maar in de menselijke interactie met software blijkt vaak dat machines mensen niet altijd écht goed begrijpen. Het vakgebied ‘Knowledge Representation’ onderzoekt menselijke kennis in voor machines leesbare vorm. Echter, sommige menselijke kennis kan nog niet worden vastgelegd door machines, omdat die kennis gerelateerd is aan taken en contexten uit de werkelijke wereld.

Netflix en Spotify
Een goed voorbeeld hiervan is software die suggesties geeft voor iemands persoonlijke muziek- of filmkeuze, bijvoorbeeld op Netflix of Spotify. Aroyo: “Deze aanbevolen muziek of films kloppen lang niet altijd met iemands smaak, sowieso omdat smaak een heel ongrijpbaar concept is voor een machine. Maar ook omdat muziek luisteren met zoveel andere factoren te maken heeft, zoals iemands gezelschap. Iemand vindt sambamuziek leuk, maar alleen met bepaalde vrienden, of op een bepaald tijdstip van de dag.”

Voor computers is dit moeilijke materie. Computers denken van oudsher in een binary truth, legt Aroyo uit: “Iets is ja of nee, een positieve of een negatieve keuze, waar of niet waar. Als je software hebt die honden moet herkennen, dan is de computer zo geprogrammeerd dat hij bij de foto van de teckel denkt: ja, dit is een teckel; nee, dit is geen golden retriever, nee, dit is geen labrador, enzovoort. Dit concept werkte altijd prima in machine learning, het trainen van software. Maar sommige waarheden zijn maar gedeeltelijk waar.”

De nieuwe uitdaging is daarom om menselijke kennis op zo’n manier vast te leggen dat computers er iets mee kunnen in de echte wereld. ‘Human Computation’, Aroyo’s specialisme, bestudeert hoe de menselijke manier van denken kan worden gebruikt om machine-gebaseerde kennis methodologisch te verbeteren. In deze context werkt Aroyo aan allerlei toepassingsgevallen van video-, beeld- en tekstinterpretatie, bijvoorbeeld nieuws, sociale media, cultureel erfgoed, interactieve tv en medische tekst.

CrowdTruth
CrowdTruth.org vergemakkelijkt het verkrijgen, vastleggen en analyseren van menselijke kennis. Deze website verzamelt data, bestaat sinds 2012 en is een groot succes. De onderzoeksgroep rondom Aroyo haalde veel beurzen binnen de afgelopen jaren en ze publiceerde diverse wetenschappelijke papers. Het onderzoek wordt bovendien toegepast in grote samenwerkingen met bedrijven als IBM en Google, en instellingen zoals het Rijksmuseum en Beeld en Geluid.

Bij crowdsourcing via CrowdTruth telt alle input mee: “Traditionele systemen van crowdsourcing zijn vaak gebaseerd op het majority vote-systeem. Alleen de mening van de grootste groep telt, dus als negen mensen iets vinden, acht mensen vinden iets anders, en zeven mensen vinden weer iets anders, dan telt alleen de stem van die negen mensen. Die andere vijftien stemmen vallen weg.”

Maar ook het verwerken van werkelijke data door de crowd maakt duidelijk: er bestaat niet één waarheid, maar een spectrum dat rekening moet houden met context, meningen, perspectieven en grijstinten.