Hoe verantwoord je beslissingen, genomen door een kunstmatig intelligente robot?
Ofwel: waarom heeft de computer mijn kredietaanvraag afgewezen, en die van hem goedgekeurd?
Zelflerende systemen, of machine-learning algoritmen daarbinnen, zijn steeds vaker verantwoordelijk voor ingrijpende besluiten – over kredietwaardigheid, over medische diagnoses, over gepersonaliseerde advertenties en nieuws-selecties, over aangeboden vacatures en nog veel meer.
Maar hoe die besluiten, keuzes en adviezen eigenlijk tot stand komen, dat blijft gemeenlijk een groot mysterie.
Nu blijkt dat nieuwe meetmethoden met dezelfde soort algoritmen ons wel degelijk inzicht kunnen geven in de ‘denk’processen achter die robot-beslissingen. Wat waren de belangrijkste (combinaties van) factoren die leidden tot de beslissing/keuze? Gedrag, historie, leeftijd, geslacht, opleidingsniveau, woonplaats, postcode?
De Carnegie Mellon University heeft daartoe zogenaamde QII (Quantitative Input Influence) metrieken ontwikkeld, die kunnen bepalen welke invloed welke factor op de uiteindelijke beslissing en in de redenering daar naar toe heeft gehad, zegt Anupam Datta, associate professor of computer science and electrical and computer engineering aan genoemde instelling.
“Het is niet verbazingwekkend dat de vraag naar transparantie en accountability over de gebruikte algoritmen toeneemt, naarmate de rol ervan in allerlei zichtbare en onzichtbare besluitvormingsprocessen groeit, en steeds meer mensen beseffen welke rol en invloed deze computer-intelligentie heeft op ons dagelijks bestaan.”
De eerste bedrijven beginnen al verantwoording af te leggen over hun gebruik van dergelijke kunstmatige intelligentie in bijvoorbeeld hun robo-advisors. Maar er is nog niet veel wetenschappelijk onderzoek naar gedaan, reden voor Carnegie Mellon om te onderzoeken hoe welke factoren in dergelijke systemen meewegen bij de keuzes die diep in de krochten van de machines gemaakt worden.
De behoefte aan dergelijke inzichten moge duidelijk zijn – waarom werd deze aanvraag voor een lening afgewezen en die andere goedgekeurd? Waarom werd de politie aangeraden om deze verdachte persoon nader te onderzoeken en die niet? Waarom kreeg die patiënt wel een operatie aanbevolen en moest de ander het met een medicijn doen? Ook zullen toezichthouders geregeld proactief willen beoordelen, of systemen die voor beslissingen verantwoordelijk zijn voldoen aan alle wet- en regelgeving, bijvoorbeeld aan wetten die discriminatie op ras of achtergrond verbieden.
Datta c.s zullen hun IIQ methode, die de gevraagde transparantie mogelijk maakt, presenteren tijdens het IEEE Symposium on Security and Privacy, dat van 23-25 mei as. gehouden wordt in San Jose, Californië.
Om te doorgronden welke factoren met welk gewicht meewegen in keuzes door zelflerende AI-systemen, hoeven noch de programmacode noch het operating systeem geanalyseerd te worden, als is toegang tot het systeem wel nodig, naast kennis van de dataset die gebruikt is om de computer te trainen en aan het leren te zetten.
Stel, een systeem helpt een verhuisbedrijf bij de selectie van nieuw personeel. Drie inputs, geslacht, leeftijd en de til-capaciteit, vertonen een positieve correlatie met elkaar en met de genomen besluiten ‘aannemen’ of ‘afwijzen’. De relatieve zwaarte van de twee criteria bij die keuze bepaalt dan of het systeem wettelijk gezien discrimineert of niet. Die zwaarte kan bijvoorbeeld bepaald worden door de machine te confronteren met virtuele kandidaten met dezelfde tilcapaciteit, maar verschillende geslachten en leeftijden. Veranderen die de beslissing? Worden vrouwen en ouderen per definitie niet geselecteerd?
Meer over manieren om AI-systemen accountable te maken leest u in "Making AI decision-making accountable: Figuring out why a computer rejected your loan application." via ScienceDaily.