Enkele vraagtekens bij data-analyse

Stel je het volgende voor. Een accountant neemt in zijn controledossier op: een papieren print van het volledige grootboek en een memo waarin hij beschrijft hoe hij aan de print is gekomen (zelf bij de klant ingelogd in de financiële administratie en vervolgens op print gedrukt en toen rolden er 1.286 pagina’s uit de printer). Hij beschrijft dat hij het geprinte grootboek integraal heeft doorgelezen en geen afwijkende boekingen heeft gevonden. Tot slot heeft hij de jaarrekening doorgenomen en een RJ-checklist ingevuld, waaruit ook geen bijzonderheden zijn gebleken. Heeft de accountant dan voldoende grondslag voor zijn oordeel? Nee, vanzelfsprekend niet! En toch heb ik soms het idee dat we op deze wijze wel kijken naar de toepassing van data-analyse in de controle (bijvoorbeeld bij data-analyse met behulp van een auditfile).

Voor de goede orde, ik ben een voorstander van innovatie en de toepassing van nieuwe technieken in de controle van jaarrekeningen, waaronder de  toepassing van data-analyse in de controle van jaarrekeningen (zoals bedoeld in maatregel 4.4 uit het NBA rapport 'In het publiek belang'). Simpelweg omdat ik geloof dat met de toepassing van data-analyse een betere en efficiëntere controle mogelijk is (of de vrijgekomen tijd vervolgens wordt besteed aan meer aandacht voor de klant en elkaar of dat hiermee het personeelstekort wordt ondervangen, is een andere vraag waar ik nu niet op in zal gaan). Ik zie evenwel een gevaar van het maken van fouten in de toepassing van data-analyse. Immers, toepassing van data-analyse in de controle van jaarrekeningen is nog relatief nieuw. Innovatieve oplossingen brengen vanwege het inherente gebrek aan ervaring het risico met zich mee dat er fouten worden gemaakt (de bekende kinderziektes). Ik juich een beroepsbrede risicoanalyse voor de toepassing van data-analyse dan ook toe. Niet  om de toepassing tegen te houden, maar juist om deze innovatie vooruit te brengen. Dit blog is een aanzet daartoe. In dit blog ga ik in op de volgende risico’s bij de toepassing van data-analyse:

  • willekeur
  • teveel data
  • te snelle conclusies
  • niet herkennen van relaties

Willekeur

Ik zie een risico in willekeur. De kunst van data-analyse is om vooraf specifieke onderzoeksvragen te stellen in plaats van willekeurig te zoeken naar verbanden of relaties . Want die vind je geheid. Het stellen van specifieke vragen begint met een goede risicoanalyse, die op haar beurt begint met gedegen kennis van de klant . Wanneer  je dan specifieke onderzoeksvragen hebt geformuleerd, dan is een tweede waarschuwing op z’n plaats. Als je geen fout vindt, betekent dat niet automatisch dat er geen fout is. Je kunt hooguit concluderen dat je vanuit de data-analyse geen fout hebt gevonden. Ik denk ook niet dat data-analyse zonder aanvullende werkzaamheden (daar kom ik later in dit blog op terug) positieve (bevestigende) controlezekerheid kan opleveren, maar hooguit negatieve (niet is gebleken dat…) controlezekerheid. Ter zijde, als je niet specifiek zoekt, maar zoekt naar algemene bevestiging dat de data (bijvoorbeeld de financiële administratie) correct is, dan is het ook lastiger om een punt te vinden waarop je denkt dat je kunt  stoppen met de data-analyse. Sterker nog, je loopt een serieus risico dat je dat punt te vroeg bereikt, want het gevaar is dat de beschikbare informatie passend wordt gemeten of geanalyseerd, zodat de uitkomsten passen in de verwachte uitkomst (de confirmation bias).

Teveel data

Ik zie een risico in het gebruik van teveel data in de data-analyse. Kan dat? Ja, dat kan. Meer data (gegevens) betekent ook meer onnuttige of verstorende gegevens. Hierdoor kunnen uiteindelijk toevalligheden worden verward met verbanden (oftewel kunnen correlaties worden verward met causale relaties).  Hoe groter een dataset, hoe groter de kans dat je ergens tussen twee variabelen een significante correlatie vindt (een variant van de wet van de grote getallen). Maar dat bewijst nog niets (correlaties verhogen de waarschijnlijkheid, maar geven nooit zekerheid).

Te snelle conclusies

Ik zie een risico in te snelle conclusies. Wat gaan we vinden met behulp van data-analyse? Dit hangt in den beginne af van de beschikbare data. In theorie zijn de mogelijkheden eindeloos; in de praktijk verwacht ik niet dat bijvoorbeeld fouten in de getrouwheidsaspecten presentatie en toelichting met behulp van data-analyse worden gevonden. Fouten in de volledigheid van opbrengsten? Of in de juistheid van opbrengsten? Of in de waardering van debiteuren (door middel van afloopcontrole met data uit t+1)? Daarvoor is nodig dat je weet dat je alle relevante data hebt die je dacht te verkrijgen. Vervolgens kun je de data analyseren en interpreteren. Maar daarmee is de data (of de individuele datapunten zoals journaalboekingen) nog niet gecontroleerd. De data moet geverifieerd worden. Daarbij helpt het, indien aan de voorkant is vastgesteld hoe de data zelf tot stand is gekomen (i.e. ten minste de opzet en bestaan van de AO/IB en van de IT-omgeving waarin de data is vastgelegd) en hoe de dataset is verkregen (de data is opgenomen in een database, die via een query wordt verzameld uit de database en opgenomen in een databestand, bijvoorbeeld een audit file). Indien kennis over de AO/IB, de IT-omgeving en de wijze van verkrijging van de dataset ontbreekt of voornoemde elementen kennen tekortkomingen, dan kan de dataset niet als inherent betrouwbaar worden gezien (in het ergste geval: garbage in, garbage out). Maar indien de dataset inherent wel betrouwbaar (of betrouwbaarder) is, dan nog is de data niet geverifieerd (of mogelijk maximaal haalbaar: gefalsificeerd) door de data te analyseren. Daarvoor is het nodig aan de achterkant (bijvoorbeeld met een sterke maar niet uitsluitende focus op de uitzonderingen die uit de data-analyse naar voren komen) een koppeling te maken met andere controle-informatie, zoals bankafschriften, facturen, recepturen, of waar de data maar betrekking op heeft (bedenk ook dat je met data-analyse veelal niet kijkt naar echte transacties, maar naar de registratie van transacties). Een andere mogelijkheid van verificatie is met behulp van een andere dataset. De ene dataset verifiëren met behulp van een andere dataset? Niet helemaal, maar mits de bron (database) van deze tweede dataset anders is dan c.q. losstaat van de bron (database) van de eerste dataset, kun je mogelijk concluderen dat je logische of overeenkomstige ontwikkelingen in beide datasets hebt gevonden, omdat  het minder aannemelijk is dat een bepaalde fout in beide datasets voorkomt . Dit is niet hetzelfde als verificatie, maar draagt wel bij aan de totaal verkregen zekerheid.

Niet herkennen van relaties

Ik zie een risico in het niet herkennen van relaties. Als je met behulp van een risicoanalyse specifieke vragen hebt geformuleerd om data op te analyseren, weet dan ook hoe de verwachte relatie(s) er uit ziet. We denken veelal in lineaire relaties, die ook veelvuldig voorkomen (voorbeeld: voor de productie van een racefiets zijn 2 wielen nodig en als er 800 wielen zijn gebruikt in een productieproces, dan mag worden verwacht dat er 400 racefietsen zijn geproduceerd). Maar sommige relaties zijn niet lineair (voorbeeld: een werknemer van een accountantskantoor met een klein dienstverband van bijvoorbeeld 0,3 fte zal procentueel minder declarabele uren maken dan iemand met een dienstverband van 1,0 fte, omdat sommige onvermijdelijke indirecte werkzaamheden geen verband houden met de omvang van het dienstverband). Met goede kennis van de klant ben je beter in staat onderzoeksvragen te formuleren en bedacht te zijn op het bestaan van niet-lineaire relaties. Iets soortgelijks geldt ook voor afwijkingen; die zijn ook niet persé lineair of normaal verdeeld in de zin dat de afwijking net zoveel de ene kant als de andere kant op kan gaan (denk aan een opgenomen voorziening van € 300K, die voor maximaal € 300K onjuist kan zijn, maar voor een oneindig bedrag onvolledig kan zijn; of het systematisch niet in rekening brengen van BTW is een fout die bij alle verkooptransacties dezelfde procentuele afwijking geeft, maar het niet verrekenen van een gestaffelde korting leidt niet tot lineaire afwijkingen).

Ik doe in dit blog de mogelijkheden van data-analyse en de potentiële risico’s tekort, dat realiseer ik mij. Data-analyse moet je inkaderen in andere controlewerkzaamheden, zoals het verkrijgen van kennis van de klant en over de AO/IB en het uitvoeren van een goede risicoanalyse. Data-analyse is dan een nuttige toevoeging in de triangulatie (benadering vanuit verschillende invalshoeken) van controlezekerheid. Dit vereist goed denkwerk gedurende de hele controle om van data-analyse een succesvol stuk gereedschap te maken. Niet eenvoudig (mooie voorbeelden zijn er overigens al en ook de IAASB heeft data-analyse prominent op haar agenda staan), maar wel prachtig om te doen!

[Door: drs. Albert Bosch RA, V&A accountants-adviseurs]

 

Literatuur

Mayer-Schönberger, V. en Cukier, K. (2013). De Big Data Revolutie – Hoe de data-explosie al onze vragen gaat beantwoorden. Maven Publishing

NBA – Werkgroep Toekomst Accountantsberoep (2014). In het publiek belang. Website: https://www.nba.nl/Documents/Nieuws/2014/pdfs/In%20het%20publiek%20belang%20rapport%20WG%20Toekomst%20Acc%2025sep14.pdf

Snoei, W. en Nieuw Amerongen, N. van (2015). Toepassing van (big) data-analyse in de MKB-jaarrekeningcontrole in een relatief eenvoudige omgeving. Maandblad voor Accountancy en Bedrijfseconomie (MAB) 89e jaargang editie 10.

Taleb, N. (2004). Fooled by randomness – The hidden role of chance in life and in the markets. Penguin Books.

Taleb, N. (2012). Antifragile – Things that gain from disorder. Penguin Books.


  1. Zie hier de parallel met de toepassing van cijfer analyse, waarbij vooraf een verwachting moet worden opgebouwd (NVCOS 540.5c).
  2. De keerzijde van het stellen van specifieke onderzoeksvragen is dat je juist andere relevante punten mist, omdat niet alle relevante of de juiste onderzoeksvragen zijn gesteld.