Data-analyse stimuleert peer-to-peer leningen
Particulieren zoeken goedkope financiering voor hun woningrenovatie, voor een nieuwe auto of schuldherfinanciering, vaak van de creditcard. LendingClub is een succesvolle bemiddelaar; in 2016 werd voor $ 6,4 miljard aan leningen tot stand gebracht.
Hoger risico, hogere rente
Elke lening-aanvraag krijgt na een risico-analyse een risico-graad ('Grade') toegekend. Deze 'Grade' wordt met de – geanonimiseerde – details van de aanvraag gepubliceerd, zodat investeerders een geinformeerde beslissing kunnen nemen. Aktuele aanvragen vind je hier. LendingClub vertaalt een hoger verwacht risico in een hogere rente-vergoeding. Ondanks de risico-analyse blijkt een aanzienlijk deel (18 % van de leningen) na verloop van tijd oninbaar. Deze schade is voor de investeerders.
Arbitrage-kansen?
Uit investeerders-informatie blijkt echter iets vreemds; als veilig beoordeelde leningen blijken toch in problemen te komen en als riskant beoordeelde leningen worden veelal keurig afgelost. Dit biedt arbitrage-kansen door in riskant geoordeelde leningen te stappen, daarom een hoge rente te ontvangen, maar in de praktijk maar een laag of gemiddeld risico te lopen. Met andere woorden; kun je risico's beter voorspellen dan LendingClub en zo winst maken?
LendingClub neemt de uitdaging impliciet aan en stelt de transactie-data beschikbaar. Ze staan hier. Kunnen investeerders hiermee hun rendement verhogen en hun risico verlagen? Vooral twee vragen zijn interessant;
- Kunnen we de algoritmen achterhalen, waarmee LendingClub 'Grades' toekent en waarmee we wanbetaling kunnen verklaren?
- Kunnen we berekenen welke aanvragen LendingClub verkeerd inschat?
Omvangrijke data
Laten we de data van LendingClub eens verkennen. Die omvatten 73 variabelen van 887.000 leningen. De variabelen beschrijven de lening en de lener met o.a. het doel van de lening, het bedrag, huidige betalingsstatus, kredietwaardigheid lener ('Grade'), beroep, opgegeven inkomen, huiseigenaar of niet, vaste lasten t.o.v. inkomen, mate van gebruik van reeds verworven kredietruimte en vele meer.
Interessant, maar ook alarmerend, is dat de doelvariabele, de status van de lening, nogal ongunstig is. Van de beeindigde leningen zijn er 207.723 volledig afgelost en zijn er 45.248 afgeschreven. Het percentage wanbetalers, 18%, is dus hoog. Onthullen de data welke variabelen wanbetaling veroorzaken?
– Het gemiddelde inkomen verschilt aanzienlijk tussen de staten waarin de leners woners: laagste is Iowa met $45.000, hoogste is Washington DC met $88.000.
– De te betalen rente hangt sterk samen met de kredietwaardigheid van de lener.
– Er zijn toch leningen in de riskantste grades: 23.000 in F en 5500 in G.
– Het gemiddelde inkomen van de leners is in de gunstige grades niet veel hoger dan in de ongunstige.
– Ook het percentage vaste lasten t.o.v. inkomen verschilt weinig tussen de grades; rondom 17%.
– Wel sterk verschillend is de mate van gebruik van reeds verworven kredietruimte tussen de risicogroepen.
– Het overgrote deel van de leningen blijkt gebruikt te worden om oudere schulden af te lossen en niet voor grote aankopen. 59% is voor herfinanciering van schulden, 23% voor afbetaling van de creditcard en slechts 6% voor verbouwing van de woning.
– Ook bonafide leners blijken wanbetalers, maar anderzijds blijken veel riskant beoordeelde leners toch stipte betalers.
Deze data-verkenning geeft dus aanknopingspunten voor mogelijke oorzaken achter de Grade en achter wanbetaling. Het moet met de vele data mogelijk zijn wanbetaling beter te voorspellen dan LendingClub kan.
Data-analyse Grades
Wat zegt een data-analyse over het verband tussen de Grade en de eigenschappen van lening en lener?
Bij het berekenen van een beslisboom vallen drie variabelen, die de Grade verhogen, op:
- laag gebruik van al verkregen kredietlijnen (liefst lager dan 44%), bepaalt 52% van de Grade
- het doel van de lening (auto kopen of creditcard aflossen zijn gunstigst) en bepaalt 25% van de Grade
- het aantal eerdere leningaanvragen (hoe minder, hoe beter). bepaalt 19% van de Grade
Helaas heeft dit model een lage nauwkeurigheid; het voorspelt vaak een verkeerde grade. Maar het is duidelijk dat LendingClub graag ziet dat je door andere financiers als kredietwaardig bent beoordeeld, maar dat je daarvan weinig gebruik maakt.
Data-analyse wanbetaling
En wat zegt een data-analyse over de oorzaken van wanbetaling? We proberen een beslisboom te berekenen, waarin we de afhankelijke variabele 'Loan-status' willen verklaren met de overige variabelen. Helaas levert dit geen heldere beslisboom op.
Met logistische regressie-analyse lukt het beter.
Irrelevante factoren blijken:
- Huiseigenaar of niet
- Betalingsachterstanden in de laatste twee jaren
Een ongunstige invloed hebben (zoals te verwachten):
- Toekennen grade G of F
Zeer gunstige invloed:
- verhouding vaste lasten t.o.v. inkomen
- Toekennen grade B of C
Gunstige invloed:
- als het leningdoel educatief of MKB is
- te betalen rente
- leningbedrag
- als de gegevens van de lener geverifieerd zijn
- laag gebruik van al verkregen kredietlijnen
- het aantal eerdere leningaanvragen
- toekennen grade D
Helaas is dit logistische model een slechte voorspeller; het zit er vaak naast.
Werk aan de winkel, want kansen
Als je vergelijkt zie je dat de variabelen achter Grade en wanbetaling samenhangen, maar dat de factoren die de Grade verklaren afwijken van de factoren die wanbetaling verklaren. Bovendien kent wanbetaling veel meer oorzaken. Hier liggen dus arbitragekansen, maar een betrouwbaar voorspelmodel laat op zich wachten.
Verder kun je constateren, dat een oordeel (de Grade) op basis van data-analyse investeerders zoveel vertrouwen geeft dat de online-kredietmarkt stormachtig groeit (in de V.S.). Het geeft de kracht van kengetallen (kenletters eigenlijk), maar weer eens aan.
Drs. Rene Verbrugge is zelfstandig adviseur voor het MKB en auteur van het boek “Schep meer financiële ruimte om te ondernemen en zorg voor grip op uw werkkapitaal”.