Documentherkenning door kunstmatige intelligentie (A.I.)

Documentherkenning is één van de belangrijkste onderdelen van Basecone. Oftewel, het vinden van de juiste velden op een document, zodat deze gebruikt kunnen worden bij het boeken van een factuur. Op dit moment wordt dit gedaan door statische logica, op basis van ingebouwde algoritmen in het product. Wat als we deze logica slimmer kunnen maken door modellen te trainen die deze herkenning over kunnen nemen?

Door kunstmatige intelligentie (A.I.) toe te passen, kunnen we, door middel van bestaande voorbeelden, een machine leren (Machine Learning) bepaalde velden te gaan herkennen. Ook zullen correcties uiteindelijk ervoor zorgen dat documenten beter herkend zullen worden. Hoe werkt zoiets?

Om Machine Learning toe te kunnen passen, heb je altijd voorbeeld data nodig. Deze voorbeeld data, in dit geval, zijn documenten waarvan we de herkende velden op een document zelf hebben gelabeld. Dus we weten zeker wat de velden op het document betekenen en hebben deze vervolgens handmatig gelabeld. Om de eerste versie modellen te kunnen trainen, hebben we meer dan 1 miljoen documenten gelabeld van verschillende Basecone omgevingen. Deze voorbeeld data zorgt ervoor dat we de herkenning van nieuw binnenkomende documenten kunnen voorspellen.

Het voordeel hiervan is dat het niet alleen kijkt naar de waardes van de velden zelf. Maar het kijkt ook naar de lay-out van het document en de posities van de velden op het document.

Machine Learning wordt succesvoller wanneer je zoveel mogelijk voorbeeld data hebt. De 1 miljoen documenten waarmee we het eerste model hebben getraind, is een goed begin. Dankzij onze gebruikers zal het model nog slimmer worden.

Gebruikers van Basecone corrigeren de herkenning in het boekingsscherm wanneer de herkenning van een document niet succesvol was. Na deze correctie weten we dus welke velden eigenlijk herkend hadden moeten worden. Deze data kunnen we gebruiken om dit om te zetten naar voorbeeld data. Hierdoor zal het model slimmer worden door de correcties van onze klanten. Dit zal in vergelijking met de huidige situatie zeker een verbetering zijn.

Als we vervolgens kijken naar de voorspellingen die het getrainde model doet, kunnen we vergelijken of de herkenning door kunstmatige intelligentie beter werkt dan de statische logica die op dit moment in gebruik is. In de eerste testfase (gebaseerd op 12.000 documenten) zagen we een verbetering in de herkenning, waardoor we door zijn gegaan met dit model. Om duidelijkere resultaten te krijgen, hebben we besloten het model in "shadow" mode te zetten. Dit betekent dat de uitkomst van het model voor een gedeelte van de verwerkte documenten wordt opgeslagen op de achtergrond. De gebruiker ziet hier niets van, aangezien de huidige, statische herkenningsservice nog gebruikt wordt aan de voorkant. Op deze manier kunnen we makkelijk de huidige herkenningsservice vergelijken met de nieuwe service (het A.I.-model).

Twee weken, nadat we deze AI-herkenning voor het veld “Bedrag (incl. btw)” live hebben gezet voor alle offices, is de herkenning verhoogd van 3% ten opzichte van de huidige herkenningsservice (enkel van toepassing op het veld “Bedrag (incl. btw)”). Dit is de eerste fase in het trainen van het model en we gaan dit verder uitbreiden met een groter aantal documenten, waardoor het model slimmer wordt.

Ons doel is zo dicht mogelijk bij de 100% te komen, maar 100% nauwkeurigheid is in dit geval niet realistisch om te halen. We zijn namelijk altijd afhankelijk van een aantal factoren, zoals de kwaliteit van een document.

We hebben ervoor gekozen om in eerste instantie ons te focussen op één veld van een factuur en bovengenoemde resultaten hebben betrekking op dit veld. Dit gaat om het “Bedrag (incl. btw)” veld. De reden hiervoor is, is dat uit de analyse van herkenningsproblemen bleek dat het in de meestal gevallen om het veld “Bedrag (incl. btw)” gaat. Het veld “Bedrag (excl. btw)” en het veld "Factuurnummer" zullen nu volgen en in 2023 live staan.

Dit initiatief zal ervoor zorgen dat klanten minder correcties hoeven doen, doordat de herkenning van het document wordt verbeterd.