In onze intelligente documentverwerkings platform maken we gebruik van machine learning (ML) technologie. Een ML-gebaseerde aanpak houdt de startinspanningen laag en verbetert continu de efficiëntie. Dit is waar het continue trainen aan de orde komt.
Een uitgebreidere beschrijving van IDP is eerder besproken in een artikel. Als korte herhaling, wat zijn de hoofdstappen van een IDP-oplossing:
- Documentverzameling: scannen, e-mails verzamelen, WhatsApp-berichten lezen, enz. Deze stap omvat ook achtergrondstappen zoals geautomatiseerd schonen, ruisonderdrukking, bijsnijden, roteren van het document en toepassing van OCR.
- Classificatie: documenten automatisch in vooraf gedefinieerde categorieën indelen
- Extractie: relevante informatie zoals namen, adressen, nummers, enz. automatisch extraheren.
- Validatie van de informatie wordt zowel geautomatiseerd door middel van integraties met externe systemen als door middel van een menselijke tussenpersoon.
- Na het verwerken van de informatie, het extraheren en interpreteren van de informatie, kan deze worden gerouteerd naar de juiste bestemming, ofwel een persoon of een bedrijfsapplicatie.
- De laatste stap is dat het bedrijfsproces overneemt en de rest van de informatiestroom beheert.
Stappen 2 en 3 maken extensief gebruik van ML-technologieën. Dit komt door de grote verscheidenheid aan inkomende documenten en berichten die moeten worden verwerkt.
Hoewel u uw leveranciers kunt vragen om hun facturen naar een facturen@ mailbox te sturen en klanten kunt vragen om aankooporders naar een PO@ mailbox te sturen, is het onmogelijk om alles vooraf te filteren. En zelfs als er al wat filtering plaatsvindt, heeft u in uw interne verwerking waarschijnlijk nog steeds veel verschillende categorieën en behandelingen nodig.
Als verzekeraar kunt u een algemene claims@ mailbox gebruiken. Echter, claims voor autoverzekeringen, gezondheidsverzekeringen, gebouwenverzekeringen en levensverzekeringen worden vaak door verschillende afdelingen en agenten in uw organisatie behandeld. De categorisering van informatie is daar van enorme hulp.
Bovendien is de categorisering van documenten belangrijk bij het bepalen van welke informatie u uit de gegevens moet extraheren. Als het document van het type ID-kaart is, wilt u andere informatie uit het document extraheren dan bij het verwerken van een factuur of een verzekeringsclaim.
Classificatie van informatie is van toepassing op meerdere aspecten van inkomende gegevens.
1. Waar gaat de informatie over? Een verzekeringsclaim voor een autonoodgeval ten opzichte van een verzekeringsclaim voor levensverzekering)
2. Welke type documenten en informatie bekijken we? Een identiteitskaart, paspoort, Europees Onderzoeksrapport, factuur, …
De extractie van informatie is van toepassing op:
1. Zeer specifieke informatie om te extraheren: een factuurnummer, de naam van een persoon of organisatie, een unieke identificator, een barcode, een bedrag op een bankafschrift enz.
2. Contextuele informatie: het identificeren van specifieke delen van een document, terminologie of een combinatie daarvan die kan worden gebruikt om de categorisering of verfijning van informatie verder te categoriseren.
3. Het vinden van verbindingen tussen verschillende datawaarden in één of meerdere documenten. Bijvoorbeeld: is de geboortedatum op de identiteitskaart hetzelfde als op het geboorteakte dat is verstrekt etc. in Continuous Training?
Hoewel we conceptueel altijd onderscheid maken tussen classificatie en informatie-extractie, zijn beide verbonden en door beide te combineren kunnen we verder verbeteren wat we kunnen bereiken in verdere automatisering.
De voordelen van het gebruik van ML:
Op onze platform hebben we een aantal ML-gebaseerde microservices die we gebruiken in onze oplossingen. Andere oplossingen gebruiken vaak sjablonen om documenten te herkennen of informatie te extraheren die altijd op dezelfde plek in een document staat. Helaas schaalt dit niet erg goed.
Voor elk nieuw type document moet je een nieuw sjabloon maken, anders wordt er geen informatie geëxtraheerd. Met een ML-gebaseerde oplossing kan je het systeem “trainen” om documenten te identificeren en te herkennen, net zoals een mens zou doen, en de informatie te interpreteren.
Dit betekent dat een verandering in de lay-out van een document, of een nieuw type document, nog steeds herkend en verwerkt kan worden. Misschien met een lagere betrouwbaarheid, maar het is nooit alleen maar “waar” of “onwaar” zoals bij een sjabloongebaseerde oplossing.
Bovendien kan een ML-gebaseerde oplossing ongestructureerde gegevens zoals e-mails, directe berichten enz. verwerken en relevante informatie classificeren en extraheren zonder dat er een sjabloon of complexe reguliere expressies nodig zijn.
Uitdagingen van het gebruik van ML:
Het lijkt erop dat ML de manier is om te gaan, omdat het veelvoorkomende uitdagingen met meer traditionele oplossingen zoals het gebruik van sjablonen en reguliere expressies om informatie te extraheren of documenten te classificeren op basis van eenvoudige trefwoorden oplost.
Hoewel een ML-gebaseerde benadering enorme voordelen heeft, is het helaas niet perfect. Zoals altijd is de uitdaging bij elke ML-gebaseerde technologie de beschikbaarheid van invoergegevens om het model te trainen.
Voordat je een ML-model kunt trainen, is het noodzakelijk om gegevens te annoteren die als voorbeeld kunnen worden gebruikt voor het ML-model om van te leren. Hoe meer invoergegevens beschikbaar zijn, hoe beter het verwachte resultaat kan zijn.
Het maken van geannoteerde gegevens is echter zelden een leuke taak die alleen kan worden gedaan door iemand met de relevante domeinkennis. Zoals bij elk soort training dat een mens krijgt, moet je worden getraind door iemand die veel weet.
Het leren gebeurt door voorbeelden, en dat is bij een typisch ML-model niet anders. Een uitzondering is Deep Learning waarbij de machine kan leren van enorme hoeveelheden gegevens. Maar dit is voor de meeste gegevensverwerkingsdoeleinden niet haalbaar vanwege het gebrek aan beschikbare gegevens en de enorme hoeveelheid verwerkingskracht die nodig is.
Bovendien is het vooral geschikt voor het type problemen waarbij het mogelijk is om veel simulaties uit te voeren, bijvoorbeeld zoals bepaalde spellen (zie de voorbeelden van Deep Learning-oplossingen die een schaak- of Go-kampioen zijn geworden). Een belangrijke uitdaging bij het gebruik van een ML-gebaseerde oplossing is het beheer van de verwachtingen.
Het is belangrijk om te weten dat:
1. Er een initiële inspanning nodig is om invoergegevens te maken voor de training van een initiëel model
2. Het model, net als elke mens, fouten zal maken.
Dus, moeten we investeren in een ML-gebaseerd model?
Continuous Training:
Gelukkig is er een manier om al de voordelen van het gebruik van een ML-gebaseerde benadering te behalen, terwijl de inspanningen vanaf het begin laag zijn en de efficiëntie toch wordt verbeterd. Dit is waar het continu opleiden om de hoek komt kijken.
Human Loop:
We moeten eerst duidelijk stellen dat we de niveaus van automatisering willen verhogen en vooral het aantal saaie taken voor de mensen in de lus willen verminderen.
We willen onze tijd niet besteden aan het kopiëren van verschillende datavelden of het classificeren van documenten. Ons hoofddoel is om oplossingen te bieden waar de ML-modellen zo veel mogelijk gegevens kunnen vooraf invullen. Zo kan de persoon die de documenten verwerkt snel kijken wat er is ingevuld, indien nodig correcties maken en ontbrekende gegevens toevoegen.
Dit is al een eerste optimalisatie in vergelijking met een volledig handmatig proces. De logische verlenging die vaak meteen kan worden geïmplementeerd, is het identificeren van die documenten waaruit het niet mogelijk was om alle gewenste informatie te extraheren, en deze alleen aan een echte persoon voor verdere verwerking voor te stellen.
Er is echter een belangrijke onderscheiding in de manier waarop dit wordt gecommuniceerd:
1. We hebben een AI-gebaseerde oplossing geïmplementeerd die u als agent die uw werk uitvoert wil helpen door taken die vervelend zijn weg te nemen, zodat u zich kunt richten op uw eigenlijke werk. Bijvoorbeeld het helpen van onze klanten.
2. We hebben een AI-gebaseerde oplossing geïmplementeerd en het is uw taak om de fouten die het heeft gemaakt te corrigeren.
In het laatste geval wordt de AI-oplossing boven de mens in de lus gezet in plaats van andersom, wat niet het geval is.
Continu Opleiden zeg je?
Een ML-project mag niet eindigen na een initiële Continu Opleiden. Zoals vaak het geval is, begint een ML-project met het verzamelen van gegevens, het trainen van een model en vervolgens het implementeren ervan in productie wanneer een bepaalde succespercentage wordt bereikt.
In werkelijkheid resulteert dit in een achteruitgang van de prestaties in de loop van de tijd als gevolg van veranderingen aan de invoer. Zoals besproken voegt de mens in de lus extra informatie toe en corrigeert fouten die het ML-model heeft gemaakt. Zo creëer je eigenlijk extra gelabelde en gecorrigeerde gegevens die op hun beurt kunnen worden gebruikt om een getraind model verder te verbeteren.
Wanneer deze extra annotaties in aanmerking worden genomen, wordt het mogelijk om de kwaliteit van de getrainde ML-modellen continu te verbeteren. Alle extra annotaties kunnen en zullen de kwaliteit van het model verder verbeteren. Dit creëert dus een positieve spiraal waarbij het aantal informatie dat automatisch kan worden verwerkt toeneemt.
Door deze aanpak te gebruiken, creëren we per definitie een selfservice-oplossing waar nieuwe soorten documenten en gegevens aan de stroom kunnen worden toegevoegd en worden opgenomen in nieuwe iteraties van de ML-modellen.
Conclusies:
Het implementeren van ML in een IDP-stroom heeft grote voordelen om het documentverwerking te optimaliseren. En het grootste voordeel is dat het slechts een kleine verandering is om continue training van het platform mogelijk te maken. Het betekent dat elke correctie of wijziging die door een gebruiker wordt gemaakt, bijdraagt aan een betere prestatie.