Hoe EntrD zijn gegevensextractieproces optimaliseerde met LLM

Ontdek hoe EntrD tijd kan besparen en niet alleen nauwkeuriger, maar ook verschillende soorten gegevens tegelijk kan extraheren. Hierdoor wordt het gegevensanonimiseringsproces wordt verbeterd.

Software-oplossingen van EntrD: FileFactory en DataFactory

FileFactory is het uitgebreide Software as a Service-platform (SaaS) van EntrD. Dit is ontworpen om een revolutie teweeg te brengen in de controle die organisaties hebben over hun documenten en bestanden. Het vereenvoudigt het beheer van bedrijfsgegevens. Door de doorzoekbaarheid van documenten te verbeteren, het verbergen of verwijderen van gevoelige inhoud mogelijk te maken en de juiste classificatie van documenten te automatiseren. Deze functies maken FileFactory tot een essentieel hulpmiddel voor organisaties die efficiënt met digitale documenten willen omgaan en taken willen verbeteren. Zoals het vervagen van tekst in documenten, het beheren van digitale archieven en het reageren op verzoeken om gegevens door overbodige informatie te verwijderen.

DataFactory vult FileFactory aan als een geautomatiseerde tool voor het maskeren van gegevens. Hiermee kunnen persoonlijke gegevens in databases of applicaties snel en veilig worden geanonimiseerd. Deze oplossing speelt speciaal in op de behoefte aan GDPR-compliance en beschermt de privacy door gevoelige gegevens te verbergen. Zoals persoonlijke klantgegevens die blootgesteld zouden kunnen worden bij een datalek. De oplossing wordt voornamelijk gebruikt voor het maken van veilige, niet-omkeerbare testdatasets voor training, onderzoek en analytische doeleinden.

Het belang van gegevens maskeren en anonimisering

Het maskeren van gegevens speelt een cruciale rol bij het omzetten van gevoelige gegevens in een formaat dat bruikbaar is voor testen en analyse zonder de privacy in gevaar te brengen. Deze methodologie zorgt ervoor dat gevoelige gegevens worden afgeschermd van mogelijke ongeautoriseerde toegang. Terwijl de integriteit behouden blijft voor praktische toepassingen.

De belangrijkste kenmerken van data-afscherming zijn:

Bescherming van gevoelige gegevens: Door echte gegevens te vervangen door fictieve maar realistische gegevens, wordt ervoor gezorgd dat gevoelige informatie niet wordt blootgelegd.

Bruikbaarheid: De gemaskeerde gegevens blijven functioneel en kunnen worden gebruikt voor ontwikkeling, testen en trainingsdoeleinden. Zonder de beveiliging in gevaar te brengen.

Naleving: Helpt organisaties te voldoen aan de regelgeving voor gegevensbescherming. Door ervoor te zorgen dat gevoelige gegevens niet ongepast worden gebruikt.

Maskeren van documenten

Document masking is de praktijk van het verbergen van vertrouwelijke informatie in documenten om de privacy van individuen te beschermen en risico’s zoals datalekken te minimaliseren.

Bij deze techniek worden gevoelige gegevens vervangen door fictieve of plaatsvervangende gegevens, zodat de privacyregels worden nageleefd en de algemene structuur en bruikbaarheid van de documenten voor samenwerkings- en analysedoeleinden behouden blijft.

Uitdagingen overwinnen met innovatieve oplossingen

EntrD herkende een belangrijke uitdaging in het proces van gegevensextractie: de beperkingen van Named Entity Recognition (NER)-technologie bij het nauwkeurig identificeren en anonimiseren van verschillende soorten gevoelige gegevens.

Onze samenwerking met DataNorth heeft geleid tot een snelle en pragmatische realisatie van een AI-classificatiesysteem. Hierdoor kunnen onze klanten sneller en eenvoudiger toegang krijgen tot hun waardevolle gegevens.

Eric Hoefman

Om deze uitdaging aan te gaan, is EntrD een strategische samenwerking aangegaan met DataNorth AI om hun mogelijkheden op het gebied van data-anonimisering en documentmaskering te vergroten.

DataNorth AI creëerde een innovatieve oplossing met behulp van een groot taalmodel (LLM) om de nauwkeurigheid van de entiteitextractie te verbeteren. Deze aanpak omvatte een proces in meerdere stappen:

OCR-technologie: In eerste instantie zet OCR-technologie (optische tekenherkenning) digitale documenttekst om in machinaal leesbaar formaat.

Voorbewerking: De geëxtraheerde gegevens worden vervolgens voorbewerkt om veelvoorkomende fouten te corrigeren en geschikt geformatteerd voor LLM-analyse.

LLM-toepassing: De voorbewerkte gegevens worden geanalyseerd met behulp van LLM om persoonlijke en financiële informatie nauwkeurig te identificeren en te extraheren.

Post-processing: In deze fase worden de door LLM geëxtraheerde gegevens vergeleken met de oorspronkelijke OCR-resultaten om consistentie en nauwkeurigheid te waarborgen.

Levering van resultaten: Tot slot ontvangt EntrD de verwerkte gegevens, klaar voor anonimisering en verder gebruik in hun oplossingen.

Verbetering door de LLM-oplossing

Dankzij de verbeteringen die dankzij dit partnerschap en de integratie van de geavanceerde LLM-technologie zijn gerealiseerd, kan EntrD zijn anonimiserings- en documentmaskeringprocessen aanzienlijk verbeteren. Deze verbetering versterkt de positie van EntrD als leverancier van geavanceerde en betrouwbare oplossingen voor gegevensbeveiliging binnen de technologische industrie.

Met de resultaatgerichte aanpak van DataNorth, hebben we in korte tijd een geavanceerde AI-integratie gerealiseerd.

Hielke de Jong

EntrD neemt op 12 september in Expo Houten deel aan de veertiende editie van CorporatiePlein 2024, een evenement dat in het teken staat van de digitale transformatie van woningcorporaties. Daar krijgen ze de kans om de resultaten van de implementatie van de LLM oplossing te laten zien.

Bron: DataNorth

Hoe EntrD zijn gegevens-extractieproces optimaliseerde met LLM

Software-oplossingen van EntrD: FileFactory en DataFactory

Het belang van gegevens maskeren en anonimisering

Maskeren van documenten

Uitdagingen overwinnen met innovatieve oplossingen

Verbetering door de LLM-oplossing