ETL-proces wordt “data-integratie”

ETL-processen (extractie, transformatie en laden van gegevens) waren vroeger vaak batchgeoriënteerd en werden ’s nachts uitgevoerd. Tegenwoordig klinkt de term bijna verouderd, omdat we het meer over data-integratie hebben, legt het hoofd DACH van Informatica uit.

Toen Informatica 26 jaar geleden werd opgericht, ging het vooral om het extraheren van data uit silo’s bij grote klanten met mainframes, om die vervolgens verder te kunnen gebruiken. “Dat had veel te maken met interface werk. Stelt u zich bijvoorbeeld een systeem op een mainframe voor dat logistieke processen verwerkt. Om de gegevens eruit te halen en ze te kunnen gebruiken in een financieel boekhoud- of rapportagesysteem, werden op de achtergrond automatisch interfaces geprogrammeerd”, aldus Oliver Schröder, Managing Director DACH van Informatica. Open interfacenormen zoals vandaag bestonden niet, zodat eigen interfaces voor gegevensverkeer moesten worden gecreëerd. Tegen deze achtergrond is het basisidee van het ETL-principe, d.w.z. extractie, transformatie en laden van gegevens, afkomstig van Informatica, aldus de DACH-baas. “Ook al is de terminologie bedacht door Gartner en andere analisten.” Het extraheren van gegevens (uit systeem A), transformeren (voor systeem B) en laden van gegevens (door systeem B) gebeurde vaak ’s nachts.

ETL klinkt bijna ouderwets

Realtime toegang was toen ook nog niet aan de orde, en over het geheel genomen klinkt de term ETL bijna ouderwets, ook al vertegenwoordigt het de basisbeginselen van de informatica. Tegenwoordig hebben we het over gegevensintegratie, ongeacht of we het hebben over de uitwisseling van gegevens via open interfaces over systeemgrenzen van bijvoorbeeld Salesforce-, Oracle- of IBM-oplossingen heen, of over het verplaatsen van gegevens tussen on-premises en cloudwerelden.

Het onderwerp “datakwaliteitsbeheer” heeft enorm aan belang gewonnen. Enerzijds op het niveau van de opslagarchitectuur, d.w.z. de vraag waar de gegevens zich bevinden en of zij daar correct zijn geplaatst. Anderzijds is het de vraag in hoeverre de gegevens inhoudelijk juist zijn. “Bijvoorbeeld of een opgeslagen creditcardnummer coherent is met betrekking tot het controlecijfer is een vraag uit dit gebied. Of de vraag of er een woord naast een bedrag staat of andersom. Bij het beheer van stamgegevens speelt het probleem van duplicaten een centrale rol,” zegt Schröder. Een van de taken van master data management is om orde op zaken te stellen.

O oude en nieuwe problemen

Een bijna universeel voorkomend probleem in deze context is dat dezelfde klanten in verschillende systemen zijn opgeslagen, bijvoorbeeld een keer als offerteklant in Salesforce en een keer als factureringsklant in SAP. Andere problemen die door digitale transformatie worden veroorzaakt, zijn uniek voor elke sector. Schröder noemt de niveaus waarop ze voorkomen: Cloud/Hybrid, Next Gen Analytics, 360 Engagement en Data Governance/ Compliance. De technologische uitdaging hier is “in gelijke mate om te kunnen gaan met gegevens uit klassieke relationele databases, op bestandssystemen gebaseerde opgeslagen gegevens en Big Data-formaten, zoals die welke nodig zijn voor Hadoop-systemen”. Dit is allesbehalve triviaal, aldus de Informatica-baas. Al deze onderwerpen zullen nu geleidelijk migreren van grote klanten – zoals in de begindagen van Informatica – naar middelgrote bedrijven die hun bedrijf aan het digitaliseren zijn.

Partnerstrategie wordt aangepast

Het governance-aspect is nu een zeer belangrijke drijfveer voor steeds meer bedrijven om zich bezig te houden met het onderwerp datamanagement: “Of het nu gaat om het op de juiste manier verzamelen van gegevens over transportroutes voor verificatie van de toeleveringsketen of over het DSGVO-onderwerp. Basel III en het aanstaande Basel IV spelen hierbij ook een rol,” meldt de dataprofessional.

“Tegen de achtergrond van deze ontwikkelingen is onze partnerstrategie aan het veranderen”, onthult de Informatica-baas. Het aantal partners moet toenemen en Informatica is op zoek naar wederverkopers met toegevoegde waarde die diep geworteld zijn in hun bedrijfstak. Een typische kandidaat voor een toekomstige Informatica VAR heeft directe toegang tot klanten, bijvoorbeeld ERP- of DRM-gerelateerd. De onderwerpen data-integratie, datakwaliteit en master data management worden dan automatisch toegevoegd.