Ypma Data Services

Big Data Engineering & Consultancy

Over mijzelf

Aangenaam kennis te maken

Frank Ypma

Big Data Engineer, Cloud Engineer en Consultant

Als freelance Big Data Engineer, ontwerp, implementeer en test ik Big Data systemen. Mijn ervaring reikt van batch ETL verladingen tot API management, en van real-time event processing tot het opzetten van monitoring dashboards.

Ik ben begonnen als DWH developer, en later doorgestroomd naar Hadoop Engineer. Sinds enkele jaren zie ik klanten compleet overstappen op Cloud architectuur, wat mijn werkveld ontzettend leuk en uitdagend maakt. Als Data Engineer verschuiven de werkzaamheden naar DevOps Engineer, waar ik net zo van geniet. Ik heb ervaring op zowel Azure als AWS.

Mijn passie ligt bij de technologie achter al deze toepassingen, en ik stel mij breed inzetbaar op de diverse Cloud ecosytemen. De perfecte opdracht voor mij behelst minstens 50% development/programmeren, 25% architectuurwerk en 25% systeemdeployment/-configuratie.

Naast het opleveren van de juiste functionaliteit draag ik altijd zorg voor een gedocumenteerde en modulaire code base, een gedegen deployment strategie, en een beheersbaar product.

Ik heb een achtergrond in de consultancywereld. Voordat ik zelfstandig werd, was ik dienst bij McKinsey&Company, Capgemini en Nextview.

Frank Ypma

Technische Skills

Ik ben best goed in

Python

De flexibiliteit en snelle leercurve van python maakt het voor veel Big Data Engineers een aantrekkijke taal.

Java/Scala

Ik heb meerdere jaren ervaring als Java developer. Deze basis komt enorm van pas om solide Scala applicaties te ontwikkelen.

(Py)Spark

Zowel batch en (structured) streaming op Hadoop/Databricks. Ik zou me graag nog (verder) verdiepen in performance tuning.

CI/CD

Een must bij het opzetten van een cloud landschap. Ervaring met Github, Gitlab, Azure DevOps, AWS codepipeline. Cloudformtion, CDK, ARM.

Storage zoals S3, ADSLGen2, Azure blob, HDFS

Ik heb gewerkt met Delta Lake, Parquet, Avro, csv, xml, you name it.

Query engines zoals Athena, Hive, Impala, Kudu

Voor veel toepassingen is het logisch data via SQL te ontsluiten.

Databases als Cosmos DB, Postgres, SQL Server, SAP HANA, HBase

Structured en unstructured. Zeer ervaren in SQL.

Scrum / agile / git / jira / maven

Support frameworks, tools en technologieën waar je als developer niet zonder kunt.

Virtualisatie zoals docker, virtualbox, cloudfoundry

Zowel voor lokale development- als microservice productiedoeleinden

Werkervaring

Mijn recente projecten

Nov, 2021
Heden

VodafoneZiggo

Data Engineer

In het core team van het Advanced Analytics Platform op de afdeling Data and Artificial Intelligence, worden een groot aantal batch- en streaming databronnen ingelezen. De bronnen zijn zeer divers in zowel vorm (API, csv, xml, json, parquet) als ook omvang als (tot GB's per uur).

Naast de implementatie en het onderhoud van data pipelines voor data-ontsluiting (Scala) en verladingen (python), heeft Frank zich bezig gehouden met het opnieuw opzetten van het ETL Framework. Dit bestaat uit enkele python libraries, waarmee met minimale configuratie een airflow DAG, transient EMR cluster en een spark ETL job gedeployed kunnen worden.

Gebruikte technologiën zijn o.a.: AWS EMR, AWS MWAA (airflow), AWS S3, AWS Athena, CDK, Cloudformation, Scala, python, (py)spark, gitlab, Hue, oozie, Jupyter.

Aug, 2020
Okt, 2021

NN Investment Partners

Data Engineer

In het core team van het Advanced Analytics Platform op de afdeling Data and Artificial Intelligence, worden een groot aantal batch- en streaming databronnen ingelezen. De bronnen zijn zeer divers in zowel vorm (API, csv, xml, json, parquet) als ook omvang als (tot GB's per uur).

Naast de implementatie en het onderhoud van data pipelines voor data-ontsluiting (Scala) en verladingen (python), heeft Frank zich bezig gehouden met het opnieuw opzetten van het ETL Framework. Dit bestaat uit enkele python libraries, waarmee met minimale configuratie een airflow DAG, transient EMR cluster en een spark ETL job gedeployed kunnen worden.

Gebruikte technologiën zijn o.a.: AWS EMR, AWS MWAA (airflow), AWS S3, AWS Athena, CDK, Cloudformation, python, pyspark, gitlab, Hue, oozie, Jupyter.

Aug, 2018
Jul, 2020

Rabobank

Big Data Engineer, Dev Chapter Lead

De Rabobank heeft een Big Data platform voor marketingdoeleinden. In een scrumteam van 6 man is Frank één van 3 Data Engineers, zich bezig houdend met de ontwikkeling van data-verladingen en -ontsluiting. Gebruikte technologieën zijn HBase, NiFi, Node.js (loopback.io), Spark Structured Streaming (Scala), Kafka en Hive. Enkele van de micro-services draaien op Docker of Cloudfoundry instanties.

Naast zijn ontwikkeltaken was Frank verantwoordelijk voor het opzetten van development standaarden, en het versimpelen van (bijvoorbeeld deployment) processen voor alle 3 de scrum teams op het datalake. Dit om een basis te leggen voor verdere uitbreiding (verdubbeling) van de teams.

Jan, 2018
Jul, 2018

Alliander

Lead Big Data Engineer

Een gedateerd Business Intelligence database-systeem zou binnen korte tijd uitgefaseerd worden, en alle data en datastromen moesten verhuisd worden naar het Big Data Platform. Met behulp van Kafka, Spark, Oozie, Impala, Kudu en SAP HANA werd dit gerealiseerd. Er werd getracht zoveel mogelijk standaard- en generieke processen te gebruiken, opdat het platform eenvoudig uitgebreid kan worden. Hiervoor heeft Frank een ETL-framework gebouwd in Scala om data door het lagenmodel te laden.

Apr, 2017
Dec, 2017

Alliander

Lead Developer real-time dataplatform

Alliander verkrijgt als netbeheerder allerhande meet- en storingsgegevens uit het door hun beheerde stroomnetwerk. Als lead developer in een scrumteam was Frank verantwoordelijk voor de (greenfield) implementatie van het Big Data Plaform dat voor monitoring- en analysedoeleinden werd opgezet. De eerste use-case was het implementeren van een live-monitoring tool met behulp van Spark en SAP Streaming Analytics. Een extra uitdaging vormde het inbedden van dit nieuwe platform in de organisatie: inbeheername, optuigen van een OTAP-straat, inrichten van versiebeheer, ontwikkel- en testichtlijnen en deploymentprocessen.

Jun, 2014
Mrt, 2017

Nidera

Lead Developer/ architect datawarehouse

In de ruim 2,5 jaar dat Frank bij Nidera werkzaam is geweest heeft hij het In-Memory datawarehouse (SAP HANA) zien ontstaan, en doorgroeien tot een volwassen systeem, met een beheerorganisatie en offshore developerteam. Naast het geruikelijke ontwikkelwerk was Frank mede verantwoordelijk voor het technisch ontwerp, dashboard template-ontwikkeling, documentatie, deployment processen en monitoring. Frank heeft gewerkt met o.a. SAP HANA, Data Services, Design Studio en Analysis for Office.

Opleiding & Diplomas

Mijn academische achtergrond

Okt, 2010

Master of Science (ir.) Technische Natuurkunde

Technische Universiteit Delft

2-jarig Master of Science programma, aangevuld met een special track "Management of Technology" aan de faculteit Technologie, Bestuur en Management. Mijn Master thesis ging over siesmiek; ik heb een verbeterde methode ontworpen en geimplementeerd om bij seismische metingen om op bijvoorbeeld 8km diepte de aardlagen te kunnen bepalen en classificeren.

Okt, 2009

Bachelor of Science Technische Natuurkunde

Technische Universiteit Delft

Ik heb mijn Bachelor programma aangevuld met een minor Computer Engineering aan de faculteit Technische Informatica. In mijn Bachelor scripte heb ik een programma gebouwd om multi-track (array) geluidsopnamen te filteren op positie van de geluidsbron.