Nutné znalosti:
- Pokročilá teoretická znalost a hands on zkušenosti s Apache Hadoop stackem (HDFS, Yarn, Zookeeper, Hive, Impala, Hue, Ranger, Spark, Oozie) v jakékoliv podobě (ideálně Cloudera CDH/CDP, ale třeba i Google Dataproc)
- Pokročilá znalost linuxu (RHEL) a hands on zkušenosti s nasazováním a provozem aplikací v produkčním prostředí
- Bash skriptování; schopnost pracovat s pySpark a Spark knihovnami v Javě
- Základní znalost práce s kontejnery (Docker/Podman)
- Znalost všech možných datových typů (např. JSON, XML) a schopnost dostat z nich informace ven (nutný REGEX + často používáme i FasterXML/Jackson knihovny)
- Pokročilé SQL + znalost partitioning/bucketing
- Apache Parquet + Komprese dat
- Git
Nice to have znalosti
- Kerberos
- Nginx (basic webserver + load balancing)
- SSO / AD / SSSD / Ldap – AuthN/AuthZ
- Grafana
- Znalost síťových protokolů (TCP/UDP)
- Apache Solr
- Apache Airflow
- Change Management
- Logstash
- SIEM/Splunk
- GDPR, ISO 27000, NIST/NIST2, DORA