Apache Spark Streaming mit Window Operation
Die APIs für Big Data Stream Analytics werden immer einfacher. Real-Time Analysen sind sogar mit SQL möglich. Dabei kommen Window Operationen zum Einsatz. Mit den DataFrames von Apache Spark Structured Streaming sind diese schnell geschrieben.
Der Umstand, dass Analysen relativ einfach zu erstellen sind, lässt gerne die enorme Komplexität dieser verteilten Systeme vergessen. Besondere Herausforderungen besprechen wir im Artikel Realtime Big Data Stream Processing. Der Big Data Nugget #03 soll einen Eindruck vermitteln: Dabei kam das Raspberry Pi Cluster erfolgreich zum Einsatz. Faszinierend ist, dass dieselbe Pipeline bis auf mehrere hundert Nodes skalieren kann. Für das Video wurde die Pipeline wie folgt aufgebaut:
Apache Kafka dient als Event Hub, Apache Spark nimmt die Analyse vor und speichert die Ergebnisse in Redis. Dort werden sie von einem Python Skript abgeholt und visualisiert. Das Monitoring erfolgt mit Prometheus und Grafana.
Der folgende Big Data Nugget thematisiert die Timestamps, die in diesem Event von den einzelnen Systemen gesetzt werden. Die Analyse wird mit Apache Spark Structured Streaming erstellt.
Credits:
- Apache Kafka: https://kafka.apache.org
- Apache Spark: https://spark.apache.org
- Redis: https://redis.io
- Prometheus: https://prometheus.io
- Grafana: https://grafana.com
- Kostenlose gemafreie Musik von musicfox: https://www.musicfox.com
- SSH mit MobaXterm: https://mobaxterm.mobatek.net/
(c) Video und Quiz: Tirsus GmbH / Ursula Deriu