Veröffentlicht am Schreiben Sie einen Kommentar

Apache Spark Streaming mit Window Operation

Die APIs für Big Data Stream Analytics werden immer einfacher. Real-Time Analysen sind sogar mit SQL möglich. Dabei kommen Window Operationen zum Einsatz. Mit den DataFrames von Apache Spark Structured Streaming sind diese schnell geschrieben.

Der Umstand, dass Analysen relativ einfach zu erstellen sind, lässt gerne die enorme Komplexität dieser verteilten Systeme vergessen. Besondere Herausforderungen besprechen wir im Artikel Realtime Big Data Stream Processing. Der Big Data Nugget #03 soll einen Eindruck vermitteln: Dabei kam das Raspberry Pi Cluster erfolgreich zum Einsatz. Faszinierend ist, dass dieselbe Pipeline bis auf mehrere hundert Nodes skalieren kann. Für das Video wurde die Pipeline wie folgt aufgebaut:

Apache Kafka dient als Event Hub, Apache Spark nimmt die Analyse vor und speichert die Ergebnisse in Redis. Dort werden sie von einem Python Skript abgeholt und visualisiert. Das Monitoring erfolgt mit Prometheus und Grafana.

Der folgende Big Data Nugget thematisiert die Timestamps, die in diesem Event von den einzelnen Systemen gesetzt werden. Die Analyse wird mit Apache Spark Structured Streaming erstellt. Als Quizzlet enthält das Video auch Fragen und Antworten. (Ihre Antworten sind völlig anonym und werden nicht gesammelt.)

Nach dem Quiz folgt eine Seite mit einem Nugget zum schürfen.

Im Webshop erhältlich:

Credits:

Apache Kafka: https://kafka.apache.org

Apache Spark: https://spark.apache.org

Redis: https://redis.io

Prometheus: https://prometheus.io

Grafana: https://grafana.com

Kostenlose gemafreie Musik von musicfox: https://www.musicfox.com

SSH mit MobaXterm: https://mobaxterm.mobatek.net/

(c) Video und Quiz: Tirsus GmbH / Ursula Deriu


Hat dir der Artikel gefallen? Dann teile ihn!
Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.