Veröffentlicht am Schreib einen Kommentar

Apache Spark Streaming mit Window Operation

Streaming Window Spark

Apache Spark Streaming mit Window Operation

Die APIs für Big Data Stream Analytics werden immer einfacher. Real-Time Analysen sind sogar mit SQL möglich. Dabei kommen Window Operationen zum Einsatz. Mit den DataFrames von Apache Spark Structured Streaming sind diese schnell geschrieben.

Der Umstand, dass Analysen relativ einfach zu erstellen sind, lässt gerne die enorme Komplexität dieser verteilten Systeme vergessen. Besondere Herausforderungen besprechen wir im Artikel Realtime Big Data Stream Processing. Der Big Data Nugget #03 soll einen Eindruck vermitteln: Dabei kam das Raspberry Pi Cluster erfolgreich zum Einsatz. Faszinierend ist, dass dieselbe Pipeline bis auf mehrere hundert Nodes skalieren kann. Für das Video wurde die Pipeline wie folgt aufgebaut:

Apache Kafka dient als Event Hub, Apache Spark nimmt die Analyse vor und speichert die Ergebnisse in Redis. Dort werden sie von einem Python Skript abgeholt und visualisiert. Das Monitoring erfolgt mit Prometheus und Grafana.

Der folgende Big Data Nugget thematisiert die Timestamps, die in diesem Event von den einzelnen Systemen gesetzt werden. Die Analyse wird mit Apache Spark Structured Streaming erstellt.

Credits:

(c) Video und Quiz: Tirsus GmbH / Ursula Deriu

Abo: Data Engineering und Analytics
  •  

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert