Veröffentlicht am Schreiben Sie einen Kommentar

Apache Spark Streaming mit Window Operation

Die APIs für Big Data Stream Analytics werden immer einfacher. Real-Time Analysen sind sogar mit SQL möglich. Dabei kommen Window Operationen zum Einsatz. Mit den DataFrames von Apache Spark Structured Streaming sind diese schnell geschrieben.

Der Umstand, dass Analysen relativ einfach zu erstellen sind, lässt gerne die enorme Komplexität dieser verteilten Systeme vergessen. Besondere Herausforderungen besprechen wir im Artikel Realtime Big Data Stream Processing. Der Big Data Nugget #03 soll einen Eindruck vermitteln: Dabei kam das Raspberry Pi Cluster erfolgreich zum Einsatz. Faszinierend ist, dass dieselbe Pipeline bis auf mehrere hundert Nodes skalieren kann. Für das Video wurde die Pipeline wie folgt aufgebaut:

Apache Kafka dient als Event Hub, Apache Spark nimmt die Analyse vor und speichert die Ergebnisse in Redis. Dort werden sie von einem Python Skript abgeholt und visualisiert. Das Monitoring erfolgt mit Prometheus und Grafana.

Der folgende Big Data Nugget thematisiert die Timestamps, die in diesem Event von den einzelnen Systemen gesetzt werden. Die Analyse wird mit Apache Spark Structured Streaming erstellt. Als Quizzlet enthält das Video auch Fragen und Antworten. (Ihre Antworten sind völlig anonym und werden nicht gesammelt.)

Credits:

(c) Video und Quiz: Tirsus GmbH / Ursula Deriu

    • Seit mehr als 20 Jahren unterrichte ich Data Management und Data Engineering an mehreren Schweizer Fachhochschulen.
    • Seit etwa zehn Jahren sind Big-Data-Technologien dazu gekommen. Ein faszinierender Themenkreis, der sich an wachsendem Interesse erfreut und den ich auf diesem Weg einem breiteren Fachpublikum erschließen möchte.
    • Ursula Deriu
    • Klick hier, um mehr über mich zu erfahren
Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.