Data Engineering & Data Analytics

Big Data – Engineering und Analytics – Der Blog

LSM Bäume im Data Engineering

Log-Structured Merge (LSM)-Trees sind eine innovative Art der Datenorganisation und -speicherung, die besonders für schreib-intensive Szenarien, wie verteilten OLTP-Datenbanken, geeignet sind.

B-Trees in Databases

B-Bäume sind eine zentrale Komponente zur Optimierung in vielen Datenbanksystemen. Der Artikel erklärt die Details zur Architektur und Funktionsweise von B-Bäumen.

Aufbau einer Enterprise-Search-Plattform

Der Aufbau einer Enterprise Search Plattform ist mehr ein Daten-Integrationsprojekt. Affinität zur natürlichen Sprache und Suchmaschinentechnologien sind gefragt.

Trade-Offs bei Transaktionen in relationalen Datenbanken

Wie setzt man Datenbanktransaktionen am besten ein. Dieser Artikel beleuchtet Optimistisches Concurrency Control und dessen Trade-Offs in relationalen Datenbanken und zeigt, wie die Bordmittel der Datenbank eingesetzt werden können.

Cloud Data Engineering

Die Cloud ist verlockend für große Datenmengen. Der Trend macht vor Data Engineering nicht Halt. Dabei gibt es Vieles zu bedenken und langfristig zu planen.

Data Lakehouse

Data Lakehouses eröffnen ungeahnte Perspektiven für Datenhaltung und Datenanalyse in der Cloud, selbst für sehr große Mengen und in Echtzeit.

Data Engineering Lifecycle

Daten sind das Gold des 21. Jahrhundert. Doch erst der Data Engineer ermöglicht die Datenanalyse und damit das Schürfen des Datengolds.

Tutorial Virtuelle Maschinen vernetzen

Für den Big-Data Cluster brauchen wir mindestens drei virtuelle Maschinen. Diese haben wir in den ersten Artikeln dieser Serie aufgesetzt. In diesem Tutorial vernetzen wir die virtuellen Maschinen zu einem Cluster, den wir für das Big Data Labor verwenden können.

MapReduce Funktionale Programmierung

Von der funktionale Programmierung mit Map und Reduce in Python, MapReduce bis hin zu MapReduce für Analyse von Big-Data mit SQL – der Artikel erläutert mit Hilfe von Beispielen.

CAP Theorem

Wer sich mit der Verarbeitung und Analyse großer Datenmengen befasst, also mit Big Data, ist täglich mit dem CAP Theorem konfrontiert. Der Artikel beleuchtet das CAP Theorem 20 Jahre nach dessen Beweis.

Kafka Ordering Guarantee

Wie erzwinge ich die Reihenfolge der Events in Apache Kafka? Bei verteilten Queues gibt es Einschränkungen in Bezug auf das FIFO-Prinzip. Was gilt es zu beachten? Der Artikel zeigt die Hintergründe.

https://tirsus.com/wp-content/uploads/2023/10/Zeit-im-Big-Data-Stream-Processing.jpg

Wo wird Data Stream Processing eingesetzt? Welche Infrastruktur ist dazu notwendig und welche Tools existieren? Dieser Artikel zeigt einige grundlegenden Herausforderungen und Konzepte.

Konzepte des HDFS

Das Big-Data-Filesystem verwaltet Daten auf hunderten von Rechnern. Verteiltes Rechnen basiert auf bewährten Konzepten und ist reif für viele Anwendungsfälle. Der Artikel erklärt die Grundkonzepte von HDFS und zieht Parallelen zur einfachen, nicht-verteilten Systemen.

Weitere Artikel

Welches ist die minimal benötigte Infrastruktur, um sich mit Big-Data-Technologien vertraut zu machen. Dieser Artikel gibt Antworten in Form eines FAQ und berücksichtigt insbesondere den Aspekt des verteilten Rechnens und der horizontalen Skalierbarkeit.

Q: Laufen Big-Data-Tools auf Raspberry Pi?

Die APIs für Big Data Stream Analytics werden immer einfacher. Real-Time Analysen sind sogar mit SQL möglich. Dabei kommen Window Operationen zum Einsatz. Mit den DataFrames von Apache Spark Structured Streaming sind diese schnell geschrieben.

Die Frage, ab wann sich Big Data lohnt, muss differenziert beantwortet werden. Der Blog-Post stellt eine Reihe grundsätzlicher Evaluationskriterien vor, um entscheiden zu können, ob es sich grundsätzlich lohnt, auf horizontal skalierbare Tools zu setzen, die nicht nur für sehr große Datenmengen funktionieren.

Die Daten in den Apache Kafka Topics bergen einen Goldschatz an Informationen. Der Blog-Post stellt 10 Real-Time Analytics Tools vor.

Der Artikel beleuchtet spezielle Herausforderungen der Echtzeitanalyse im Big Data Stream Processing besonders im Hinblick auf den Faktor Zeit.

Apache ZooKeeper ist ein kampferprobter Koordinationsdienst für verteilte Computer-Systeme. ZooKeeper wird in unterschiedlichsten Systemen eingesetzt. Als Dienst für Dienste tritt er nicht offen in Erscheinung.

Der Lockruf der innovativen Big-Data-Technologien ist laut. Coole APIs sind scheinbar einfach zu bedienen. Der Blog Post zieht Vergleiche zwischen Big-Data-Technologien und herkömmlichen Programmierparadigmen.

Schon erstaunlich, dass Big Data Technologien auch auf Winzlingen wie Raspberry Pi funktionieren.  Nachdem ich immer mit gut ausgestatteten Rechnern gearbeitet habe, reizte mich das Experiment, die Big-Data Software mit unter Minimalbedingungen zum Laufen zu bringen.

Das Ergebnis ist verblüffend – die Latenz ist viel geringer, als ursprünglich vermutet.  Und so funktioniert das erste Experiment.

Benötigt man mehr Infrastruktur als ein gutes Laptop um sich mit Big-Data-Technologien vertraut zu machen? Dieser Artikel gibt Antworten in Form eines FAQ und berücksichtigt insbesondere den Aspekt des verteilten Rechnens und der horizontalen Skalierbarkeit.

Q: Wie kann man eine Cloud-Umgebung auf dem Laptop simulieren?

  • Abonniere für Insights zu Data Engineering und Analytics.