Teil 1 der Serie: Big Data Labor: Cluster aufsetzen

Wer sich mit Big Data Technologien auseinandersetzt, taucht ein in eine faszinierende und sich schnell verändernde Welt.

Es gibt natürlich verschiedenste Möglichkeiten, den Überblick über die Entwicklungen zu erhalten und zu behalten. Will man nicht nur einen High-Level theoretischen Einblick haben, sondern Hands-On-Erfahrungen sammeln, dann braucht man eine Arbeitsumgebung, um die verschiedenen Tools kennen zu lernen.

Mit Big Data Technologien kann man immense Datenmengen verarbeiten, viel größer, als der persönlichen Laptop fassen kann. Die Daten werden auf viele Rechner verteilt und die Berechnungen erfolgen parallel auf mehreren Rechnern. Um die Tools kennen zu lernen, beschafft man sich am besten eine verteilte Umgebung. Es ist auch möglich, die Tools auf nur einem Rechner zu installieren, doch dann verbaut man sich die Chance, wichtige Aspekte der Big Data Berechnungen kennen zu lernen.

Es gibt verschiedene Möglichkeiten, wie man eine Labor-Umgebung schaffen kann:

  • Man hat das Glück und kann die Software auf mehreren Servern installieren.
  • Man mietet eine Kennenlern-Umgebung bei einem Cloud-Anbieter.

Für diese beiden Optionen benötigt man einen gewissen finanziellen Rahmen, den möglicherweise zu Beginn nicht aufbringen möchte.

Es gibt noch einfachere Varianten, um ein Big-Data-Labor aufzubauen

  • Man baut eine verteilte Umgebung mit virtuellen Maschinen auf
  • Nur limitiert interessant: man verwendet Docker Images
  • Man baut eine verteilte Umgebung mit Raspberry Pi auf

Diese drei Varianten sind deutlich kostengünstiger als die ersten beiden und sind ideal, um erste Experimente zu machen und die Tools kennen zu lernen. Sie bieten auch eine ideale Möglichkeit, den Produktionsbetrieb vorzubereiten. Die Einschränkungen: man hat natürlich keinen Platz für enorme Datenmengen und die Ausführungsgeschwindigkeit ist eher gemütlich.

Diese Artikel-Serie zeigt, wie eine verteilte Umgebung mit virtuellen Maschinen gebaut werden kann. Insbesondere wird auch erläutert, welches die Grenzen sind, die eine reine Docker-Umgebung in Bezug auf eine Labor-Umgebung mit sich bringt.

Die Serie wird nach Vollendung als E-Book veröffentlicht und mit Anleitungen ergänzt, wie ein Raspberry-Pi-Cluster für den Aufbau einer Labor-Umgebung für Big Data Technologien aufgesetzt wird.