Trainings -Cluster mit Raspberry Pi, VirtualBox, AWS

28,00 CHF inkl. MwSt (CH)

Mit Big-Data-Technologien kann man immense Datenmengen verarbeiten, viel größer, als der persönlichen Laptop fassen kann. Die Daten werden auf viele Rechner verteilt und die Berechnungen erfolgen parallel auf mehreren Rechnern. Um die Tools kennen zu lernen, beschafft man sich am besten eine verteilte Umgebung. Es ist auch möglich, die Tools auf nur einem Rechner zu installieren, doch dann verbaut man sich die Chance, wichtige Aspekte der Big-Data-Berechnungen kennen zu lernen.

Dieser Band enthält drei Tutorials. Jedes zeigt eine andere Möglichkeit, um eine Trainingsumgebung zu bauen:

  • In Tutorial A bauen wir einen Cluster mit Raspberry Pi.
  • In Tutorial B bauen wir einen Cluster mit virtuellen Maschinen am Beispiel von VirtualBox.
  • In Tutorial C bauen wir einen Cluster in der Cloud am Beispiel von AWS.

Mit keinem der Trainings-Cluster aus den drei Tutorials wird man Datenmengen im Tera- oder Petabyte-Bereich verarbeiten, doch mit jeder Umgebung lernt man die Big-Data-Technologien hautnah kennen, um anschließend produktiv Big Data zu verarbeiten.

 

Inhaltsverzeichnis

1 EINLEITUNG
1.1 BIG DATA TRAINING
1.2 DER VORLIEGENDE BAND
1.3 FÜR WEN IST DAS BIG DATA TRAINING
1.4 BIG-DATA-SOFTWARE
1.5 BEGLEITENDE WEBSEITE
1.6 ANGLIZISMEN
1.7 SCHREIBWEISEN
2 BEGRIFFE UND DEFINITIONEN
2.1 SINGLE BOARD COMPUTER (SBC)
2.2 WAS IST ÜBERHAUPT EIN CLUSTER?
2.3 SERVER, NODES, KNOTEN, HOSTS
2.4 SWITCHES, ROUTER, RACKS
3 TUTORIAL A: TRAININGS-CLUSTER MIT RASPBERRY PI
3.1 NETZWERKANBINDUNG ENTSCHEIDEN
3.1.1 Ausgangslage
3.1.2 Vergabe der IP-Adressen
3.1.3 Netz für das Cluster
3.2 TOPOLOGIE ENTWERFEN
3.2.1 Material für das Raspberry Pi Cluster
3.2.2 Beispiel-Topologien
3.2.3 Cluster Topologie entwerfen
3.3 MATERIALLISTE UND KOSTEN ERMITTELN
3.4 BUDGET PRÜFEN
3.5 ERSTE KOMPONENTEN BESCHAFFEN
3.6 HANDWERKSZEUG KENNEN LERNEN
3.6.1 SSH Client auf dem Laptop
3.6.2 SD-Karte formatieren
3.6.3 Betriebssysteme beschaffen und SD-Karte flashen
3.6.4 SD-Karten einsetzen
3.6.4 Peripherien verbinden
3.6.5 SD-Karte klonen
3.7 NETZWERK VORBEREITEN
3.7.1 Vorbereitungen
3.8 ROUTER KONFIGURIEREN (PI-200)
3.8.1 Variante 1: In-House Router
3.8.2 Variante 2: Low-Cost Router
3.8.3 Variante 3: Raspberry Pi Router
3.9 ERSTEN SERVER KONFIGURIEREN (PI-201)
3.9.1 SD-Karte erstellen
3.9.2 Netzwerk konfigurieren
3.9.3 SD-Karte einsetzen
3.9.4 Einloggen
3.9.5 Tastatur, neuer User, Hostname, Hosts, Netzwerk testen
3.9.6 Time-Server Client
3.9.7 Server SD-Karte vervollständigen
3.10 KONFIGURATION TESTEN
3.10.1 Variante 1
3.10.2 Variante 2
3.10.3 Variante 3
3.10.4 Variante 4a
3.10.5 Variante 4b
3.11 WEITERES MATERIAL BESCHAFFEN
3.12 CLUSTER AUFSETZEN
3.12.1 Klonen und Kopieren
3.12.2 Cluster einrichten
3.12.3 Cluster konfigurieren
3.13 ERSTES ZIEL ERREICHT
4 TUTORIAL B: TRAININGS-CLUSTER MIT VIRTUELLEN MASCHINEN (VIRTUALBOX)
4.1 VIRTUELLE MASCHINE VERSUS CONTAINER
4.1.1 Grundlegende Architektur
4.1.2 Virtuelle Maschinen
4.1.3 Container
4.2 EINE VIRTUALBOX EINRICHTEN UND KLONEN
4.2.1 Voraussetzung: Laptop
4.2.2 Voraussetzung: Prozessor
4.2.3 Voraussetzung: BIOS
4.2.4 Gast-Betriebssystem herunterladen
4.2.5 Vorbereitung: Server Namen
4.2.6 Voraussetzung: Virtualisierungssoftware
4.2.7 VirtualBox – eine erste virtuelle Maschine
4.2.8 Netzwerkkarten konfigurieren
4.2.9 Linux installieren
4.2.10 Hosts definieren
4.2.11 Den SSH-Server konfigurieren
4.2.12 Den Time-Server installieren
4.2.13 Grundpakete installieren
4.3 KLONEN
4.4 VIRTUELLE MASCHINEN VERNETZEN
4.4.1 Linux konfigurieren
4.4.2 Das interne Netzwerk testen
4.5 WEITERE CLUSTER KONFIGURATIONEN
4.6 ERSTES ZIEL ERREICHT
5 TUTORIAL C: TRAININGS-CLUSTER IN DER CLOUD AM BEISPIEL VON AWS
5.1 VORBEREITUNG
5.2 AWS KONTO ANLEGEN
5.3 EINLOGGEN UND REGION WÄHLEN
5.4 DIE ERSTE VIRTUELLE MASCHINE EINRICHTEN
5.4.1 Das Schlüsselpaar (Key Pair)
5.5 KOSTEN KONTROLLIEREN: EINEN BILLING ALERT EINRICHTEN
5.6 EC2-DASHBOARD: DIE INSTANZEN
5.7 SSH VERBINDUNG AUFBAUEN
5.8 INSTANZ STOPPEN UND NEU STARTEN
5.9 PUBLIC UND PRIVATE IP-ADRESSEN
5.10 ELASTIC IP-ADRESSE ZUORDNEN
5.11 GRUNDPAKETE INSTALLIEREN
5.12 PRIVATE KEY HOCHLADEN
5.13 WEITERE INSTANZEN ALLOZIEREN
5.14 HOSTNAMEN FÜR DEN TRAINING-CLUSTER VORBEREITEN
5.15 SCHLUSSBEMERKUNGEN
5.16 ERSTES ZIEL ERREICHT
6 GEMEINSAME TEILE
6.1 SSH-CLIENT AUF DEM LAPTOP
6.2 FÜR DEN ERSTEN SERVER
6.2.1 Softwarepakete aktualisieren
6.2.2 SSH-Server vorbereiten
6.2.3 Hostname und Hosts anpassen
6.2.4 Den User pi einrichten
6.2.5 Gemeinsame Pakete installieren
6.3 CLUSTER EINRICHTEN
6.3.1 Passwortfreies SSH
6.3.2 Das Cluster herunterfahren
ANHANG
LISTE DER VERWENDETEN LINUX-BEFEHLE
STICHWORTVERZEICHNIS

Die Print-Ausgabe umfasst ca. 150 Seiten

eBook

Das Buch ist auch als eBook zum sofortigen Download erhältlich.

Die Autoren

Ursula Deriu hatte nach ihrem Mathematikstudium in ihrer beruflichen Laufbahn viele verschiedene Rollen in der Software-Entwicklung sowie im Projekt- und Linienmanagement inne. Sie unterrichtet seit mehr als zwanzig Jahren an verschiedenen Fachhochschulen Fächer aus den Themenkreisen Big Data und Data Science. Sie führt auch unternehmensinterne Ausbildungen zu diesen Themenbereichen durch.

Ilir Fetai arbeitet aktuell bei den SBB als Senior Architekt mit Schwerpunkt künstliche Intelligenz und Technologiemanagement. Er hat an der Universität Basel im Bereich verteilte Informationssysteme promoviert. Ilir Fetai hat langjährige Erfahrung in der Forschung, Lehre und Industrie in den Bereichen Datenbanken, verteilte Informationssysteme und Cloud Computing.

Big Data Training

Big-Data-Technologien wurden in der ersten Dekade dieses Jahrhunderts bei den Internet-Riesen geschaffen und fanden ihren Weg in die Open Source Welt. Noch gibt es keine Standards und kaum Good Practices. Und doch wächst das allgemeine Interesse an diesen Technologien. Wer sie kennen lernen möchte, braucht keine immensen Datenmengen und Rechenzentren. Es reicht aus, eine Trainingsumgebung zu bauen und die einzelnen Komponenten der Big-Data-Technologien in geeigneter Reihenfolge kennen zu lernen. Und genau das ist das Ziel der Serie “Big Data Training”. Es zeigt die theoretischen Grundlagen, die Installation in der Trainingsumgebung und praktische Hands-On-Übungen.