Big Data Lakes

Data Lakes und Big Data Stores

Das Buch ist in Vorbereitung.

Big Data Training: Teil 3

Data Lakes und Big Data Stores

Dieser Band baut auf HDFS und MapReduce auf. Wir sehen, wie ein Data Lake, also ein Big Data Warehouse, mit Apache Hive funktioniert. Wir tauchen ein in die Architektur von Hive und wir installieren Hive auf dem Trainingscluster aus Band 1 des Big Data Trainings. Wir schauen einige Beispielanalysen mit Hive an. Dasselbe tun wir mit Apache Cassandra und Apache Drill. So erarbeiten wir ein grundlegendes Verständnis zu Analysen mit Big Data Technologien.

Zum Big Data Training

Big-Data-Technologien wurden in der ersten Dekade dieses Jahrhunderts bei den Internet-Riesen geschaffen und fanden ihren Weg in die Open Source Welt. Noch gibt es keine Standards und kaum Good Practices. Und doch wächst das allgemeine Interesse an diesen Technologien. Wer sie kennen lernen möchte, braucht keine immensen Datenmengen und Rechenzentren. Es reicht aus, eine Trainingsumgebung zu bauen und die einzelnen Komponenten der Big-Data-Technologien in geeigneter Reihenfolge kennen zu lernen. Und genau das ist das Ziel der Serie “Big Data Training”. Es zeigt die theoretischen Grundlagen, die Installation in der Trainingsumgebung und praktische Hands-On-Übungen.