Zum Hauptinhalt springen Zur Suche springen Zur Hauptnavigation springen
Inhaltsverzeichnis

Big Data

Big Data ist mittlerweile mehr als nur ein Hype. Die Techniken und Konzepte dahinter sind branchenübergreifend angekommen, und Unternehmen haben begonnen Big Data in ihre Prozesse und Kultur einzubinden.


Hadoop

Big Data ohne Apache Hadoop – irgendwie nicht vorstellbar. Und doch ist Big Data weit mehr als nur Hadoop. Schließlich ist ein ganzer Zoo mit das Framework unterstützenden oder mit ihm konkurrierenden Projekten entstanden. Selbst mit dem guten alten SQL lässt sich hier schon einige Zeit arbeiten.

NoSQL

Relationale Datenbanken haben seit geraumer Zeit eine ernstzunehmende Konkurrenz bekommen. Denn die unterschiedlichen NoSQL-Konzepte erfüllen in vielen Fällen die heutigen Anforderungen an Datenbanken viel besser als die arrivierten relationalen Vertreter. Wären da nicht schon wieder andere Trends wie NewSQL & Konsorten …


Analyse und Programmiersprachen

Data Science ist das Hype-Thema im Big-Data-Umfeld schlechthin. Wie gut, dass die Data Scientists bei ihrer Analyse schon auf bewährte Patterns, Werkzeuge und Programmiersprachen zur Visualisierung ihrer Daten zurückgreifen können.


BIG DATA

Trends

Aus Informationshalden wertvolle Erkenntnisse filtern8

Klaas Wilhelm Bollhöfer

zum Status quo von Big Data im Gespräch14
Datengetriebene IT-Projekte im Wandel16

Recht

Big Data und (Datenschutz-)Recht18

Security

Strategien zum Schutz der Big-Data-Datenbestände und -Infrastruktur24

HADOOP

MapReduce/YARN

Hadoop 2 als universelle Data Processing Platform30

Ökosystem

Die wichtigsten Projekte der Hadoop-Community36
Der Hadoop-Markt unter wirtschaftlichen Aspekten44

Apache Spark

Hadoop-Konkurrent mit In-Memory-Technik46

Hadoop konkret

Mapper- und Reducer-Scheduling in Hadoop50
Geodaten mit Hadoop und Hive verarbeiten54

NoSQL

Überblick

Traditionelle und moderne Datenbanktechnik58

Dokumentenorientierte Datenbanken

NoSQL-Datenbank MongoDB60
Erste Gehversuche mit MongoDB64
Hochverfügbare, performante und skalierbare Webanwendungen mit Apache Cassandra70

Graphendatenbanken

Was ist an Neo4J und Konsorten besonders?76
Abfragesprachen für Graphendatenbanken83

Moderne Datenbanksysteme

Konzepte und Anwendungsfälle von In-Memory Computing89
SQL-Entwicklung für Process Mining auf SAP HANA94
NewSQL-Datenbanken: SQL liebt NoSQL98

NoSQL-Vergleich

MongoDB, Elasticsearch, Riak – dreimal das Gleiche?102

Enterprise Search

Wie Apache Solr und Big Data unter einen Hut passen106
Elasticsearch erfolgreich skalieren110

ANALYSE

Data Science

Neue Königsdisziplin der Datenerhebung und -analyse116

Entwurfsmuster

Analytics Design Patterns122

Data Visualization

Einführung in die Datenvisualisierung126
Datenvisualisierung mit der JavaScript-Bibliothek D3.js132
Karl van den Bergh und Michael O’Connell von Tibco im Gespräch138

PROGRAMMIERSPRACHEN

Sprachen zur Datenanalyse

Python für Data Science und Big Data142
R mit großen Daten: Tipps und Tricks für effiziente R-Programme146
Julia: Neue dynamische und trotzdem performante Programmiersprache150

SONSTIGES

Editorial 3
DVD-Inhalt 6
Inserentenverzeichnis 125
Impressum 125

Kein Ende der Fahnenstange


Der Begriff „Big Data“ ist in den letzten zehn Jahren sicherlich überstrapaziert worden. Begünstigt durch zunehmend billiger werdenden Hauptspeicher und Mechanismen paralleler Programmierung zur schnellen Datenverarbeitung haben sich Analysten, Marketingabteilungen unterschiedlichster Firmen sowie Konferenz- und Schulungsanbieter schnell auf die mit Big Data verbundenen Techniken und Schlagwörter gestürzt. Die Folge war ein klassischer Hype mit all seinen Sonnen- und Schattenseiten. So ist eine stark vom Big-Data-Framework Apache Hadoop und seinem Ökosystem getriebene technische Basis entstanden, die es allerdings erst mal zu monetarisieren gilt.


Viele unserer Leser waren zu Recht erst mal skeptisch, selbst noch 2012, als der Branchenverband BITKOM Big Data zum Trend ausrief, und auch noch 2014, als die CeBIT Big Data zum Leitthema kürte. So attraktiv die immer wieder zitierten Anwendungsszenarien und so erschreckend bis faszinierend die Datensammelwut beispielsweise einer NSA sind, fehlte es vielen Unternehmen lange Zeit an der Idee oder Strategie, wie sich aus ihren großen Datenmengen geschäftsrelevante Informationen mit Gewinn ziehen lassen. Das ändert sich nun so langsam, wie ich in Gesprächen auf unser eigenen Big-Data-Konferenz data2day erfahren durfte, die im November letzten Jahres ihre Premiere hatte.

Und auch die Artikel in diesem Sonderheft deuten darauf hin, dass Big Data mittlerweile mehr als nur ein skeptisch zu sehender Hype zu zugegebenermaßen reifen Techniken ist. Beispielsweise hat sich mit den Data Scientists eine eigene Berufsgruppe herausgebildet, für nicht wenige die derzeit spannendste in der IT. Für die damit verbundenen Fähigkeiten – Klaas Wilhelm Bollhöfer skizziert sie im Heft als Mischung aus klassischem Ingenieursstudium, programmatischen und mathematischen Grundlagen sowie Business- und Design-Denken aus der Internet-Ära – sind Experten natürlich nicht so einfach zu finden.

So wie insgesamt für das Thema Big Data, was eine Studie des Jobportals Dice.com insofern bestätigt, dass sich unter den Top 10 der bestbezahlten Skills sieben Schlagwörter aus dem Big-Data-Umfeld befinden: Cassandra, MapReduce, Cloudera, HBase, Pig, Flume und Hadoop. (Unter den Top 20 sind es gar 14: Hier kommen Hive, NoSQL, ZooKeeper, Data Architect, Data Scientist, Solr und Big Data hinzu.) Die Nachfrage treibt ganz eindeutig die Honorare in die Höhe.

Mag es auf Wirtschafts-, Job- und Projektseite signifikant vorwärtsgehen, ist selbst bei Hadoop womöglich noch lange nicht das Ende der Fahnenstange erreicht. So vermeldete der bei Cloudera angestellte Hadoop-Schöpfer Doug Cutting Mitte März 2015 immer noch eine jährliche Verdopplung der Hadoop-Anwender. Das bedeutet zugleich, dass über die Hälfte der Nutzer Einsteiger in das Thema sind. Für sie mag das Sonderheft den größten Wert haben, aber auch für alle anderen an Big-Data- und NoSQL-Themen Interessierten haben wir Lesenswertes konfektioniert.


Wir wünschen Ihnen viel Spaß bei der Lektüre.


Alexander Neumann

Auf der Heft-DVD

Sponsored Content:EXASOLUTION
Die Hochleistungsdatenbank EXASolution hält ihre Daten spaltenorientiert verteilt über die Knoten eines Clusters im Hauptspeicher und soll sich dadurch vor allem für schnelle Auswertungen in Data Warehouses eignen. Sie entstand aus Forschungsprojekten der Universitäten Jena und Erlangen und führt mehrere TPC-H-Benchmarks für Data Warehouses unterschiedlicher Datengröße an.
Auf der DVD gibt es das technische Whitepaper „A Peek under the Hood“ zu EXASolution sowie die folgenden Videos:

Integration von Geodaten ermöglicht räumliche Analysen: ein Beispiel, wie die Analyse von Geodaten über EXASolution aussehen kann.

EXASolution versus Natural Language Processing: ein Praxisbeispiel, wie benutzerdefinierte Funktionen (User-Defined Functions; UDFs) in EXASolution zu integrieren sind, um Sprachverarbeitung direkt in der Datenbank zu ermöglichen.

Big-Data-Analysen mit Skyline: Skyline ist ein neues Analyse-Werkzeug in EXASolution, das unter Berücksichtigung unterschiedlicher Bewertungskriterien eine Vorauswahl aus großen Datenmengen über mehrere Dimensionen hinweg trifft.

Skyline – ein praktisches Beispiel: Das multidimensionale Optimierungstool „Skyline“ erspart das mühevolle Sortieren, Filtern und die subjektive Bewertung unüberschaubar großer Datenmengen.

Performance und Geschwindigkeit statt Schneckentempo und Frustration: allgemeiner Überblick über die Möglichkeiten des In-Memory Computing mit der Hochleistungsdatenbank EXASolution.


HADOOP
Cloudera’s Distribution Including Hadoop (CDH) 5.3.0
Die Open-Source-Sammlung umfasst die Kernkomponenten von Hadoop zur verteilten und ausfallsicheren Speicherung und Verarbeitung großer Datenmengen. Darüber hinaus sind Werkzeuge für Sicherheit, Hochverfügbarkeit und Integration in bestehende Datenlandschaften enthalten. CDH ist unter der Apache-Lizenz verfügbar und eine der verbreitetsten Hadoop-Distributionen und wird für Tests, Entwicklung und den Betrieb großer Cluster verwendet. Auf der DVD befindet sich ein VMware-Image, das insbesondere Einsteigern helfen kann, sich schnell einen Überblick zu verschaffen.

FREIE IDEs
Eclipse 4.4.2: das zweite Service Release der Entwicklungsumgebung in der Luna-Distributionen für Java-Entwickler.
IntelliJ IDEA 14.0.3: die Community Edition der polyglotten Java-Entwicklungsumgebung.
Juno: eine freie IDE für die Programmiersprache Julia.


TOOLS, DATENBANKEN, SPRACHEN
Enterprise Search: Apache Solr, Elasticsearch
Big-Data-Frameworks: Apache Drill, Apache Giraph, Apache Hadoop, Apache Hive, Apache Spark, Apache Storm
NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak
NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin, PostgresXC, Presto
Programmiersprachen: Julia, Python, R


LITERATUR
Auszüge aus den dpunkt-Büchern:
MongoDB – Der praktische Einstieg: Kompakt und anhand zahlreicher Beispiele führt das MongoDB-Buch von Tobias Trelle in die Nutzung von MongoDB ein. Auf der Heft-DVD finden Leser auf 56 Seiten Leseauszüge zur Einführung in dokumentenorientierte NoSQL-Datenbanken und insbesondere MongoDB. Außerdem werden Hilfen zur Installation gegeben und die Konzepte hinter MongoDB erklärt.

Visual Business Analytics – Effektiver Zugang zu Daten und Informationen: Das Buch von Jörn Kohlhammer, Dirk U. Proff und Andreas Wiener zeigt Wege auf, wie aus Daten mittels Visualisierung entscheidungsrelevante Informationen für den Empfänger werden. Auf rund 70?Seiten als Leseauszüge geben die Autoren einen grundsätzlichen Einblicke in die Visualisierung von Daten und Informationen sowie des Weiteren in das Zusammenspiel von Big Data und Visual Analytics.


LISTINGS UND LIZENZEN
Die Listings zu den Heftartikeln und die Lizenzen zu den Softwarepaketen auf der Heft-DVD.
Artikel-Details
Anbieter:
Heise Medien GmbH & Co. KG
EAN:
4018837040249
Veröffentlicht:
09.04.15