15. February 2019

SCCH: Domänenspezifische Wissens-Plattform mittels Data Lake und automatisierten Big Data Analysen

Domänenspezifische Wissensplattform mittels Data Lake und automatisierten Big Data Analysen
mittels (Semantic) Data Lake und automatisierten Big Data Analysen

Das Erkennen relevanter Zusammenhänge in einer sich ständig verändernden und wachsenden Vernetzung heterogener Datenquellen gewinnt zunehmend an Bedeutung. Oftmals entstehen neue Erkenntnisse bzw. neues Wissen erst aus explorativen Analysen vorliegender Datenquellen durch Anwendung unterschiedlichster (manueller sowie (semi-)automatisierter) Analyseverfahren.

In sogenannten Data Lakes werden Daten in ihrer (heterogenen, unstrukturierten) Ursprungsform (Text, Bilder, numerisch etc.) abgelegt und stehen anschließend für unterschiedlichste Analysen zur Verfügung. Damit ermöglicht ein Data Lake das Entdecken neuer Zusammenhänge in nicht aufbereiteten Daten. Kernstück eines Data Lakes ist oftmals das Open Source Framework Hadoop.

Im Rahmen dieser Masterarbeit soll ein auf Hadoop basierender Data Lake aus ausgewählten Datenquellen aufgebaut werden. Darauf aufbauend soll beispielhaft untersucht werden, ob und mit welchen (Big) Data Analyse- und Machine Learning (ML) Verfahren daraus neue, relevante Zusammenhänge abgeleitet werden können. Hierzu soll z.B. das Apache Spark ML Framework eingesetzt werden.

In einem weiteren Schritt soll untersucht werden, wie weitere Datenquellen, im Speziellen Linked Open Data Sets, mit den Daten im Data Lake verbunden und gemeinsam analysiert werden könnten. Dabei soll eine geeignete, auf Hadoop aufsetzende Graph-Datenbank eingesetzt werden, um die Daten im Data Lake semantisch mit Linked Open Data Quellen zu verbinden, zu analysieren und daraus neues Wissen abzuleiten.

 

Kontakt

Software Competence Center Hagenberg GmbH
Dr. Bernhard Freudenthaler
Softwarepark 21
4232 Hagenberg
E-Mail senden