Data science v prostředí Apache Spark

Hanzlík, Roman

Data science v prostředí Apache Spark

DSpace Repository

Language: English čeština

Data science v prostředí Apache Spark

Show full item record

No preview available

Title:	Data science v prostředí Apache Spark
Author:	Hanzlík, Roman
Advisor:	Šenkeřík, Roman
Abstract:	Tato diplomová práce představuje téma Data Science jako nový fenomén v oblasti počítačového zpracování dat. Hlavním cílem této práce je poskytnout prvotní náhled do problematiky Data Science a v krátkosti představit její dílčí oblasti se zaměřením na Big Data a Machine Learning jako dva pilíře, které hrají v posledních letech primární úlohu v rychle se měnící době, zejména v oblasti informačních technologií, což je odvětví, které zásadním způsobem zasahuje snad už do všech oblastí lidské činnosti. Teoretická část nejprve podává přehled historie zpracování dat a informací a představuje faktory, které vedly k potřebě nového přístupu ve zpracování dat. Značná část je věnována představení metodik v oblasti zpracování dat. Neodmyslitelnou součástí je samotná definice Data Science a jejich základních komponent, Big Data včetně datového inženýrství a přehled možností a typů analýz dat. Praktická část popisuje základní koncepty Apache Spark vč. několika možností instalací jako jsou on-premise či in-cloud. Dále se zaměřuje na představení možnosti Apache Spark v rámci jeho základních komponent přímo na reálných případech použití s využitím některých veřejně dostupných datových sad. Součástí práce je sada ukázkových příkladů s funkčními řádky kódů, které demonstrují využití dané technologie.
URI:	http://hdl.handle.net/10563/49953
Date:	2021-01-15
Availability:	Bez omezení
Department:	Ústav informatiky a umělé inteligence
Discipline:	Informační technologie
Grade for thesis and defense:	A 57488