Data science v prostředí Apache Spark
Show simple item record
dc.contributor.advisor |
Šenkeřík, Roman
|
|
dc.contributor.author |
Hanzlík, Roman
|
|
dc.date.accessioned |
2021-10-04T11:58:52Z |
|
dc.date.available |
2021-10-04T11:58:52Z |
|
dc.date.issued |
2021-01-15 |
|
dc.identifier |
Elektronický archiv Knihovny UTB |
|
dc.identifier.uri |
http://hdl.handle.net/10563/49953
|
|
dc.description.abstract |
Tato diplomová práce představuje téma Data Science jako nový fenomén v oblasti počítačového zpracování dat. Hlavním cílem této práce je poskytnout prvotní náhled do problematiky Data Science a v krátkosti představit její dílčí oblasti se zaměřením na Big Data a Machine Learning jako dva pilíře, které hrají v posledních letech primární úlohu v rychle se měnící době, zejména v oblasti informačních technologií, což je odvětví, které zásadním způsobem zasahuje snad už do všech oblastí lidské činnosti. Teoretická část nejprve podává přehled historie zpracování dat a informací a představuje faktory, které vedly k potřebě nového přístupu ve zpracování dat. Značná část je věnována představení metodik v oblasti zpracování dat. Neodmyslitelnou součástí je samotná definice Data Science a jejich základních komponent, Big Data včetně datového inženýrství a přehled možností a typů analýz dat. Praktická část popisuje základní koncepty Apache Spark vč. několika možností instalací jako jsou on-premise či in-cloud. Dále se zaměřuje na představení možnosti Apache Spark v rámci jeho základních komponent přímo na reálných případech použití s využitím některých veřejně dostupných datových sad. Součástí práce je sada ukázkových příkladů s funkčními řádky kódů, které demonstrují využití dané technologie. |
|
dc.format |
145 s. (233 617 znaků) |
|
dc.language.iso |
cs |
|
dc.publisher |
Univerzita Tomáše Bati ve Zlíně |
|
dc.rights |
Bez omezení |
|
dc.subject |
Data
|
cs |
dc.subject |
Data Science
|
cs |
dc.subject |
Data Engineering
|
cs |
dc.subject |
Big Data
|
cs |
dc.subject |
Machine Learning
|
cs |
dc.subject |
Data Mining
|
cs |
dc.subject |
Matematika
|
cs |
dc.subject |
Statistika
|
cs |
dc.subject |
Analýza
|
cs |
dc.subject |
DLM
|
cs |
dc.subject |
CRISP-DM
|
cs |
dc.subject |
DSMM
|
cs |
dc.subject |
Apache Spark
|
cs |
dc.subject |
Data
|
en |
dc.subject |
Data Science
|
en |
dc.subject |
Data Engineering
|
en |
dc.subject |
Big Data
|
en |
dc.subject |
Machine Learning
|
en |
dc.subject |
Data Mining
|
en |
dc.subject |
Mathematics
|
en |
dc.subject |
Statistics
|
en |
dc.subject |
Analytics
|
en |
dc.subject |
Analysis
|
en |
dc.subject |
DLM
|
en |
dc.subject |
CRISP-DM
|
en |
dc.subject |
DSMM
|
en |
dc.subject |
Apache Spark
|
en |
dc.title |
Data science v prostředí Apache Spark |
|
dc.title.alternative |
Towards Data Science in Apache Spark |
|
dc.type |
diplomová práce |
cs |
dc.date.accepted |
2021-09-06 |
|
dc.description.abstract-translated |
This master thesis introduces the topic of Data Science as a new phenomenon in the field of computer data processing. The main objective of this thesis is to provide an initial insight into the area of Data Science and to briefly introduce its sub-areas, focusing on Big Data and Machine Learning as two pillars that have played a primary role in recent years in a rapidly changing era, especially in the field of information technology, an industry that has already fundamentally affected perhaps all areas of human activity. The theoretical part first gives an overview of the history of data and information processing and presents the factors that led to the need for a new approach in data processing. A significant part is devoted to introducing methodologies in data processing. An essential part is the actual definition of Data Science and its basic components, Big Data including data engineering and a review of the possibilities and types of data analysis. The practical part describes the basic concepts of Apache Spark including several installation options such as on-premise or in-cloud. It also focuses on presenting the capabilities of Apache Spark within its core components directly on real use cases using some of the publicly available datasets. This paper includes a set of sample examples with working lines of code that demonstrate the use of the technology. |
|
dc.description.department |
Ústav informatiky a umělé inteligence |
|
dc.thesis.degree-discipline |
Informační technologie |
cs |
dc.thesis.degree-discipline |
Information Technologies |
en |
dc.thesis.degree-grantor |
Univerzita Tomáše Bati ve Zlíně. Fakulta aplikované informatiky |
cs |
dc.thesis.degree-grantor |
Tomas Bata University in Zlín. Faculty of Applied Informatics |
en |
dc.thesis.degree-name |
Ing. |
|
dc.thesis.degree-program |
Inženýrská informatika |
cs |
dc.thesis.degree-program |
Engineering Informatics |
en |
dc.identifier.stag |
57488
|
|
utb.result.grade |
A |
|
dc.date.submitted |
2021-08-20 |
|
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account