Project Description
Nesse curso de Data Science, seguimos o curriculo oficial da Hortonworks, uma das maiores autoridades em hadoop, big data e data science do mundo, por isto as descrições ainda permanecem em inglês.
This course Provides instruction on the processes and practice of data science, including machine learning and natural language processing. Included are: tools and programming languages (Python, IPython, Mahout, Pig, NumPy, pandas, SciPy, Scikit-learn), the Natural Language Toolkit (NLTK), and Spark MLlib.
Público-Alvo
Somente treinamentos para empresas (In-Company). Arquitetos, desenvolvedores de software, analistas e cientistas de dados que precisam aplicar ciência de dados e aprendizado de máquinas em Hadoop.
Requisitos
Somente treinamentos para empresas (In-Company). Experiência com pelo menos uma linguagem de programação ou de script, conhecimento em estatística e / ou matemática, e uma compreensão básica de dados importantes e princípios Hadoop.
Conteúdo Programático
Este é o conteúdo que será abordado durante o curso. [inglês]
1. AN INTRODUCTION TO HADOOP AND DATASCIENCE
OBJECTIVES
- Using Hadoop for Data Science
- O Sistema de Arquivos Distribuídos Hadoop
- The MapReduce Framework
- Hadoop 2 and YARN
- Machine Learning from Data
LABS
- Setting up the Lab Environment
- Using HDFS Commands
- Demonstration: Understanding MapReduce
- Using Apache Mahout for Machine Learning
2. AN INTRODUCTION TO APACHE PIG AND PYTHON
OBJECTIVES
- Introduction to Apache Pig
- Python Programming
- Analyzing Data with Python
- Running Python on Hadoop
- Machine Learning Algorithms
LABS
- Getting Started with Apache Pig
- Using the IPython Notebook
- Demonstration: Understanding the NumPy Package
- Demonstration: The Pandas Library
- Performing Data Analysis with Python
- Interpolating Data Points
- Defining User Defined Functions in Python
- Streaming Python with Apache Pig
- Exploring Data with Apache Pig
- Demonstration: Classification with Scikit-Learn
- Computing K-Nearest Neighbor
- Generating a K-Means Clustering
3. MACHINE LEARNING ALGORITHMS
OBJECTIVES
- Machine Learning Algorithms Continued
- Natural Language Processing
- Apache SparkMLib
- Talking Data Science to Production
LABS
- Demonstration: POS Tagging Using a Decision Tree
- Using the Python Natural Language Toolkit
- Classifying Text Using Naïve Bayes
- Using Spark Transformations and Action Using Spark MLib
- Creating a Spam Classifier Using Spark MLib