Hadoop Data Science

Nesse curso de Data Science, seguimos o curriculo oficial da Hortonworks, uma das maiores autoridades em hadoop, big data e data science do mundo, por isto as descrições ainda permanecem em inglês.

This course Provides instruction on the processes and practice of data science, including machine learning and natural language processing. Included are: tools and programming languages (Python, IPython, Mahout, Pig, NumPy, pandas, SciPy, Scikit-learn), the Natural Language Toolkit (NLTK), and Spark MLlib.

Público-Alvo

Somente treinamentos para empresas (In-Company). Arquitetos, desenvolvedores de software, analistas e cientistas de dados que precisam aplicar ciência de dados e aprendizado de máquinas em Hadoop.

Requisitos

Somente treinamentos para empresas (In-Company). Experiência com pelo menos uma linguagem de programação ou de script, conhecimento em estatística e / ou matemática, e uma compreensão básica de dados importantes e princípios Hadoop.

conteudo-programatico

Conteúdo Programático

Este é o conteúdo que será abordado durante o curso. [inglês]

1. AN INTRODUCTION TO HADOOP AND DATASCIENCE

OBJECTIVES

Using Hadoop for Data Science
O Sistema de Arquivos Distribuídos Hadoop
The MapReduce Framework
Hadoop 2 and YARN
Machine Learning from Data

LABS

Setting up the Lab Environment
Using HDFS Commands
Demonstration: Understanding MapReduce
Using Apache Mahout for Machine Learning

2. AN INTRODUCTION TO APACHE PIG AND PYTHON

OBJECTIVES

Introduction to Apache Pig
Python Programming
Analyzing Data with Python
Running Python on Hadoop
Machine Learning Algorithms

LABS

Getting Started with Apache Pig
Using the IPython Notebook
Demonstration: Understanding the NumPy Package
Demonstration: The Pandas Library
Performing Data Analysis with Python
Interpolating Data Points
Defining User Defined Functions in Python
Streaming Python with Apache Pig
Exploring Data with Apache Pig
Demonstration: Classification with Scikit-Learn
Computing K-Nearest Neighbor
Generating a K-Means Clustering

3. MACHINE LEARNING ALGORITHMS

OBJECTIVES

Machine Learning Algorithms Continued
Natural Language Processing
Apache SparkMLib
Talking Data Science to Production

LABS

Demonstration: POS Tagging Using a Decision Tree
Using the Python Natural Language Toolkit
Classifying Text Using Naïve Bayes
Using Spark Transformations and Action Using Spark MLib
Creating a Spam Classifier Using Spark MLib

Veja também

Cassandra – Introdução

Acessar Curso »

Hadoop Weekend

Acessar Curso »

Curso Pentaho

Acessar Curso »

Sistemas de Dados

Acessar Curso »

Data Science

Acessar Curso »

Welcome to Qliksense

Acessar Curso »

Soluções sob medida para sua empresa

Fale com um Especialista da Cetax

Consultoria e treinamentos de alto impacto

Cursos e Treinamentos

Navegue

Newsletter

Dicas, insights e novidades do mundo dos dados para você se manter atualizado.