O que é Big Data?

Vamos começar do princípio, claro. O termo Big Data nasceu no início da década de 1990, na NASA, para descrever grandes conjuntos de dados complexos que desafiam os limites computacionais tradicionais de captura, processamento, análise e armazenamento informacional.

Podemos, então, compreender Big Data como um termo que define “Um grande volume de dados, gerados em alta velocidade e variedade, que necessitam de tecnologias inovadoras e formas econômicas para processar, organizar e armazenar todo esse grande volume de dados, a fim de se permitir melhor compreensão, para a tomada de decisão e automação de processos“.

Big Data – Resumo

Só para reforçar: Big Data (Grandes Conjuntos de Dados), é um termo usado para descrever imensos volumes de dados, não estruturados e estruturados, que não podem ser efetivamente processados com softwares/tecnologias convencionais.

Volume, Variedade e Velocidade de Dados

Não é só o volume de dados que define Big Data. Embora o termo seja relativamente novo, o conceito ganhou força no início dos anos 2000, quando um famoso analista, Doug Laney, definiu os três V’s que compõem o Big Data:

1. Volume de Dados

Passamos a falar muito rápido de Gigabytes para Terabytes, e agora estamos falando de Petabytes e outros volumes gigantescos de dados gerados diariamente.

No passado, armazenar toda essa quantidade de informações teria sido um problema, mas as novas tecnologias (como o Hadoop) têm aliviado a carga e tornado possível o processamento e análise dessa vasta quantidade de dados.

2. Velocity – Velocidade

Hoje, para alguns negócios, 1 minuto pode ser muito tempo. Detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a tempo.

A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja, carregamos o dia anterior. Acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio. Por isso a velocidade é importante.

3. Variety – Variedade

Big Data também poderia ser considerado como Any Data (qualquer dado). Hoje, temos capacidade de capturar e analisar dados estruturados e não estruturados:

  • Texto;
  • Sensores;
  • Navegação Web;
  • Áudio;
  • Vídeo;
  • Arquivos de logs;
  • Catracas;
  • Centrais de ar condicionado, entre outros.

Uma nova série de ferramentas está se tornando parte dos projetos, são as ferramentas de machine data, dados de máquina. Qualquer aparelho eletrônico, hoje em dia, tem uma estrutura de dados ou programação. O ponto é, que, nem todos podem ser acessados (ainda..).

Big Data – Origem dos Dados

Legal. Entendemos que tudo se baseia em dados. Agora, vamos entender de onde esses dados, utilizados em Big Data, são extraídos?

Bom, se o objetivo do Big Data é extrair um grande volume de dados, organizá-los e analisá-los – a fim de se obter insights para negócios e prever uma determinada situação. Pode se dizer que os dados são extraídos de qualquer lugar? Sim, qualquer lugar e formato!

Abaixo listamos algumas origens:

  • Redes Sociais – Facebook, instagram, twitter etc;
  • Websites – Google, Portal de Notícias, Mapas etc;
  • Sistemas – ERP, CMS, etc;
  • Aplicativos – Posição Geográfica, Gosto Musical, Fotografia;
  • Banco de Dados – da internet (externos), de empresas (internos);
  • Pacote Office – Excel, Access, Word;
  • Máquinas e Assessórios tecnológicos.

Big Data – Tipos de Dados

Quais formatos é possível extrair para o uso em Big Data? Basicamente, é possível usar quaisquer tipos de dados: estruturados e não-estruturados – os quais vamos falar mais adiante. Abaixo, alguns exemplos de formatos de dados:

  • Imagens;
  • Vídeos;
  • Áudio;
  • Textos;
  • CSV;
  • XML.

Dados Estruturados e Não-Estruturados

  • Dados Estruturados

Aqueles que possuem algum padrão ou formato que pode ser usado na sua leitura e extração dos dados. Dados de bancos de dados, sistemas legados, arquivos texto.

Exemplos: csv, txt ou xml.

  • Dados Não-Estruturados

Aqueles que não possuem um formato padronizado para leitura, podem ser arquivos.

Exemplos: Word, Páginas de Internet/Intranet, Vídeos, áudios, entre outros.

Qual o volume de Dados gerados atualmente?

  • O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários.
  • A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube.
  • Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS.
  • O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu “motor” de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação. Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não.

Exemplos de Big Data – Onde utiliza-se Big Data?

Big Data afeta organizações em praticamente todas as indústrias. Confira abaixo alguns setores que podem e utilizam Big Data:

  • Banco / Financeiro;
  • Educação;
  • Governo;
  • Saúde;
  • Segurança;
  • Manufatura.

Cases de Sucesso – Big Data na prática

MC DONALD’S

O Fast-Food mais famosos do planeta, o Mc Donalds, gerencia cerca de 34 mil restaurantes e serve mais de 69 milhões de pessoas em 118 países – tudo isso com frequência diária. Com base nesse pequeno trecho de informações, você já deve estar imaginando o quão gigantesco é o número de dados gerados diariamente pelo Mc Donalds, certo? Bom, e o que o grande M amarelo faz com todos esses dados gerados?

Sabe-se que, o Mc Donald’s, coleta e combina os dados de suas lanchonetes ao redor do globo com o objetivo de padronizá-los e, com isso, compreender o comportamento de seu público; como esse público percebe seus produtos; os aperfeiçoamentos logísticos e layouts que podem ser concebidos para melhorar a experiência do usuário perante seus serviços e produtos.

A partir dos estudos de Sentiment Analysis (análises de sentimentos), realizados em redes sociais, foram lançados novos sanduíches, promoções em tempo real etc. Tudo isso só foi possível, graças ao acompanhamento dos cientistas de dados, que mensuraram atentamente as manifestações e reações de seu público – alterando estratégia em tempo real e, até a logística do Drive-Thru, alterada em cada país conforme as reações de seus consumidores no que diz respeito ao layout, tempo de espera e informações providenciadas por seus funcionários no ponto de entrega dos lanches. Tudo possibilitado por meio de ferramentas de Big Data.

AMERICAN EXPRESS

Nos últimos anos, a American Express conseguiu compreender que, os recursos digitais e a mobilidade modificaram as expectativas de seus consumidores sobre seus serviços nos últimos anos. Seus clientes esperam que a empresa (American Express) o conheçam com mais afinco, saiba dialogar com eles e entenda e compreenda as suas preferências.

A consciência e compreensão de mercado, obtida pela American Express, só foi possível por meio da implantação de um projeto de Big Data audacioso, que integra tecnologias open source – como o Hadoop, com capacitações analíticas e operacionais da organização ao longo de suas linhas de negócios.

Resultado: Foi desenvolvido uma parceria estratégica e experiências em tempo real para atender seus clientes. Resultados dessas ações é o Amex Offers – que conecta membros a promoções personalizadas, bem como uma parceria inovadora com o site de viagens Trip Advisor, cujo objetivo é a concessão de benefícios exclusivos e, em tempo real, aos clientes da operadora de cartões.

Quer trabalhar com Big Data?

O profissional que tem interesse em trabalhar na área, deve possuir características tanto técnica como conhecimento em negócios. O caminho que recomendamos e adquirir conhecimento através das ferramentas utilizadas.

Além das ferramentas, o interessado na área deve desenvolver conhecimentos técnicos em programação, Linux e Modelagem de Dados. Conhecer sobre o negócio ou os processos da empresa, ter noções mínimas de estatísticas e matemática aplicada a dados.

As áreas de atuação de um profissional em Big Data podem ser classificadas de 3 maneiras:

  • ADMINISTRADOR

Responsável por manter os ambientes e ferramentas funcionando. Um profissional mais técnico que necessita de conhecimento em sistemas operacionais, principalmente em Linux, arquitetura de hardware e redes, a fim de, garantir melhor performance das ferramentas.

  • DESENVOLVEDOR

Responsável por desenvolver os processos de captura, transformação e carga de dados. O perfil do profissional tende a exigir conhecimentos de programação e das ferramentas utilizadas nos processos. Além disso, desenvolve novas rotinas e processos relacionados as necessidades de negócio.

  • CIENTISTA OU ANALISTA DE DADOS

Responsável por atender as demandas das áreas de negócio ou planejamento da empresa. Está mais ligada as áreas de negócios devendo ter o conhecimento das ferramentas de consulta e acesso aos dados, como noções de estatística.

Conhecimentos Necessários

Para aqueles que procuram trabalhar com Big Data, você precisará de:

  • Habilidades analíticas: a capacidade de obter insights das enormes quantidades de dados que você obterá. Com habilidades analíticas de resolução de problemas, você poderá determinar quais dados são relevantes para solução de um problema;
  • Criatividade: você deve ter a capacidade de criar novos métodos para reunir, interpretar e analisar uma estratégia de dados;
  • Matemática e habilidades estatísticas: Bom, antiquado “crunching numérico” é absolutamente necessário;
  •  Informática: os computadores são a chave para o trabalho por trás de cada estratégia de dados. Os programadores terão uma necessidade constante de criar algoritmos para transformar dados em insights;
  • Competências empresariais: os profissionais do Big Data devem ter uma compreensão dos objetivos de negócios que estão em vigor, juntamente com os processos subjacentes que impulsionam o crescimento do negócio e seu lucro.

Salário do Profissional de Big Data

Segundo um estudo da Robert Half, o salário médio para o profissional de Big Data pode variar de R$ 6.000 a R$ 35.000.

Big Data PDF

Se você quiser aprofundar-se e conhecer mais sobre Big Data, pode aproveitar e baixar gratuitamente nossa apostila de Big Data em PDF.

Big Data – Artigos

Além dos materiais acima, você também pode ler alguns artigos que produzimos e estão relacionados com este tema.

  1. Apache Hadoop – O que é, conceito e definição
  2. Diferença entre Data Science, Big Data e Data Analytics
  3. Livro Big Data para leigos
  4. Algorítimos para Big Data
  5. Qual a diferença entre Data Warehouse, Big Data e Business Intelligence

Big Data – Cursos

No curso, será demonstrados as formas mais utilizadas de Big Data e suas variações: Mining, Analytics, Business Intelligence e outras maneiras. Bem como as tecnologias mais comuns NoSql ( Not Only Sql ) e Hadoop. Como exemplos práticos, será transmitido para os alunos, uma visão sobre Big Data e como ele pode entrar nesse novo mundo.

Quem pode fazer o curso?

Profissionais de TI, Analistas, estatísticos, analistas de social media, publicitários, gestores de marketing e CRM, profissionais de E-commerce, gestores e interessados em ingressar neste mercado.

CONTEÚDO PROGRAMÁTICO

PARTE 1

  • Conceitos de BigData
  • 3, 5 ou 10 V ‘s?
  • Requerimentos do Big Data
  • Load
  • Structure
  • Response
  • Complex Workload
  • Economics
  • Características do Big Data
  • Response
  • Batch, Real-Time, Near Real-Tim
  • Structure

PARTE 2

  • Load
  • Gigabytes, Terabytes, Petabytes
  • Já não estamos fazendo BigData?
  • Data is the new Oil! (Dado é o novo petróleo!)
  • Fontes para o Big Data
  • Direcionadores para a Mudança de paradigma
  • Alguns números do mercado Brasileiro e Mundial
  • Ferramentas/Arquitetura
  • Machine Learning
  • Textual ETL

PARTE 3

  • Hadoop
  • Hadoop DB Architecture
  • Hadoop Limitations
  • Algumas dicas sobre Hadoop
  • Map Reduce
  • NoSQL
  • Players de Mercado
  • Cientista de Dados
  • Quero trabalhar com Big Data
  • The Big Data
  • Diferenciações no Hadoop
  • Schema Flexibility

Duração, Local e Certificado

  • O curso tem a duração de 08 horas;
  • O local do curso será em São Paulo/SP – Cetax Treinamentos;
  • O Certificado será emitido pela Cetax Treinamentos.