Neste artigo “Agregação de Dados com o Talend”, nosso objetivo é fazer a agregação de dois arquivos e extrair um arquivo de saída com dados agregados, para isso vai ser usado 2 arquivos como fonte State.txt e o customer.csv

agregação de dados com o talend – Pré-requisitos

Fazer o download do arquivo Aula_3.zip < Click Aqui para download >

agregação de dados com o talend – Criação do Job

No repositório ao lado esquerdo da tela do Talend, click com o botão direito em Jod Designs e seleciona Create Job Crie o job com o nome: agrecacao_dados

OBS: No campo nome, acentos, caracteres especiais e espaçamentos são proibidos e não utilize números no inicio desse campo.
No lado direito do Talend, procure o componente tFileInputDelimited e arraste 2 componentes para a área de design do Talend.

Agora vamos trabalhar com o Menu de metadados no repositório, abra o menu de Metadata procure a opção file delimit, click com o botão direito e no pop up click na opção criar arquivo delimitado.

Coloque o nome do arquivo igual ao arquivo fonte.

Selecione o arquivo

Agora vamos configurar os metadados, como a imagem abaixo:

Depois disso o Talend vai montar os metadados a partir de uma amostra dos dados, por isso cuidado com a qualidade dos dados, principalmente quando trabalhamos com planilha Excel.
Agora vamos verificar como o Talend montou os metadados da planilha customer.

No campo RegisterTime vamos mudar o formato da data para “yyyy-MM-dd”. Coloque o nome e depois click em Finish.

Agora podemos usar esse mesmo metadado para outros Jobs que fazer leitura no arquivo customer.csv. Dê um click duplo no tFileInputDelimited_1.
No campo Property type mude a opção para repositório e depois selecione o metadado que foi criado.

Agora vamos trabalhar com o componente tFileInputDelimited_2, e para isso vamos criar um metadado para o arquivo state.txt
Faça os passos anteriores para criar o metadado para o state.txt

Após os metadados configurados vamos fazer um Join (junção) entre os dois arquivos, para isso será usado o componente t_map, depois coloque o componente de saída tFileOutputDelimited.

Depois disso vamos ligar os componentes, fazendo a ligação da linha principal dos componentes tFileInputDelimited no T_map e depois ligando o T_map no tFileOutputDelimited.

Vemos que o componente T_map está com erro, isso ocorreu por que ainda não o configuramos. De um click duplo no componente T_map.
Na tabela de row1, selecione o id, CustomerName e CustomerAddress e arrastá-los para a tabela de saída.
Em seguida, selecione a coluna idState e arraste-o para a coluna da tabela de idState row2.
Na tabela de row2, selecione a coluna LabelState e arraste-o na tabela de saída.

Clique em OK.
Uma mensagem para propagar as alterações vai aparecer, click em sim.

No Job Designer de um click duplo no componente tFileOutputDelimited para mostras as configurações do componente.
No campo File Name escolha o local e o nome do arquivo, depois selecione a opção Incluir Cabeçalho. Depois salve as alterações e aperte F6 para executar o job.

O Job foi executado com sucesso.
Não esqueça de documentar o Job, para manter uma boa organização, para isso click na área azul no Job Designer.

Conclusão

Criamos um modelo básico de leitura, manipulação e carga, com isso podemos montar uma base para Jobs maiores.

Explorem a ferramenta ela tem vários componentes para inúmeras situações.

Para mais artigos acesse: https://www.tutorpro.com.br/

BY Alexandre Menezes, Analista de Business Intelligence
© Cetax Consultoria 2016