Cetax

Talend: Criando Job simples para ordenação de dados

Talend ETL

Job simples no Talend

Job simples no Talend para ordenação de dados

Hoje vamos criar um job no talend, para ler um arquivo e fazer a ordenação dos dados.

Requisitos

Fazer Download do arquivo Aula_2.zip < Click Aqui >

Esse arquivo será usado para carregar no talend.

Criando o Job

No repositório, ao lado direito do talend click com o botão direito em Job Design Create Job

Vamos criar o job com o nome ordenacao_dados, depois click em finish

Vamos usar um componente de entrada para inserir os dados no talend, no lado direito do talend tem o Pallete, procure o componente tFileInputDelimited  e arraste para a o Job Designer.

No Job Designer click duas vezes no componente para exibir a suas propriedades

No campo File Name/Input Strem informe o local onde foi descompactado os arquivos do Aula_2 e selecione o arquivo customer.csv

Agora vamos alterar os metadados, para isso vamos Edit schema e adicione 9 linhas, essas linhas serão configuradas de acordo com o arquivo.

Na column vamos renomear as colunas igual ao do arquivo, o campo Key informa qual o campo será a chave no campo Type vamos informar o tipo de dados, como estamos carregando de um arquivo csv, vamos considerar todos como string.

No campo Length é definido o tamanho do campo, vamos usar o mesmo tamanho de campo do arquivo customer.csv

Após editar o schema, click em OK

Agora vamos adicionar o componente de saída tFileOutputDelimited, depois no Job Designer click duas vezes no componente para exibir a suas propriedades

No componente de saída, vamos definir o nome do arquivo para temp.csv, não esquecendo de incluir o cabeçalho no arquivo.

Agora vamos trazer o componente tSortRow, para isso procure o aplicativo no Pallete, depois de trazer o componente, deve ser feito a ligação entre eles, para isso click com o botão direito no primeiro componente tFileInputDelimited na tela de pop up, va na opção rowmain.

Agora vamos ligar o componente tSortRow ao componente tFileOutputDelimited, usando o mesmo método usado anteriormente.

Depois de ligar os componentes, devemos configurar a ordenação dos dados de saída, então de um click duplo no componente tSortRow, e crie duas colunas de ordenação, idState e id, como na imagem abaixo.

O Job está praticamente pronto, porem como nosso objetivo é substituir o arquivo existente e não criar um novo, vamos inserir mais um componente para isso.

Substituição do arquivo.

Para substituir o arquivo de origem insira o componente tFileCopy e faça a ligação do componente tFileInputDelimited com ele. Porem essa ligação vai ser feita com outro conector, o conector trigger com o OnSubjobOk.

De um click duplo no componente tFileCopy para configurar o componente.

Essas configurações permitem substituir o arquivo fonte pelo arquivo tratado, configure como na imagem abaixo;

File Name: Informar o local do arquivo Temp.cvs

Diretório de destino: Informar o diretório onde ficar o arquivo customer.csv

Nome do arquivo de destino: coloque o customer.csv

Pressione Ctrl + S para salvar. Depois pressione F6 para executá-lo. A exibição de execução é exibida na parte inferior do talend

O Job está funcionando, e tem duas tarefas básicas, ordenar um arquivo e gerar um temporário e substituir o arquivo fonte pelo temporário.

Como uma boa pratica, vamos documentar os componentes do Job, click na área azul do componente coloque a função do componente.

Se olhar o arquivo customer,csv vai perceber que a ordenação dos dados mudou, os campos usados ordenação nesse arquivo, foram de exemplo, aconselho mudar a ordenação e observar a mudança no aquivo.

Para mais tutoriais acesse o site: https://www.tutorpro.com.br/

BY Alexandre Menezes, Analista de Business Intelligence

© Cetax Consultoria 2016

Sair da versão mobile