Pentaho Data Integration - Conceitos básicos

Com um ambiente de design intuitivo, gráfico e de arrastar e soltar o Pentaho Data Integration (PDI, também chamado Kettle) é um componente da suíte do Pentaho responsável pelos processos de Extração, Transformação e Carga (ETL).  Embora as ferramentas ETL sejam usadas com mais frequência em ambientes de armazenamento de dados, o PDI também pode ser usado para outras finalidades:

  • Migrando dados entre aplicativos ou bancos de dados
  • Exportando dados de bancos de dados para arquivos simples
  • Carregando dados massivamente em bancos de dados
  • Limpeza de dados
  • Integração de aplicativos

O PDI é formado por duas categorias de fluxo de trabalho (transformações e Jobs) e estes fluxos de trabalho são desenvolvidos utilizando etapas (steps) unidos por saltos (hops), que passam dados de um item para o próximo.  Estes fluxos de trabalho são construídos por meio de sua inteface gráfica denominada Spoon.  A seguir, apresento a inteface do Spoon.


Transformações: É uma rede de tarefas lógicas chamadas etapas (steps), as transformações são essencialmente fluxos de dados.  É a transformação que opera sobre os dados. 
Cito abaixo algumas funções que podem ser utilizadas em uma trasformação
  • Ler dados de uma ou mais tabelas de um banco de dados
  • Pode ser feito a seleção de campos específicos
  • Concatenação de dados 
  • Dividir valores de um único campo em dois ou mais campos ou linhas
  • Aplicar expressões regulares
  • Merge de dados de tabelas contidas no mesmo banco de dados ou de banco de dados diferentes
Os dois componentes principais associados às transformações são etapas e saltos:
  • As etapas (steps): são os blocos de construção de uma transformação, por exemplo, uma entrada de arquivo de texto ou uma saída de tabela. Existem muitos passos disponíveis no Pentaho Data Integration e eles são agrupados de acordo com a função; por exemplo, entrada, saída, script e assim por diante. Cada etapa de uma transformação é projetada para executar uma tarefa específica, como ler dados de um arquivo simples, filtrar linhas e registrar em um banco de dados, conforme mostrado no exemplo acima. Você pode adicionar uma etapa arrastando-a da guia Design para a tela ou clicando duas vezes na etapa. As etapas podem ser configuradas para executar as tarefas de que você precisa.
  • Os saltos (hops): são caminhos de dados que conectam as etapas e permitem que os metadados do esquema passem de uma etapa para outra. Os saltos determinam o fluxo de dados por meio das etapas, não necessariamente a sequência em que são executados.

Jobs: São sequências de operações, eles coordenam a execuções de diversas transformações.  
Com o uso do jobs podemos:
  • Obter arquivos de um FTP
  • Verificar as condições como existência de uma tabela de um banco de dados
  • Executar uma transformação
  • Enviar e-mail
O Spoon é apenas a interface gráfica para criar os fluxos de trabalho, porém ele não serve para a execução em ambientes de produção, para isso são utilizados outros programas, que podem ser operados em linha comando, sem a necessidade de utilizar um interface gráfica.

Pan: É o programa que executa as transformações, geralmente as transformações executadas pelo Pan são executadas em modo batch, para poderem ser executadas automaticamente

Kitchen: É o programa que executa os jobs, tal qual o Pan o Kitchen é executado em modo batch, sendo assim também podem ser executados automaticamente.

O conjunto de ferramentas Spoon, Pan e Kitchen são responsáveis pela criação e execução de fluxos de de tabalhos, criados para solucionar um problema.

Fonte:
  • https://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+%28Kettle%29+Tutorial
  • https://help.pentaho.com/Documentation/9.1/Products/Pentaho_Data_Integration

Comentários

Postagens mais visitadas