Pentaho Data Integration - Conceitos básicos
Com um ambiente de design intuitivo, gráfico e de arrastar e soltar o Pentaho Data Integration (PDI, também chamado Kettle) é um componente da suíte do Pentaho responsável pelos processos de Extração, Transformação e Carga (ETL). Embora as ferramentas ETL sejam usadas com mais frequência em ambientes de armazenamento de dados, o PDI também pode ser usado para outras finalidades:
- Migrando dados entre aplicativos ou bancos de dados
- Exportando dados de bancos de dados para arquivos simples
- Carregando dados massivamente em bancos de dados
- Limpeza de dados
- Integração de aplicativos
O PDI é formado por duas categorias de fluxo de trabalho (transformações e Jobs) e estes fluxos de trabalho são desenvolvidos utilizando etapas (steps) unidos por saltos (hops), que passam dados de um item para o próximo. Estes fluxos de trabalho são construídos por meio de sua inteface gráfica denominada Spoon. A seguir, apresento a inteface do Spoon.
Transformações: É uma rede de tarefas lógicas chamadas etapas (steps), as transformações são essencialmente fluxos de dados. É a transformação que opera sobre os dados.
Cito abaixo algumas funções que podem ser utilizadas em uma trasformação
- Ler dados de uma ou mais tabelas de um banco de dados
- Pode ser feito a seleção de campos específicos
- Concatenação de dados
- Dividir valores de um único campo em dois ou mais campos ou linhas
- Aplicar expressões regulares
- Merge de dados de tabelas contidas no mesmo banco de dados ou de banco de dados diferentes
Os dois componentes principais associados às transformações são etapas e saltos:
- As etapas (steps): são os blocos de construção de uma transformação, por exemplo, uma entrada de arquivo de texto ou uma saída de tabela. Existem muitos passos disponíveis no Pentaho Data Integration e eles são agrupados de acordo com a função; por exemplo, entrada, saída, script e assim por diante. Cada etapa de uma transformação é projetada para executar uma tarefa específica, como ler dados de um arquivo simples, filtrar linhas e registrar em um banco de dados, conforme mostrado no exemplo acima. Você pode adicionar uma etapa arrastando-a da guia Design para a tela ou clicando duas vezes na etapa. As etapas podem ser configuradas para executar as tarefas de que você precisa.
- Os saltos (hops): são caminhos de dados que conectam as etapas e permitem que os metadados do esquema passem de uma etapa para outra. Os saltos determinam o fluxo de dados por meio das etapas, não necessariamente a sequência em que são executados.
Jobs: São sequências de operações, eles coordenam a execuções de diversas transformações.
Com o uso do jobs podemos:
- Obter arquivos de um FTP
- Verificar as condições como existência de uma tabela de um banco de dados
- Executar uma transformação
- Enviar e-mail
O Spoon é apenas a interface gráfica para criar os fluxos de trabalho, porém ele não serve para a execução em ambientes de produção, para isso são utilizados outros programas, que podem ser operados em linha comando, sem a necessidade de utilizar um interface gráfica.
Pan: É o programa que executa as transformações, geralmente as transformações executadas pelo Pan são executadas em modo batch, para poderem ser executadas automaticamente
Kitchen: É o programa que executa os jobs, tal qual o Pan o Kitchen é executado em modo batch, sendo assim também podem ser executados automaticamente.
O conjunto de ferramentas Spoon, Pan e Kitchen são responsáveis pela criação e execução de fluxos de de tabalhos, criados para solucionar um problema.
Fonte:
- https://wiki.pentaho.com/display/EAI/Pentaho+Data+Integration+%28Kettle%29+Tutorial
- https://help.pentaho.com/Documentation/9.1/Products/Pentaho_Data_Integration
Comentários
Postar um comentário