Escrito por Tomaz Lanfredi Lago,

4 minutos de leitura

Engenheiro de dados: por que esse profissional é tão relevante em um projeto de Data Science?

O engenheiro de dados tem foco em construir pipelines que forneçam informações de qualidade prontas para análise, propiciando o uso inteligente de dados.

Compartilhe este post:

Quando digo que sou um engenheiro de dados ao me apresentar para as pessoas, normalmente, tenho que explicar na sequência o que eu faço. Muitas vezes, eu desisto e digo que sou um desenvolvedor; isso facilita muito, mas não é totalmente verdadeiro.

Porém, eu me espanto ao ter que explicar o que faço para pessoas da tecnologia, pois é muito comum confundirem minha profissão com cientista de dados, arquiteto de dados e até administrador de bancos de dados. Fica ainda pior a confusão quando falo que sou especialista em processamento de dados usando cloud computing.

Para você não ficar decepcionado ao iniciar a leitura deste artigo, pretendo deixar bem claro o que faz um engenheiro de dados. A Gartner Consultoria tem uma definição que julgo praticamente perfeita sobre qual é o papel da engenharia de dados dentro do universo de tecnologia:

“The primary responsibility of data engineers is to build data pipelines that would provision quality data ready for analysis. Building data pipelines often requires multiple iterations. This often involves enrichment and integration of input datasets, which is done in order to build a meaningful data input in support of the model development. It requires a strong focus on data integration, modeling, optimization, quality, governance and security.”

(Em tradução livre: “A principal responsabilidade dos engenheiros de dados é a de construir pipelines de dados que fornecem informações de qualidade prontas para análise. A construção de pipelines de dados geralmente exige múltiplas iterações. Isso envolve o enriquecimento e a integração de datasets, o que é feito para construir uma entrada de dados significativa em apoio ao desenvolvimento do modelo. Requer um forte foco na integração, modelagem, otimização, qualidade, governança e segurança de dados.”)

Agora que temos a definição de uma fonte confiável, quero destacar e explicar um pouco melhor quatro pontos que considero principais desta definição:

Build data pipelines

O famoso ETL (extract, transform and load) é um exemplo claro de um pipeline de dados. A diferença é que, muitas vezes, não precisaremos transformar os dados, apenas extrair de um local e inserir o outro. Um pipeline de dados é o conjunto de um fluxo de operações sobre o dado, que segue uma ordem específica e tem condições e decisões definidas. Geralmente, temos que inserir os dados em um novo repositório, combinando diversos dados de diferentes fontes, o que nos leva ao próximo highlight.

 

Enrichment and integration of input datasets

Enriquecer os dados que estão sendo integrados significa melhorar e/ou criar informações inteligentes dentro desses datasets. Esse enriquecimento do dado pode acontecer por meio de informações complementares contidas em diferentes fontes ou até mesmo executando algoritmos de machine learning, como os de clusterização ou de classificação, para categorizar os dados que estão sendo processados. Porém, ao cruzar informações de diferentes origens e, também, ao fazer tratamentos e transformações dos dados, temos que garantir o nosso próximo tópico.

Quality data ready for analysis

Veja bem, sempre descrevo o repositório final como um repositório, não como um banco de dados ou alguma estrutura específica de dados. Faço isso porque podemos ter um ou mais endpoints para o nosso pipeline de dados – e, não importa o endpoint, a informação contida neles deve ser de qualidade, consistente para análise e para consumo dos usuários ou aplicações.

Strong focus on data integration, modeling, optimization, quality, governance and security

Este último item que destaquei da descrição sobre engenharia de dados da Gartner, basicamente, é o resumo de todas as operações que são foco do engenheiro de dados. O trabalho de integração de dados pode ser o seu core, tendo a tarefa de construção de data pipelines como a principal. Porém, o engenheiro de dados precisa ter um ótimo conhecimento em modelagem de dados, otimização (tanto de dados quanto em software), qualidade de dados, governança dos dados e, enfim, dos níveis de segurança e acessos atribuídos ao dado.

Seguro, agora, da entrega de um engenheiro de dados? Você pode seguir lendo sobre data em meu outro artigo, Estratégias de arquiteturas e migração para Cloud: como escolher a certa?

Compartilhe este post: