Mas afinal, o que é Big Data?

Uma das mais respeitadas empresas de consultoria em tecnologia do mundo (Gartner), descreve Big Data como:

“Informação em alto volume, velocidade e variedade, que por sua vez demanda formas inovadoras de processamento de informação, permitindo melhores insights, tomadas de decisão e automação de processos”.

Muitos especialistas da área utilizam esta mesma definição (e realmente ela é muito boa!), mas de fácil compreensão apenas para quem já tem certo conhecimento em TI, não para os que não são da área, ou estão recém começando.

Como, então, poderíamos explicar este conceito de uma maneira menos complicada?

No começo de minha especialização em Big Data, era comum os conhecidos me perguntarem sobre o curso e do que ele se tratava. Simplesmente eu citar a definição de Gartner não os ajudava muito, era necessário algo tão objetivo quanto, porém mais simples, mais didático, e de melhor compreensão.

Para chegar nesta explicação para uma melhor compreensão dos ditos ‘leigos’ no assunto, vamos tentar, primeiramente, entender a definição apresentada, analisando cada sentença separadamente.

“Informação em alto volume, velocidade e variedade” – É necessário que os dados existam em grande quantidade, sendo gerados rapidamente e com tipos variados.

Com relação aos tipos variados é simples: podemos ter dados cadastrais de uma pessoa, com RG e telefone, por exemplo; ou uma foto, um texto escrito por ela, sua localização, e por aí vai… Em cada situação, teremos um tipo de dado específico, e se trabalharmos com eles simultaneamente, estaremos lidando com uma variedade de dados.

Mas quando falamos em grande volume e velocidade, como dimensionar isso para alguém que não está habituado com análise de dados?

Na realidade, sequer é possível uma separação exata, onde dizemos que x volume de dados não é Big Data, e x + 1 é; ou se temos uma nova informação a cada hora, não temos um cenário de Big Data, mas se temos uma nova informação por segundo, sim.

Desta forma, acredito que as definições de tamanho e velocidade não são as melhores para alguém que não lida com TI, uma vez que, até mesmo quem lida não chega a um consenso. Precisamos, portanto, de algo mais objetivo e, para isso, vamos à próxima sentença.

“que por sua vez demanda formas inovadoras de processamento de informação” – Se no momento que os dados estão sendo armazenados, as soluções tradicionais dão conta do recado, é bem possível que não estejamos falando de Big Data.

Podemos fazer a seguinte analogia: você possui algumas músicas em seu computador que estão muito bem armazenadas, cada uma em sua respectiva pasta; sendo que, facilmente, você localiza a música que quiser.

Porém, agora você precisa armazenar todas as músicas lançadas na última década. Este seu computador teria capacidade? Qual o número de pastas a serem criadas? Seria fácil encontrar uma em específico?

Fica evidente que a solução que conhecemos para armazenamento não atenderia a demanda. O mesmo acontece com o Big Data.

Se uma empresa armazena seus dados de maneira tradicional, é provável que ainda não estejamos falando em Big Data, pois para isto acontecer, seriam necessárias inovações no armazenamento e processamento dos dados.

O mesmo se aplica à velocidade: se antes eu recebia uma nova música por dia, agora terei uma por segundo, sendo necessária uma nova forma de distribuição.

“melhores insights, tomadas de decisão e automação de processos” – Aqui está o nosso objetivo, afinal, ninguém guarda dados (principalmente com grande complexidade) se não houver um objetivo para isto.

E no caso do Big Data, o foco está na tomada de decisão mais assertiva.

Não existem palpites, afinal de contas, temos informação suficiente para tomar a melhor decisão que os números podem fornecer, e para isso precisamos dos melhores modelos de análise de dados.

E o que melhor para decidir como agir no amanhã do que saber como o amanhã será?

Suponhamos que você seja um motorista de um aplicativo como a Uber, e passou o dia trabalhando em uma cidade onde obteve 30 corridas. Na cidade ao lado, entretanto, os motoristas tiveram, em média, 60 corridas.

O que você faria se soubesse, hoje, que amanhã este fato iria se repetir? Obviamente iria para a cidade com mais corridas e trabalharia por lá.

Na realidade, é isso o que a análise de dados do Big Data faz: prevê o que vai acontecer amanhã, com base nos dados passados, para uma melhor tomada de decisão hoje.

Entendido o conceito, vamos reescrevê-lo de maneira mais amigável, possibilitando que de forma simples possamos explicar para qualquer pessoa este tema complexo:

Definição objetiva de Big Data

“Big Data são dados de tipos diferentes que precisam de soluções inovadoras para seu armazenamento, devido a seu grande volume e velocidade de criação, sendo que através destes dados – utilizando técnicas sofisticadas de análise – podemos fazer previsões para melhor tomada de decisão”. (Cainã Lopes – Cientista de Dados)

Como estudar Big Data?

O estudo do Big Data envolve diferentes campos, desde infraestrutura até inteligência artificial.

Alguns frameworks de computação distribuída voltada para grandes volumes de dados são o Hadoop e o ApacheSpark.

Mas antes de partir para esses frameworks, o ideal é que o aluno tenha uma boa noção sobre tratamento dos dados e modelos de machine learning, afinal a manipulação de big data só faz sentido se informações úteis forem extraídas.

Se você deseja iniciar nesse ramo, comece por esse curso, que abrange desde conceitos iniciais de inteligência artificial, até manipulação de datasets e algoritmos de machine learning.