Para se conhecer melhor a ciência de dados, é fundamental que se conheça com mais profundidade os próprios dados, que são, na verdade, a essência da área, e podem ser vistos como Dados estruturados e Não estruturados.
Dados estruturados x Dados não estruturados
Os Dados estruturados, como o próprio nome sugere, possuem uma estrutura definida, e estão devidamente organizados, seguindo regras rígidas pré-estabelecidas; sendo que para que um novo dado seja inserido, ele deverá se enquadrar nos critérios já estipulados.
Este tipo de estrutura é muito utilizado no Business Intelligence (Inteligência de Negócios), normalmente para análises do passado, daquilo que já aconteceu, bem o modo como isso se deu, e também na ciência de dados, através do machine learning (aprendizado de máquina), na previsão do que ainda não sabemos.
Como exemplo, podemos citar as informações (dados) de alunos de uma determinada escola. Imagine que iremos armazenar as seguintes informações: nome, idade, sexo e nota. Para cada campo, teremos critérios: o nome deve conter apenas letras, a idade apenas números inteiros, o sexo será uma opção entre “M” e “F”, e a nota, valores decimais entre 0 e 10.
Os Dados não estruturados, ao contrário, não possuem estrutura definida, e podem existir em diferentes formatos, sem sabermos o que existirá em cada um. Vídeos, áudios, postagens em redes sociais, usufruindo de toda capacidade do Big Data, que veremos em mais detalhes na sequência. Esta estrutura é muito utilizada na ciência de dados.
Os dados podem, ainda, em casos mais específicos, ser semiestruturados; ou seja, existe uma estrutura a ser seguida, mas sem um formato específico.
Não são apenas empresas que geram dados não estruturados. Pois cada indivíduo que utiliza a internet também se torna responsável pela criação desses dados. Diariamente, geramos uma quantidade expressiva de dados, seja dando uma opinião no Reclame Aqui, escrevendo um texto para a faculdade, ou fazendo uma postagem qualquer em alguma rede social; podendo, também, existir imagens, áudios e vídeos em cada uma dessas situações.
Analisando superficialmente, percebemos que por mais que exista uma grande quantidade de dados estruturados armazenados nas empresas, quando comparamos com a quantidade de dados não estruturados gerados diariamente no mundo, a estimativa apontada anteriormente parece correta.
Big Data
Big Data é descrito por uma das mais respeitadas empresas de consultoria em tecnologia do mundo (Gartner), como “informação em alto volume, velocidade e variedade, que por sua vez demanda formas inovadoras de processamento de informação, permitindo melhores insights, tomadas de decisão e automação de processos.”.
Mas, apesar de muito boa, e mesmo sendo usada por muitos especialistas, esta definição não é facilmente compreendida pelos que não são da área, ou estão recém se achegando a ela.
Para se chegar a uma explicação que até os ‘leigos’ compreendam efetivamente, é preciso em primeiro lugar, ao nosso ver, analisar as sentenças separadamente.
“Informação em alto volume, velocidade e variedade” – É necessário que os dados existam em grande quantidade, sendo gerados rapidamente e com tipos variados.
Mas como dimensionar isso para alguém que não está habituado com análise de dados? Na realidade, sequer é possível uma separação exata, onde dizemos que x volume de dados não é Big Data, e x + 1 é; ou se temos uma nova informação a cada hora, não temos um cenário de Big Data, mas se temos uma nova informação por segundo, sim.
Desta forma, as definições de tamanho e velocidade não são as melhores para alguém que não lida com TI, uma vez que, até mesmo quem lida não chega a um consenso. Precisamos, portanto, de algo mais objetivo e, para isso, vamos à próxima sentença.
“que por sua vez demanda formas inovadoras de processamento de informação” – Se no momento que os dados estão sendo armazenados, as soluções tradicionais dão conta do recado, é bem possível que não estejamos falando de Big Data.
Se uma empresa armazena seus dados de maneira tradicional, é provável que ainda não estejamos falando em Big Data, pois para isto acontecer, seriam necessárias inovações no armazenamento e processamento dos dados. O mesmo se aplica à velocidade.
“melhores insights, tomadas de decisão e automação de processos” – Aqui está a chave, afinal, ninguém guarda dados (principalmente os mais complexos) sem um objetivo para isto. E no caso do Big Data, o foco está na tomada de decisão mais assertiva.
E o que melhor para decidir como agir no amanhã do que saber como o amanhã será? Na realidade, é isso o que a análise de dados do Big Data faz: prevê o que vai acontecer amanhã, com base nos dados passados, para uma melhor tomada de decisão hoje.
Poderíamos, então, reescrever o conceito acima da seguinte maneira:
“Big Data são dados de tipos diferentes, que precisam de soluções inovadoras para seu armazenamento, devido a seu grande volume e velocidade de criação, sendo que através destes dados – utilizando técnicas sofisticadas de análise –, podemos fazer previsões para melhor tomada de decisão”.
Desse modo, pensamos e esperamos que qualquer pessoa possa compreender de forma simples esse tema tão complexo.
Machine Learning
Conforme mencionamos, atualmente um dos principais objetivos ao se utilizar dados está na previsão do futuro através do machine learning. Por mais que esta seja uma das principais áreas na ciência atual, o aprendizado de máquina é simples de ser estudo e praticado.
Com foco na didática, de maneira simples e objetiva criamos o curso Introdução a Machine Leaning, completamente gratuito, onde você poderá dar seus primeiros passos para entender e aplicar esta tecnologia.
Se você quer se tornar um profissional de machine learning e ciência de dados, conheça todos os nossos cursos nesta página. São cursos que abordam conceitos complexos de maneira descomplicada, prezando sempre pelo entendimento do aluno, com opções gratuitas e cursos completos.
Leia também: