Setembro 28, 2019

O que é Ciência de Dados (data science)?

Podemos entender Ciência de Dados como a área responsável por transformar dados em informação. Os dados brutos não costumam nos trazer grandes informações, e por mais que existam muitos dados sobre determinado assunto, sem uma análise dificilmente alguma informação útil será extraída.

data science

Simplificando com um exemplo prático

Para entender melhor esta ideia, imagine que você realiza todas as suas compras com o cartão de crédito e todos os meses você recebe a fatura do cartão contendo dados de cada uma das compras do período e seu somatório. Se você não realizar nenhum tipo de análise nesses dados, eles não terão significado algum, servindo apenas para lhe informar o valor que você deve ao banco, devido às compras que realizou.

Acontece que nessa simples relação de compras existe muita informação, e informação de qualidade, capaz de trazer revelações sobre você, e mais ainda, até prever o seu comportamento futuro. Espere um pouco, prever o futuro? Como assim?

previsao do futuro

Quando vemos alguém falando em previsões de algo que ainda não aconteceu, é comum imaginarmos algo mágico, sobrenatural ou um simples achismo. Mas não é nada disso! Estamos falando da boa e velha matemática sendo aplicada através do machine learning. Ou seja, serão realizados cálculos com bases nos dados apresentados afim de concluir algo sobre o que não sabemos.

Obviamente, pode ser que a previsão não acerte, portanto sempre existirá uma “probabilidade” do resultado da previsão se confirmar ou não.

Voltando ao nosso exemplo, ao analisar a fatura do último mês, digamos que você observa compras na pizzaria ABC em todas as noites de sexta-feira, pois você tem o hábito de comer pizzas nas sextas. Para você, essa informação não tem tanta relevância, afinal você já sabe disso. Porém seu banco não sabe, ou melhor, não sabia até utilizar data science. Agora ele tem essa informação, que – após analisada – poderá indicar o seu hábito, e ainda prever a probabilidade de na próxima sexta-feira você comprar pizza novamente.

Você pode ainda analisar todos os seus gastos no ano e perceber que, por mais que você goste de sua pizza na sexta à noite, ela vem tomando uma fatia maior do seu orçamento do que deveria. Essa simples análise do passado lhe deu conhecimento para tomar uma decisão e mudar um hábito, agora a pizza será a cada 15 dias, não mais a cada 7.

É só isso?

Talvez você esteja achando este exemplo trivial, e é bem provável que ele realmente seja. Mas extrapole essa ideia para outras situações, qualquer uma que possa ser registrada. Percebe o quão importante a ciência de dados é atualmente? Principalmente impulsionada pelo Big Data, que acaba registrando muito do que fazemos e do que não fazemos (quantas compras online você deixa de realizar após algumas pesquisas?).

A ciência de dados pode nos auxiliar em questões triviais como exemplificamos, mas vai muito além disso, podendo até indicar com boa precisão se uma pessoa terá ou não determinada doença, e assim obter o tratamento com antecedência capaz de livrar a pessoa da doença. Ou mesmo simplesmente dizer que um caminho na estrada está 30 minutos mais lento, sugerindo outro, fazendo você economizar bastante tempo devido ao trânsito existente na região.

Dados estruturados x Dados não estruturados

Os dados são a essência da ciência de dados; portanto, para conhecer melhor a área é fundamental conhecermos um pouco mais sobre eles.

  • Dados estruturados – possuem uma estrutura definida. Todos os dados estão devidamente organizados seguindo regras rígidas pré-estabelecidas. Para que um novo dado seja inserido, ele deverá se enquadrar nos critérios estabelecidos.
dados estruturados
Dados Estruturados

Exemplo: dados de alunos de uma escola. Imagine que iremos armazenar as seguintes informações: nome, idade, sexo e nota. Para cada campo, teremos critérios. O nome deve conter apenas letras, a idade apenas números inteiros, o sexo será uma opção entre “M” e “F” e a nota valores decimais entre 0 e 100.

  • Dados não estruturados – não possuem uma estrutura definida. Os dados podem existir em diferentes formatos e não sabemos o que existirá em cada dado.
dados não estruturados
Dados não estruturados (bagunçados)

Exemplos: textos, vídeos, imagens, redes sociais.

Ainda há casos mais específicos onde os dados podem ser semi-estruturados, existindo assim uma estrutura a ser seguida, mas sem um formato específico.

Estimativas apontam que mais de 80% dos dados gerados atualmente no mundo são não estruturados. E realmente essa estimativa parece coerente. A grande maioria dos dados estruturados é armazenada por empresas nos seus bancos de dados relacionais (onde o armazenamento de dados estruturados acontece). Esses dados podem ser registros (logs) de acessos de clientes, dados cadastrais, informações de vendas, etc.

Mas se você pensa que apenas empresas geram dados não estruturados, saiba que cada indivíduo que utiliza a internet também é responsável pela criação desses dados. Diariamente, geramos uma quantidade expressiva de dados, seja escrevendo um texto para faculdade, uma opinião no Reclame Aqui, ou uma postagem em alguma rede social, podendo existir imagens, áudios e vídeos em cada uma dessas situações.

Engenharia de Dados

Sem a engenharia de dados, a ciência de dados não existiria. Ela é responsável por garantir que os dados estejam disponíveis para utilização, sejam eles estruturados ou não, e esta não é uma tarefa simples. Para que análises possam acontecer, a estrutura é fundamental, sendo necessário muito trabalho para viabilizar a utilização conjunta dos dados estruturados com os não estruturados.

Existem ainda muitos fatores relacionados à infraestrutura necessária para que a ciência de dados possa ser utilizada em larga escala (não podemos esquecer que cada um de nós pode utilizar todo potencial da ciência de dados a partir de nossas casas).

Ferramentas para aplicação de Data Science

Para realizar as análises existentes na ciência de dados, precisaremos utilizar uma ou mais ferramentas. Existem muitas opções, e normalmente a escolha de qual utilizar passa por questões como capacidade de resolver o problema, domínio da ferramenta pelos profissionais envolvidos, custo e segurança.

ferramentas

Seguem algumas das principais ferramentas utilizadas:

Linguagens de programação Python e R.

Softwares SPSS e SAS.

Softwares Microsoft Power BI, Tableau e QlikView (estas são ferramentas de Business Intelligence que vem recebendo atualizações para sua utilização na ciência de dados).

Inteligência Artificial e Machine Learning

Atualmente, uma das grandes tecnologias utilizadas pela ciência de dados é o Machine Learning (ou Aprendizado de Máquina), que faz parte da inteligência artificial, possibilitando que as previsões aconteçam com alto grau de precisão. E por mais complexa que essa ferramenta possa parecer, ela está ao alcance de todos, e podemos iniciar esse aprendizado sem custo algum, apenas com um simples computador. Para isso, basta querer aprender.

Focando principalmente na simplicidade e didática, montamos o curso Introdução a Machine Learning, totalmente gratuito, que irá fornecer os primeiros passos para realmente compreender e dominar esta fascinante tecnologia.

Continuando…

Como você deve ter percebido, a transformação dos dados em informação envolve muitos conceitos. As análises são complexas, envolvendo diferentes tipos de dados e tecnologias, levando a grandes diferenças para análises estatísticas tradicionais. Para dominar essa área, é fundamental que você continue sempre estudando e atualizando seus conhecimentos.

Você pode conhecer todos os nossos cursos nessa página. Aproveite, pois dificilmente você irá encontrar um material tão detalhado e explicativo.

Para dar continuidade ao assunto de data science, leia o artigo: