O que é Ciência de Dados (data science)?

Podemos entender Ciência de Dados como a área responsável por transformar dados em informação.

Os dados brutos não costumam nos trazer grandes informações, e por mais que existam muitos dados sobre determinado assunto, sem uma análise dificilmente alguma informação útil será extraída.

data science - dados se encaixando

Simplificando com um exemplo prático

Para entender melhor esta ideia, imagine que você realiza todas as suas compras com o cartão de crédito e todos os meses você recebe a fatura do cartão contendo dados de cada uma das compras do período e seu somatório.

Se você não realizar nenhum tipo de análise nesses dados, eles não terão significado algum, servindo apenas para lhe informar o valor que você deve ao banco, devido às compras que realizou.

Acontece que nessa simples relação de compras existe muita informação, e informação de qualidade, capaz de trazer revelações sobre você, e mais ainda, até prever o seu comportamento futuro. Espere um pouco, prever o futuro? Como assim?

previsao do futuroQuando vemos alguém falando em previsões de algo que ainda não aconteceu, é comum imaginarmos algo mágico, sobrenatural ou um simples achismo.

Mas não é nada disso! Estamos falando da boa e velha matemática sendo aplicada através do machine learning. Ou seja, serão realizados cálculos com bases nos dados apresentados a fim de concluir algo sobre o que não sabemos.

Obviamente, pode ser que a previsão não acerte, portanto sempre existirá uma “probabilidade” do resultado da previsão se confirmar ou não.

Voltando ao nosso exemplo, ao analisar a fatura do último mês, digamos que você observa compras na pizzaria ABC em todas as noites de sexta-feira, pois você tem o hábito de comer pizzas nas sextas.

Para você, essa informação não tem tanta relevância, afinal você já sabe disso. Porém seu banco não sabe, ou melhor, não sabia até utilizar data science.

Agora ele tem essa informação, que – após analisada – poderá indicar o seu hábito, e ainda prever a probabilidade de na próxima sexta-feira você comprar pizza novamente.

Você pode ainda analisar todos os seus gastos no ano e perceber que, por mais que você goste de sua pizza na sexta à noite, ela vem tomando uma fatia maior do seu orçamento do que deveria.

Essa simples análise do passado lhe deu conhecimento para tomar uma decisão e mudar um hábito, agora a pizza será a cada 15 dias, não mais a cada 7.

É só isso?

Talvez você esteja achando este exemplo trivial, e é bem provável que ele realmente seja. Mas extrapole essa ideia para outras situações, qualquer uma que possa ser registrada.

Percebe o quão importante a ciência de dados é atualmente? Principalmente impulsionada pelo Big Data, que acaba registrando muito do que fazemos e do que não fazemos (quantas compras online você deixa de realizar após algumas pesquisas?).

A ciência de dados pode nos auxiliar em questões triviais como exemplificamos, mas vai muito além disso, podendo até indicar com boa precisão se uma pessoa terá ou não determinada doença, e assim obter o tratamento com antecedência capaz de livrar a pessoa da doença.

Ou mesmo simplesmente dizer que um caminho na estrada está 30 minutos mais lento, sugerindo outro, fazendo você economizar bastante tempo devido ao trânsito existente na região.

Dados estruturados x Dados não estruturados

Os dados são a essência da ciência de dados; portanto, para conhecer melhor a área é fundamental conhecermos um pouco mais sobre eles.

  • Dados estruturados – possuem uma estrutura definida. Todos os dados estão devidamente organizados seguindo regras rígidas pré-estabelecidas. Para que um novo dado seja inserido, ele deverá se enquadrar nos critérios estabelecidos.

dados estruturados - ilustração

Dados Estruturados

Exemplo: dados de alunos de uma escola. Imagine que iremos armazenar as seguintes informações: nome, idade, sexo e nota. Para cada campo, teremos critérios. O nome deve conter apenas letras, a idade apenas números inteiros, o sexo será uma opção entre “M” e “F” e a nota valores decimais entre 0 e 100.

  • Dados não estruturados – não possuem uma estrutura definida. Os dados podem existir em diferentes formatos e não sabemos o que existirá em cada dado.

dados não estruturados - bagunça

Dados não estruturados (bagunçados)

Exemplos: textos, vídeos, imagens, redes sociais.

Ainda há casos mais específicos onde os dados podem ser semi-estruturados, existindo assim uma estrutura a ser seguida, mas sem um formato específico.

Estimativas apontam que mais de 80% dos dados gerados atualmente no mundo são não estruturados. E realmente essa estimativa parece coerente.

A grande maioria dos dados estruturados é armazenada por empresas nos seus bancos de dados relacionais (onde o armazenamento de dados estruturados acontece). Esses dados podem ser registros (logs) de acessos de clientes, dados cadastrais, informações de vendas, etc.

Mas se você pensa que apenas empresas geram dados não estruturados, saiba que cada indivíduo que utiliza a internet também é responsável pela criação desses dados.

Diariamente, geramos uma quantidade expressiva de dados, seja escrevendo um texto para faculdade, uma opinião no Reclame Aqui, ou uma postagem em alguma rede social, podendo existir imagens, áudios e vídeos em cada uma dessas situações.

Engenharia de Dados

Sem a engenharia de dados, a ciência de dados não existiria. Ela é responsável por garantir que os dados estejam disponíveis para utilização, sejam eles estruturados ou não, e esta não é uma tarefa simples.

Para que análises possam acontecer, a estrutura é fundamental, sendo necessário muito trabalho para viabilizar a utilização conjunta dos dados estruturados com os não estruturados.

Existem ainda muitos fatores relacionados à infraestrutura necessária para que a ciência de dados possa ser utilizada em larga escala (não podemos esquecer que cada um de nós pode utilizar todo potencial da ciência de dados a partir de nossas casas).

Ferramentas para aplicação de Data Science

Para realizar as análises existentes na ciência de dados, precisaremos utilizar uma ou mais ferramentas.

Existem muitas opções, e normalmente a escolha de qual utilizar passa por questões como capacidade de resolver o problema, domínio da ferramenta pelos profissionais envolvidos, custo e segurança.

ferramentas - conceito de ter diferentes utensílios à disposição

Seguem algumas das principais ferramentas utilizadas:

Linguagens de programação Python e R.

Softwares SPSS e SAS.

Softwares Microsoft Power BI, Tableau e QlikView (estas são ferramentas de Business Intelligence que vem recebendo atualizações para sua utilização na ciência de dados).

Inteligência Artificial e Machine Learning

Atualmente, uma das grandes tecnologias utilizadas pela ciência de dados é o Machine Learning (ou Aprendizado de Máquina), que faz parte da inteligência artificial, possibilitando que as previsões aconteçam com alto grau de precisão.

E por mais complexa que essa ferramenta possa parecer, ela está ao alcance de todos, e podemos iniciar esse aprendizado sem custo algum, apenas com um simples computador. Para isso, basta querer aprender.

Focando principalmente na simplicidade e didática, montamos o curso Introdução a Machine Learning, totalmente gratuito, que irá fornecer os primeiros passos para realmente compreender e dominar esta fascinante tecnologia.

Como estudar ciência de dados

Para obter o máximo de eficiência no aprendizado de ciência de dados, o ideal é que você estude conceitos teóricos juntamente com a prática.

Primeiro você absorve a teoria sobre um assunto, aprende a matemática envolvida e, logo em seguida, utiliza ferramentas de programação para aplicar aqueles conceitos. 

Esse método é melhor do que estudar toneladas de assuntos de matemáticas desconexos da ciência de dados, pois quando você aprende a matemática juntamente com a aplicação, tudo fica mais claro. 

É exatamente essa metodologia que seguimos em nossos cursos. Se você realmente quer levar a sério o estudo de ciência de dados, comece com esse curso, pois ali ensinamos desde os conceitos iniciais de machine learning até aplicações práticas com algoritmos. Este curso é ministrado com linguagem Python, mas você também pode optar por realizar o mesmo curso utilizando linguagem R se preferir.

Caso você não queira se aprofundar tanto nas teorias e tem mais interesse apenas na parte visual, recomendamos o curso de Power BI com machine learning.

Como você deve ter percebido, a transformação dos dados em informação envolve muitos conceitos.

As análises são complexas, envolvendo diferentes tipos de dados e tecnologias, levando a grandes diferenças para análises estatísticas tradicionais.

Para dominar essa área, é fundamental que você continue sempre estudando e atualizando seus conhecimentos.

Você pode conhecer todos os nossos cursos nessa página. Aproveite, pois dificilmente você irá encontrar um material tão detalhado e explicativo.

Para dar continuidade ao assunto de data science, leia o artigo:

Como trabalhar com Ciência de Dados

Outros tópicos relacionados:

 

cursos