Junho 21, 2019

Curso de R para Machine Learning e Ciência de Dados Gratuito

R é uma linguagem de programação estatística e gráfica que vem se popularizando cada dia mais devido a sua grande utilização em análise de dados e machine learning.

E como eu posso aprender R? Eu preciso ser um especialista na linguagem para dominar a ciência de dados, machine learning e inteligência artificial? Como sempre falamos, estas áreas usam a programação, mas essencialmente não é isso o que são. Então a resposta é não!

Pensando nisso, criamos este curso gratuito de R para Machine Learning e Ciência de Dados. Tendo esta finalidade, você precisa dominar alguns conceitos e conhecer alguns pacotes da linguagem que facilitam nossa vida quando trabalhamos com bases de dados.

Nesse curso, você vai estudar R focado para essas aplicações. O objetivo é que você aprenda todos os comandos e conceitos necessários para conseguir deslanchar depois no aprendizado de machine learning, sem sofrimentos.

Inclusive, em nosso curso de machine learning, você pode aprender os conceitos de machine learning ao mesmo tempo em que aprende R, para motivar ainda mais sua evolução.

Caso você não saiba nada sobre R, recomendamos que assista primeiro o mini curso básico de R, pois serve como pré-requisito para esse curso de R para machine learning.

Nosso método de ensino valoriza a didática acima de tudo, ou seja, o mais importante para nós é que você entenda o que está fazendo e realmente aprenda, sem ficar com lacunas no aprendizado ou dúvidas que atrapalham e desestimulam.

Todos os vídeos abaixo estão em nosso canal do Youtube, em uma playlist organizada. Aliás, você pode se inscrever para acompanhar em primeira mão vídeos relacionados a inteligência artificial, ciência de dados e tecnologia.


Aula 1 – Como estudar R para machine learning

Objetivos: explicar como o curso foi estruturado, os pré-requisitos e sua importância no aprendizado.


Aula 2 – Como aplicar Machine Learning no R

Objetivos: verificar como é simples criar um modelo de Machine Learning na linguagem R quando já temos os dados preparados.

Nas próximas aulas iremos realizar o download do dataset utilizado, e realizar as manipulações necessárias, de maneira que ele fique igual ao desta aula. Caso você já queira acessar esta base de dados para acompanhar a aula, clique aqui para realizar o download.

Resumo da aula:
1:26 – apresentação do script
2:58 – apresentação da base de dados
3:21 – separação dos dados em treino e teste
3:27 – criação do modelo com dados de treino
3:36 – previsões nos dados de teste
4:47 – análise dos resultados
6:15 – histograma com preços da base de dados completa
7:44 – análise dos resultados em carros com preço entre 10 e 70 mil
10:02 – base de dados original, sem ajustes


Aula 3 – Ajustando um dataset no R para Machine Learning

Objetivos: iniciar o processo de transformação de um dataset de maneira a tornar possível sua utilização em um algoritimo de Machine Learning, para criação do modelo e execução das previsões.

Link para download:
https://www.kaggle.com/sandey/brazilian-vehicle-prices-june-2018-fipe

Resumo da aula:
0:28 – análise do dataset bruto
1:17 – análise dos tipos de dados das variáveis existentes no dataframe
2:07 – nomeação e exclusão de variáveis
3:19 – alteração dos tipos de dados
8:07 – função gsub para excluir caracteres de uma string e transformar a variável no tipo numérico
12:08 – função write.table para salvar o dataframe em um arquivo .csv


Aula 4 – Pacotes para ciência de dados no R

Objetivos: conhecer o Tidyverse, excelente coleção de pacotes da linguagem R desenvolvidos especificamente para ciência de dados, permitindo que realizemos as manipulações e análises necessárias de maneira simples e eficaz.

Links:
https://www.tidyverse.org/
https://www.tidyverse.org/packages/
https://magrittr.tidyverse.org/
https://www.rdocumentation.org/packages/magrittr
https://www.rdocumentation.org/packages/magrittr/versions/1.5/topics/%25%3E%25

Resumo da aula:
0:44 – o que é tidyverse
2:31 – core tidyverse
3:40 – pacote magrittr
4:40 – exemplo de utilização do operador pipe %>%
6:50 – utilização do pipe no RStudio
8:16 – atalho do teclado para inserir o pipe


Aula 5 – Manipulação de dados no R com Dplyr

Objetivos: conhecer um dos principais pacotes do tidyverse, o Dplyr, que possibilida a manipulação de dados de maneira muito fácil, com funções intuitivas, inclusive lembrando a linguagem SQL.

Links:
https://dplyr.tidyverse.org/
https://www.rdocumentation.org/packages/dplyr
https://github.com/rstudio/cheatsheets/blob/master/data-transformation.pdf

Resumo da aula:
0:22 – o que é o dplyr
0:39 – principais funções: mutate, select, filter, summarise, arrange e group_by
2:20 – cheatsheet dplyr (resumo do pacote)
3:30 – manipulação de observações
3:40 – manipulação de variáveis
3:49 – combinar tabelas: left_join, right_join, inner_join, full_join, semi_join e anti_join
4:30 – exemplo de utilização no RStudio
7:08 – criação do exemplo com filter, group_by e summarise
9:30 – visualização do resultado


Aula 6 – Organização de dados no R com Tidyr

Objetivos: organizar os dados. Com simplicidade o Tidyr nos proporciona funções simples mas eficazes neste processo.

Links:
https://tidyr.tidyverse.org/
https://www.rdocumentation.org/packages/tidyr
https://github.com/rstudio/cheatsheets/blob/master/data-import.pdf

Resumo da aula:
0:50 – cheatsheet tidyr (resumo do pacote)
1:10 – função gather
2:25 – função spread
4:55 – dividir colunas
5:26 – valores missing


Aula 7 – Manipulação de strings no R com Stringr

Objetivo: vamos conhecer o pacote Stringr, que faz parte da coleção Tidyverse, e nos permite o tratamento de strings das mais variadas formas, com muita objetividade e simplicidade.

Links:
https://stringr.tidyverse.org/
https://www.rdocumentation.org/packages/stringr
https://github.com/rstudio/cheatsheets/blob/master/strings.pdf

Resumo da aula:
0:34 – cheatsheet stringr (resumo do pacote)
0:52 – detectar padrões
1:24 – subset
1:48 – comprimento
1:59 – transformação
2:35 – união e divisão


Aula 8 – Expressões Regulares no R

Objetivos: apresentação das expressões regulares, de maneira focada na linguagem R. Esta é uma linguagem que nos auxília na busca por padrões, com os quais realizamos inúmeras transformações em uma string.

Link:
https://github.com/rstudio/cheatsheets/blob/master/strings.pdf

Resumo da aula:
0:36 – o que são expressões regulares
1:26 – códigos
2:15 – funcionamento
2:53 – busca por padrões


Aula 9 – Criando variáveis no R com stringr

Objetivos: utilizaremos o stringr para realizar manipulações em uma string afim de gerar novas variáveis no dataset.

Resumo da aula:
0:57 – análise do dataset para detalhamento dos dados
1:59 – análise variável carro
2:00 – identificando padrões na variável carro
4:58 – utilizando a função str_extract para extrair um padrão
9:22 – análise dos casos sem padrão
10:46 – ideias de como tratar valores faltantes (missing)
12:45 – sugestão de script utilizando dplyr, com filter, select e distinct


Aula 10 – Criando variáveis no R com Dplyr

Objetivo: utilizar o pacote dplyr para gerar novas variáveis, ampliando o detalhamento para as previsões do modelo de Machine Learning que criaremos.

Resumo da aula:
0:28 – função str_detect para filtrar apenas carros com o padrão buscado
1:44 – função subset para criar um novo dataframe somente com carros automáticos
5:09 – função unique para excluir carros repetidos
6:05 – função left_join para combinar o novo dataframe com o antigo
9:16 – indicando carros manuais


Aula 11 – Criando variáveis no R com Tidyr

Objetivos: utilizar o pacote Tidyr para criar uma última variável e podermos enfim aplicar os dados em um algoritimo de Machine Learning.

Resumo da aula:
0:31 – função separate para criar uma nova varíavel com o nome do carro
3:32 – análise da nova variável
4:18 – visualizando o dasaset finalizado
4:44 – excluindo valores faltantes (missing) com a função na.omit


Aula 12 – Aplicando Machine Learning no R – Treino e Teste

Objetivo: separar nossos dados em treino e teste, para criarmos o modelo com os dados de treino e avaliarmos o resultado nos dados de teste. Com a função Rpart utilizaremos um algoritimo de Árvore de Decisão.

Resumo da aula:
1:11 – separação dos dados em treino e teste
2:14 – filtrando o dataframe
3:32 – função length para obter o número de linhas do dataset
5:08 – analisando a separação realizada
6:50 – função sample para gerar valores aleatórios
9:30 – função set.seed para reproduzir os mesmos valores
10:13 – separando os dados através da função sample
12:56 – criação do modelo de Machine Learning com um algoritimo de árvore de decisão


Aula 13 – Aplicando Machine Learning no R – Resultados

Objetivos: realizar as previsões. Para isso utlizamos o dataset de teste, que contém os dados que o modelo ainda não conhece, possibilitando que avaliemos a precisão do modelo através da análise dos resultados.

Resumo:
0:52 – função predict para gerar as previsões dos preços desconhecidos
1:34 – análise das previsões realizadas
2:16 – análise do desempenho do modelo
6:17 – distribuição de preços no dataset inteiro
7:03 – função quantile para verificar o preço em um percentil específico
8:10 – histograma com 90% dos preços
11:03 – análise dos resultados quando o preço do carro está entre 10 e 70 mil reais
12:33 – comparando o desempenho com o da segunda aula (https://www.youtube.com/watch?v=aEoahjdG-no)
13:13 – exclusão da variável carro
14:58 – novo modelo e novas previsões sem a varíavel carro

Confira também a lista completa com todos os nossos cursos: