Concurso Petrobras para Ciência de Dados

No dia 20 de fevereiro de 2022 acontecem as provas objetivas do concurso da Petrobras, com inscrições até o dia 5 de janeiro, e que conta com 757 vagas. São 33 vagas para área de Ciência de Dados, e ainda outras 132 vagas para cadastro de reserva, sendo que para atuar você precisa possuir certificado de conclusão ou diploma, devidamente registrado, de curso de graduação de nível superior, reconhecido pelo MEC, Secretarias ou Conselhos Estaduais de Educação. Ou seja, não é necessária uma formação específica.

Link do edital oficial: Petrobras PSP1 2021

Observando os conhecimentos específicos exigidos para a vaga de Ciência de Dados, percebemos a grande similaridade com a grade do nosso Combo – Módulos I, II, III e IV, tornando-o uma excelente ferramenta de estudo para esta vaga. Nossos cursos possuem aulas didáticas e objetivas, sem enrolações, com foco no aprendizado do aluno. Mesmo conceitos complexos são abordados de forma simples e rápida, com aplicações práticas, excelentes para uma boa fixação do conhecimento.

Os conhecimentos específicos para vaga de Ciência de Dados do concurso Petrobras estão divididos em 3 grandes blocos, com um total de 11 tópicos e 81 subtópicos, conforme veremos na sequência.

BLOCO I

  • Aprendizado supervisionado: Regressão e Classificação
  • Aprendizado não supervisionado
  • Redes neurais artificiais

BLOCO II

  • Machine learning aplicado
  • Manipulação, tratamento e visualização de dados
  • Banco de dados e data warehouse

BLOCO III

  • Cálculo
  • Álgebra Linear para Ciência de Dados
  • Probabilidade e estatística
  • Algoritmos e estrutura de dados
  • Conceitos modernos de sistemas de informação

Relacionando os tópicos com nossos cursos

O primeiro bloco começa com “Aprendizado supervisionado: Regressão e Classificação”, iniciando com conceitos básicos, como overfitting e underfitting, e avançando até algoritmos mais avançados, como os utilizados nos métodos Ensemble. Na sequência é relacionado o “Aprendizado não supervisionado”, e em ambos os casos a prática indicada é com Python através do scikit-learn.

No bloco II temos o tópico “Manipulação, tratamento e visualização de dados”, com dados faltantes, normalização, outliers, e manipulação de dataframes com Python através do Pandas.

Em nossos cursos, estes assuntos são abordados incialmente em nossos cursos gratuitos: Curso de introdução a Machine Learning e Curso de Python para machine learning, seguindo nos módulos 1 e 2 do Combo, sempre com a utilização da linguagem Python, com scikit-learn e Pandas.

O bloco I tem ainda “Redes neurais artificiais”, indicando conceitos básicos, função de ativação, gradiente estocástico, regularização, redes neurais convolucionais e recorrentes, entre outros. A indicação prática é novamente com Python, através do Keras e Pytorch. O bloco II indica “Machine learning aplicado”, onde são mencionados temas como: visão computacional, Processamento Natural de Linguagem e Séries Temporais.

Estes são assuntos mais avançados, que abordamos nos módulos 3 e 4 do Combo, com aplicações práticas com Keras e TensorFlow. Não utilizamos o Pytorch.

No bloco III é indicado “Cálculo”, “Álgebra Linear para Ciência de Dados” e “Probabilidade e estatística”, com a indicação prática de Python com Numpy.

Boa parte destes temas são apresentados em nosso Curso de matemática para machine learning totalmente gratuito, e seguimos detalhando sempre que necessário ao longo do Combo, com a utilização do Numpy.

O tópico “Banco de dados e data warehouse” do bloco II e os tópicos “Algoritmos e estrutura de dados” e “Conceitos modernos de sistemas de informação” do bloco III não são bordados em nossos cursos.

Comparando toda a grade exigida no concurso com nosso curso, a grande maioria dos tópicos nós ensinamos, de forma muito didática, que é nosso diferencial. Caso você queira comparar em detalhes cada um dos subtópicos do edital com as aulas de nosso combo, acesse aqui todas as aulas do combo, e confira abaixo com a relação completa do edital:

BLOCO I:

  1. Aprendizado supervisionado: Regressão e Classificação.
    1.1 Métricas de avaliação.
    1.2 Overfitting e underfitting de modelos.
    1.3 Regularização.
    1.4 Seleção de modelos: Erro de Generalização.
    1.5 Validação Cruzada.
    1.6 Conjuntos de Treino, Validação e Teste.
    1.7 Trade off entre Variância e Viés.
    1.8 Algoritmos: Regressão Linear e Regressão Logística.
    1.9 Árvores de decisão e random forests.
    1.10 Máquina de suporte de vetores.
    1.11 Naive Bayes.
    1.12 K-NN.
    1.13 Ensembles.
    1.14 Aprendizado supervisionado com Python scikit-learn.
    1.15 Conceitos de otimização de hiperparâmetros.
  2. Aprendizado não supervisionado.
    2.1 Redução de dimensionalidade: PCA.
    2.2 Agrupamento K-Means.
    2.3 Mistura de Gaussianas.
    2.4 Agrupamento Hierárquico.
    2.5 Regras de associação.
    2.6 Aprendizado não supervisionado com Python scikit-learn.
  3. Redes neurais artificiais.
    3.1 Conceitos Básicos em Redes Neurais Artificiais: Definições e Arquitetura.
    3.2 Funções de Ativação.
    3.3 Otimização de Redes Neurais Artificiais: método do gradiente, método do gradiente estocástico, algoritmo backpropagation, métodos de inicialização dos pesos, Vanishing Gradients.
    3.4 Métodos de regularização: penalização com normas L1 e L2, Dropout e Early Stopping.
    3.5 Definições básicas de Redes Neurais Convolucionais.
    3.6 Definições básicas de Redes Neurais Recorrentes.
    3.7 Redes neurais com Python: treino de modelos com Keras e Pytorch.

BLOCO II:

  1. Machine learning aplicado.
    1.1 Noções de Visão computacional com redes neurais convolucionais.
    1.2 Classificação de imagens.
    1.3 Detecção de objetos.
    1.4 Segmentação de objetos e instâncias.
    1.5 Noções de Processamento Natural de Linguagem.
    1.6 Stopwords, stemização e n-grams.
    1.7 TF-IDF.
    1.8 Modelagem de tópicos (LDA, NMF).
    1.9 Word embeddings: CBOW e Skip Gram.
    1.10 Conceitos Básicos em Séries Temporais.
  2. Manipulação, tratamento e visualização de dados.
    2.1 Técnicas de visualização de dados (questão 1/2).
    2.2 Técnicas de visualização de dados (questão 2/2).
    2.3 Lidando com valores faltantes.
    2.4 Lidando com dados categóricos.
    2.5 Normalização numérica.
    2.6 Detecção e tratamento de outliers.
    2.7 Manipulação de dataframes com Python Pandas: leitura de dados tabulares, seleção de linhas e colunas, agregação de dados, preenchimento de valores faltantes, remoção de duplicados, junção de dataframes.
  3. Banco de dados e data warehouse.
    3.1 Modelo entidade-relacionamento.
    3.2 Mapeamento lógico relacional.
    3.3 Normalização.
    3.4 Linguagem de definição e manipulação de dados (SQL).
    3.5 Conceitos de data warehousing e modelagem multidimensional (esquema estrela).
    3.6 Conceitos gerais de Hadoop: HDFS, MapReduce, YARN e Spark.
    3.7 Conceitos de Bancos NoSQL e Armazenamento orientado a objeto (object store).

BLOCO III:

  1. Cálculo.
    1.1 Précálculo: Conjuntos, Coordenadas Cartesianas, Cônicas e Produtos Notáveis.
    1.2 Funções.
    1.3 Limites.
    1.4 Derivadas.
    1.5 Derivadas parciais.
    1.6 Máximos e Mínimos.
    1.7 Esboços de Gráficos de Funções.
    1.8 Integrais.
  2. Álgebra Linear para Ciência de Dados.
    2.1 Notação de vetores e matrizes.
    2.2 Operações com vetores e matrizes; produto escalar e produto vetorial.
    2.3 Matriz identidade, inversa e transposta.
    2.4 Transformações lineares.
    2.5 Normas (L1, L2).
    2.6 Autovalores e autovetores.
    2.7 Decomposição SVD.
    2.8 Álgebra linear e operações matriciais com Python Numpy.
  3. Probabilidade e estatística.
    3.1 Conceitos de Probabilidade: Modelo de probabilidade, Probabilidade Condicional, Independência, Variáveis Aleatórias, Esperança, Variância e Covariância.
    3.2 Distribuições Contínuas e Discretas: Normal, t-Student, Poisson, Exponencial, Binomial, Dirichlet.
    3.3 Distribuições multidimensionais; matriz de covariância.
    3.4 Estatísticas Descritivas.
    3.5 Inferência Estatística: Teorema do Limite Central, Teste de Hipótese e Intervalo de Confiança, Estimador de Máxima Verossimilhança, Inferência Bayesiana.
    3.6 Coeficiente de correlação de Pearson.
    3.7 Histogramas e curvas de frequência.
    3.8 Diagrama boxplot.
    3.9 Avaliação de outliers.
  4. Algoritmos e estrutura de dados.
    4.1 Complexidade de algoritmos e notação assintótica (Big O).
  5. Conceitos modernos de sistemas de informação.
    5.1 Conceitos Nuvem: IaaS, PaaS e SaaS.
    5.2 Conceitos de Containers: construção, registro, execução e orquestração.
    5.3 Conceitos básicos de DevOps: versionamento com git, pipeline e CI/CD

Outra coincidência de nosso material com o edital da vaga de ciência de dados é o fato de que o professor que ministra as aulas teóricas e práticas de nosso curso é Natanael Fraga, que foi aprovado duas vezes em concursos Petrobras para engenharia de equipamentos Elétrica (a primeira vez antes de estar formado, e a segunda vez já com diploma em mãos, ficando entre os primeiros colocados). Aqueles que adquirirem nosso curso para a finalidade do concurso podem informar na área de contato que enviaremos também a estratégia que Natanael utilizou para estudar e obter as aprovações no estilo de prova da Petrobras.

Confira também nossos artigos, onde muitos desses conceitos são abordados. Seguem alguns exemplos: