Setembro 25, 2019

Problemas de Classificação e Regressão

Se você está iniciando no mundo do machine learning, é bem provável que já tenha se deparado com os termos “classificação” e “regressão”.

Na prática, o algoritmo de machine learning que estamos utilizando irá aprender sobre os dados para resolver um problema. Esse problema poderá ser de dois tipos: classificação ou regressão.

Uma das primeiras análises que deve ser realizada pelo cientista de dados é justamente identificar se o problema envolve regressão ou classificação.

Essa identificação é importante pois trará implicações para toda análise, desde o pré-processamento dos dados até a efetiva previsão final, sendo que uma das escolhas fundamentais da análise será o algoritmo de machine learning a ser utilizado. Alguns algoritmos são utilizados apenas em problemas de classificação, outros apenas em regressão, e há ainda aqueles que podem atuar nas duas situações.

Vamos então entender então quando o problema se trata de classificação ou de regressão.

Problemas de Regressão

problema regressao

Os problemas de regressão existem quando precisamos prever um valor numérico específico. Este valor pode ser o preço de um produto, o peso ou altura de uma pessoa, a metragem de uma casa, e assim por diante. Nestas situações, o modelo poderá apresentar como resposta qualquer valor. Por exemplo, você pode apresentar produtos e seus preços para que o algoritmo crie o modelo, e ainda que nestes produtos não exista nenhum preço superior a R$ 100,00 o modelo poderá realizar previsões de preços superiores a este valor.

Problemas de Classificação

problemas de classificação

Os problemas de classificação são aqueles onde se busca encontrar uma classe, dentro das possibilidades limitadas existentes. Esta classe pode ser se um aluno foi aprovado ou reprovado, se uma pessoa possui uma doença ou não, dentre outras tantas possibilidades, sendo que nestes casos ou a previsão será uma ou outra. As classes também podem possuir mais de duas opções, como separar pessoas em três grupos, A, B e C, ou 1, 2 e 3, ou ainda prever a marca de um determinado carro. Pensando na ideia da marca de um carro é importante observarmos que, por mais opções de marcas que possam existir, esta quantidade sempre terá um valor finito, e o modelo nunca terá como resultado uma marca (ou informação alguma) que ele não conheça.

Entendendo melhor

É importante observarmos que o que define o tipo de problema existente não é a simples distinção entre a previsão de um número ou de uma letra ou palavra. Conforme exemplificamos, poderemos prever valores numéricos nos problemas de classificação, mas nestes casos, esta previsão sempre significará uma categoria. Ou seja, este número significa algo diferente do seu valor e ele poderia ser substituído por qualquer letra, palavra ou mesmo outro número, sem prejudicar o entendimento das previsões.

Na prática, é muito comum encontrarmos os valores 0 e 1 representando classes. Por exemplo, o valor 0 pode indicar a reprovação de um aluno e o valor 1 a aprovação. Esta notação pode simplificar muito os códigos, uma vez que as linguagens de programação trabalham com números, e assim a classe já estará preparada para ser utilizada. Há ainda funções em determinadas linguagens que aceitam classes com valores não numéricos, não sendo necessário que o usuário realize a conversão.

Continuando…

Para aqueles que desejam continuar seu aprendizado sobre machine learning, focando principalmente na simplicidade e didática, montamos o curso Introdução a Machine Learningtotalmente gratuito, que irá fornecer os primeiros passos para realmente compreender e dominar esta fascinante tecnologia.

Você pode conhecer todos os nossos cursos nessa página. Aproveite, pois dificilmente você irá encontrar um material tão detalhado e explicativo.