Desafio do Titanic do Kaggle: Uma abordagem didática na exploração e preparação dos dados para análise preditiva

Crédito: https://www.rmg.co.uk/

O Kaggle, de forma resumida, é uma plataforma que hospeda competições de ciência de dados, famosa entre profissionais e entusiastas da área. Entre as diversas competições disponíveis ao público, o desafio do Titanic provavelmente seja o mais popular entre os iniciantes no mundo dos dados. A competição funciona da seguinte forma: o Kaggle fornece os dados sobre os passageiros do RMS Titanic, o famoso transatlântico britânico naufragado em 1912. Entre dados como sexo, preço da tarifa, porto de embarque e etc., há uma variável que indica se o passageiro sobreviveu ou não ao naufrágio. No entanto, parte dos passageiros não possui tal informação e a partir daí o competidor entra em ação através de uma análise preditiva para tentar adivinhar quais passageiros sobreviveram ao desastre. A proposta deste artigo é apresentar aos ̶m̶a̶r̶i̶n̶h̶e̶i̶r̶o̶s̶ cientistas de dados de primeira viagem uma abordagem didática, através da linguagem R, no processo de exploração e preparação dos dados, incluindo a criação de novas variáveis e a imputação de dados ausentes, de modo que ao término do processo tenhamos um conjunto de dados adequado para modelagem preditiva.

António C. da Silva Júnior
António C. da Silva Júnior
Cientista de Dados Especialista

Relacionados