Live realizada na Casa da Pesquisa Operacional sobre exploração e preparação dos dados do Desafio do Titanic da Kaggle.
O Kaggle, de forma resumida, é uma plataforma que hospeda competições de ciência de dados, famosa entre profissionais e entusiastas da área. Entre as diversas competições disponíveis ao público, o desafio do Titanic provavelmente seja o mais popular entre os iniciantes no mundo dos dados.
Um dia desses um colega me perguntou como criar uma função summary() personalizada, com algumas medidas a mais. Disse que havia tentado, mas tinha dúvidas de como passar o nome das variáveis do data frame como argumento da função.
Quando comecei a programar em R a minha principal referência para manipulação de dados era a linguagem SQL. Por conta disso, diante de determinadas necessidades, eu desenvolvia a solução “pensando” em SQL e depois traduzia para R, mais ou menos como fazemos quando estamos aprendendo um novo idioma.