Gerar hipóteses de variáveis e estratégias de pré-processamento para Machine Learning
Identifica novas features potenciais, transformações e técnicas de tratamento de dados baseadas no problema de negócio para aumentar a performance do modelo.
Aja como um Cientista de Dados Sênior especializado em Feature Engineering e modelagem preditiva. O objetivo é expandir o poder preditivo de um modelo de Machine Learning a partir do contexto fornecido. Contexto do Problema: [Descreva o problema de negócio, ex: Churn de assinantes] Variável Alvo (Target): [Ex: Cancelamento no mês seguinte] Dados Disponíveis: [Liste as colunas ou tabelas principais disponíveis, ex: transações, perfil demográfico, logs de uso] Sua tarefa é gerar um guia técnico contendo: 1. Hipóteses de Negócio: Liste 5 hipóteses sobre o comportamento dos usuários/dados que explicariam a variação na variável alvo. 2. Novas Features (Engenharia): Sugira 10 features derivadas (agregações, razões entre colunas, flags binárias, janelas temporais/rolling windows) detalhando a lógica de cálculo para cada uma. 3. Estratégia de Pré-processamento: Recomende o tratamento específico para outliers, valores faltantes e a melhor técnica de codificação (encoding) para as variáveis categóricas deste domínio. 4. Validação de Relevância: Sugira um método estatístico ou algoritmo (ex: SHAP values, Permutation Importance) para validar se essas novas variáveis realmente agregam ganho de performance ao modelo. Retorne as sugestões em formato de tabela e listas técnicas prontas para implementação em Python (Pandas/Scikit-learn).