Blog
DATA SCIENCE
03
Jul
2019
PREVISÃO DE VENDAS COM ANÁLISE DE SÉRIES TEMPORAIS

PREVISÃO DE VENDAS COM ANÁLISE DE SÉRIES TEMPORAIS

A Análise de Séries Temporais inclui métodos para analisar dados de séries temporais, a fim de extrair estatísticas significativas e outras características dos dados. A previsão de séries temporais é o uso de um modelo para prever valores futuros com base em valores observados anteriormente.

As séries temporais são amplamente utilizadas para dados não estacionários, como econômico, meteorológico, preço de ações e vendas no varejo neste post. Vamos demonstrar diferentes abordagens para previsão de séries temporais de vendas no varejo. Vamos começar!

Os Dados

 

Vou utilizar o Superstore Sales Data que pode ser baixado aqui

Existem várias categorias nos dados de vendas da Superstore, partimos da análise de séries temporais e previsão de vendas de móveis

Nós temos um ótimo histórico de vendas de 4 anos! :-)

 

Pré Processamento de Dados

 

Esta etapa inclui remover colunas que não iremos utilizar, chegar valores faltantes, agregar as vendas Às datas, etc....

 

Indexação com Série de Dados Temporais

 

Nossos dados de data e hora atuais podem ser complicados de trabalhar, portanto, usaremos o valor médio de vendas diárias para esse mês, e estamos usando o início de cada mês como o registro de data e hora.

Vamos dar uma rápida olhada como foram as vendas de móveis de 2017.

 

Visualizando Dados de Séries Temporais de Vendas de Móveis

 

Alguns padrões distinguíveis aparecem quando plotamos os dados. A série temporal apresenta padrão de sazonalidade, como as vendas são sempre baixas no início do ano e altas no final do ano. Há sempre uma tendência ascendente em qualquer ano com alguns meses de baixa em meados do ano.

Também podemos visualizar nossos dados usando um método chamado decomposição de série temporal que nos permite decompor nossas séries temporais em três componentes distintos: tendência, sazonalidade e ruído.

O gráfico acima mostra claramente que as vendas de móveis são instáveis, juntamente com sua sazonalidade óbvia.

 

Previsão de Séries Temporais com o ARIMA

 

Vamos aplicar um dos métodos mais usados para previsão de séries temporais, conhecido como ARIMA, que significa Média Móvel Integrada Autoregressiva.

Modelos ARIMA são denotados com a notação ARIMA (p, d, q). Esses três parâmetros são responsáveis pela sazonalidade, tendência e ruído nos dados:

Esta etapa é a Seleção de Parâmetros para nosso Modelo de Série Temporal ARIMA de venda de móveis. Nossa missão é utilizar o "grid search" para encontrar o conjunto ótimo de parâmetros que produza o melhor desempenho para o nosso modelo.

A saída acima sugere que o SARIMAX (1, 1, 1) x (1, 1, 0, 12) produz o menor valor de AIC de 297,78. Portanto, devemos considerar isso como a melhor opção.

 

Ajustando o modelo ARIMA

 

Devemos sempre executar diagnósticos de modelo para investigar qualquer comportamento incomum.

Não está perfeito, no entanto, o diagnóstico do nosso modelo sugere que os resíduos do modelo estão próximos da distribuição normal.

 

Validando as Previsões

 

Para nos ajudar a entender a exatidão de nossas previsões, comparamos as vendas previstas às vendas reais da série temporal e definimos as previsões para começar em 2017–01–01 até o final dos dados.

O gráfico de linhas mostra os valores observados em comparação com as previsões de previsão de rotação. No geral, nossas projeções se alinham muito bem com os valores reais, mostrando uma tendência ascendente desde o início do ano e capturou a sazonalidade no final do ano.

Na estatística, o Erro Quadrático Médio (MSE) de um estimador mede a média dos quadrados dos erros - ou seja, a diferença quadrática média entre os valores estimados e o estimado. O MSE é uma medida da qualidade de um estimador - é sempre não negativo, e quanto menor o MSE, mais perto estamos de encontrar a linha de melhor ajuste.

Root Mean Square Error (RMSE) nos diz que o nosso modelo foi capaz de prever a média diária de vendas de móveis no conjunto de teste dentro de 151,64 das vendas reais. Nossas vendas diárias de móveis variam de cerca de 400 a mais de 1200. Na minha opinião, este é um modelo muito bom até agora.

 

Produzindo e Visualizando as Previsões

 

Nosso modelo captou claramente a sazonalidade das vendas de móveis. Conforme projetamos mais longe no futuro, é natural que nos tornemos menos confiantes em nossos valores. Isso é refletido pelos intervalos de confiança gerados pelo nosso modelo, que crescem à medida que avançamos para o futuro.

A Análise de Séries de Temporais acima para móveis me deixa curioso sobre outras categorias e como elas se comparam ao longo do tempo. Portanto, vamos comparar séries temporais de móveis e fornecedores de escritório.

 

Série Temporas de Móveis vs. Materiais de Escritório

 

De acordo com nossos dados, houve um número muito maior de vendas de materiais de escritório do que de móveis ao longo dos anos.

 

Exploração de Dados

 

Vamos comparar as vendas de duas categorias no mesmo período de tempo. Isso significa combinar dois quadros de dados em um e plotar as séries temporais dessas duas categorias em um único gráfico.

Observamos que as vendas de móveis e materiais de escritório compartilhavam um padrão sazonal similar. Início do ano é a entressafra para ambas as categorias. Parece que o horário de verão também é tranquilo para o material de escritório. Além disso, a média diária de vendas de móveis é maior do que a dos materiais de escritório na maior parte dos meses. É compreensível, já que o valor do mobiliário deve ser muito maior do que o valor do material de escritório. Ocasionalmente, os materiais de escritório passavam a mobília em média de vendas diárias. Vamos descobrir quando foi a primeira vez que as vendas de material de escritório ultrapassaram as vendas de móveis.

 

Modelagem de Séries Temporais com Prophet

 

Lançado pelo Facebook em 2017, a ferramenta de previsão Prophet foi projetada para analisar séries temporais que exibem padrões em diferentes escalas de tempo, como anual, semanal e diária. Ele também possui recursos avançados para modelar os efeitos de feriados em uma série de tempo e implementar pontos de mudança personalizados. Portanto, estamos usando o Prophet para colocar um modelo em funcionamento.


 

Comparando Previsões

Já temos as previsões para três anos para essas duas categorias no futuro. Vamos agora juntá-los para comparar suas previsões futuras.

 

Visualização de Tendência e Previsão

 

 

Tendências e Padrões

 

Agora, podemos usar os Modelos do Prophet para inspecionar diferentes tendências dessas duas categorias nos dados.

É bom ver que as vendas de móveis e material de escritório aumentaram linearmente ao longo do tempo e continuarão crescendo, embora o crescimento do material de escritório pareça um pouco mais forte.

O pior mês para móveis é abril, o pior mês para material de escritório é fevereiro. O melhor mês para móveis é dezembro, e o melhor mês para material de escritório é outubro.

Existem muitas análises de séries temporais que podemos explorar a partir de agora, como previsão com limites de incerteza, ponto de mudança e detecção de anomalias, previsão de séries temporais com fonte de dados externa. Nós apenas começamos.

O código fonte pode ser encontrado no Github. Estou ansioso para ouvir comentários ou perguntas.

Referências:

Time Series Plot com ARIMA

Time Series Plot com Prohpet

EVERTON DE PAULA

Comente essa publicação