Se connecter
Date limite de participation :
30 novembre 2018

Prévisions des couples de produits vendus dans les relais gérés par Argedis

Dans ce challenge, il s’agit d’analyser un historique de tickets de caisse, afin de prédire les couples de produits les plus probablement vendus ensemble.

Classement
1. (1) Etienne Fayet Score 0,459870
2. (2) Bruno Martins Score 0,490576
3. (3) Nans Nicolas Score 0,590451
Ce challenge est terminé.

202

contributions

43

participants

terminé
terminé

Filiale du Groupe TOTAL, ARGEDIS est en charge d’un panel de 180 relais situé en France en gestion directe sur son réseau autoroutier et voies rapides, l’une des vitrines privilégiées du Groupe en France.

Au travers de ses boutiques, ARGEDIS est résolument tournée vers l’automobiliste, afin de lui faire profiter aussi bien des services marchands (produits frais, du snacking et des boissons) que des services non-marchands tels que les salons détente, etc..

La compréhension des habitudes de consommation des clients est un enjeu important, afin de leur offrir le meilleur service. Dans un challenge précédent, il s’agissait de réaliser des prévisions de vente de 6 catégories de produit, afin d’anticiper la demande.

Dans ce challenge, il s’agit d’analyser un historique de tickets de caisse, afin de prédire les couples de produits les plus probablement vendus ensemble.

Les fichiers suivants vous sont remis :


  • un fichier ‘tickets_full.csv’ contenant 83 545 tickets de caisse d’une station. Chaque ticket contient le détail des articles achetés.
  • un fichier ‘tickets_trunc.csv’ contenant 20 886 autres tickets de caisse de la même station. Dans chaque ticket, un article a été enlevé de façon aléatoire
  • un fichier ‘missing.csv’ contenant pour chaque ticket du fichier ‘tickets_trunc.csv’, une suggestion d’article manquant. L'objectif est de prédire si l'article suggéré est effectivement celui manquant, ou pas

Dans ‘missing.csv’, l'article suggéré est effectivement celui manquant dans 50% des cas. Dans les 50% autres cas, l'article suggéré a été choisi aléatoirement parmi tous les articles du jeu de tickets initial.

Le fichier à poster est un fichier de type CSV à séparateur « ; » qui doit contenir 2 colonnes et une en-tête.

Chaque ligne contient la prédiction répondant à la question: “l’article suggéré est-il celui manquant dans le ticket ?”.

ticket_id;is_correct_article
551_12_12946_1504051500;0,21
338_13_1340306_1488909120;0,83
...;...



La métrique d’évaluation du fichier est log-loss.

$$ LogLoss = -{\frac{1}{n}{\sum\limits_{i = 1}^n {[ y_{i}.log(\hat{y_{i}}) + (1 - y_{i}) . log(1 - \hat{y_{i}}) ]} }} $$

log = logarithme népérien

1. (1) Etienne Fayet 15 contributions 02/11/18 16:08 Score 0,459870
2. (2) Bruno Martins 80 contributions 03/10/18 12:31 Score 0,490576
3. (3) Nans Nicolas 10 contributions 16/10/18 17:16 Score 0,590451
4. (4) Nommie KASHANI 56 contributions 24/10/18 17:09 Score 0,670700
5. (5) Thabet Chaaouri 3 contributions 31/10/18 16:31 Score 0,671068
6. (6) Cheikh Hadrami 11 contributions 18/10/18 10:10 Score 0,692612
7. (7) gregory wallace 6 contributions 12/09/18 17:55 Score 0,693147
8. (8) Gilles POULAIN 4 contributions 18/11/18 17:29 Score 0,897333
9. Laurent Porez 7 contributions 30/11/18 00:39 Score 2,225913
Discussions
loading... Chargement...