Se connecter
Date limite de participation :
16 janvier 2017

Prédiction du risque de coût de surestaries pour le transport maritime à la raffinerie d’Anvers

L’objectif de ce challenge est de prédire pour chaque nouvelle barge affrétée à la raffinerie son risque de produire ou non des coûts de surestaries.

Classement
1. (1) Nommie KASHANI Score 0,927207
2. (2) Yassine IDRISSI RHALBI Score 0,926294
3. (12) Eric TELLIEZ Score 0,924728
Ce challenge est terminé.

513

contributions

76

participants

terminé
terminé

L'import et l'export de produits pétroliers constitue une activité centrale et continue de la chaîne de production d'une raffinerie. Chaque année à Anvers plus de 9 millions de tonnes de produits raffinés sont expédiés à nos clients par voie maritime. Ces produits sont transportés dans des barges ou des paquebots affrétés par des compagnies maritimes extérieures. Dès que le temps d'attente des bateaux sur les quais de la raffinerie excède le temps défini contractuellement, les compagnies maritimes peuvent prétendent à des « coûts de surestaries », parfois très élevés.

Dans le cadre d'un schéma d'optimisation de l'activité d'une raffinerie, les coûts de surestaries ne doivent pas nécessairement être évités mais contrôlés. L'anticipation de ces coûts est difficile puisqu'ils dépendent de très nombreux facteurs tels que l'état de marche de la raffinerie, la disponibilité du produit à exporter, sa difficulté à le charger dans le bateau (produit lourd ou nécessitant un préchauffage des cuves, produit visqueux, …), l'occupation des quais par d'autres bateaux, la taille du bateau et/ou du quai disponible, etc.

L'objectif de ce challenge est de produire un modèle de classification permettant de prédire pour chaque nouvelle barge affrétée à la raffinerie son risque de produire ou non des coûts de surestaries. Les données fournies contiennent un ensemble d'informations relatives à 1) la barge affrétée et ses caractéristiques, 2) le quai accueillant la barge, 3) le type de produit chargé ou déchargé, 4) la production de la raffinerie, etc.

Vous êtes donc ici face à un problème de classification binaire à partir d'une grande quantité de facteurs potentiellement essentiels à l'explication des coûts de surestaries. La qualité du modèle proposé sera évaluée au travers de l'AUC (area under the curve). Bonne chance et bon challenge !

3 fichiers de données vous sont remis :

  • Le fichier d’apprentissage à proprement parler (9238 observations + 1 ligne d’en-tête).
  • Le fichier des déchargements à scorer (2370 observations + 1 ligne d’en-tête)
  • Un fichier complémentaire vous fournissant des informations plus générales sur les débits observés sur différents réservoirs (10 871 003 observations et une ligne d’en-tête)

Le fichier d’apprentissage et le fichier à scorer ont des structures très proches : ils contiennent les mêmes colonnes à l’exception de la variable cible qui n’est présente que sur le fichier d’apprentissage.

Ils contiennent dans l’ordre :

  • 1 champ identifiant (ID)
  • 4 autres champs d’identification de l’opération réalisée (informatifs) :
    • Numéro et nom du bateau,
    • Numéro de commande
    • numéro de réservoir
  • La variable cible (TARGETVARIABLE, renseignée uniquement pour l’échantillon d’apprentissage)
  • 37 autres variables potentiellement explicatives et relatives à l’opération (barge, quai, produit, conditions, etc.)

Le fichier complémentaire contenant des informations relatives aux débits observés sur les réservoirs contient 4 colonnes (séparateur = « | ») :

  • TANK : le numéro de réservoir, à rapprocher du numéro de réservoir « TANK1 » des fichiers d’apprentissage et de test.
  • ATTRIBUT : le nom de la variable mesurée :
    • FLOW_VOL : le débit instantané à la date considéré
    • TEMP : la température
    • VOL15 : le volume sur les 15 dernières minutes
  • DATEEXTRACT : la date/heure de mesure
  • VALEUR : la valeur mesurée pour la variable considérée

Ces données complémentaires peuvent être si vous le souhaitez, utilisées pour enrichir l’analyse. Elles concernent plus de réservoirs que ceux utilisés dans les bases d’apprentissage et de test et sont disponibles sur des périodes plus longues. Le rapprochement entre les fichiers est à votre choix, avec cependant comme clefs communes : le numéro de réservoir et la date.

Pour évaluer vos résultats, vous devez poster un fichier CSV à deux colonnes avec en-tête et séparateur point-virgule (« ; »). Il doit contenir pour les 2370 observations à scorer :

  • La colonne ID reprenant les ID du fichier de test
  • La colonne « PROBA » fournissant la probabilité (entre 0 et 1) que vous calculez pour que l’observation soit à TRUE.

La performance du modèle sera mesurée pour ce challenge par l’indice AUC (Area Under the Curve). Il correspond à l’aire sous la courbe ROC et est défini par les formules suivantes :$$AUC = \frac{1}{2} + aire(a) = \frac{1}{2}(1 + GINI)$$avec$$Gini = \frac{aire(a)}{aire(a) + aire(b)}$$

 

Sur ce graphique, on calcule l'indice de Gini et l’AUC pour une courbe ROC donnée. Cette courbe classe les "taux de faux positifs" et "taux de vrais positifs" pour différents seuils de classification.

Plus de détails peuvent être trouvés sur :

1. (1) Nommie KASHANI 53 contributions 14/01/17 01:51 Score 0,927207
2. (2) Yassine IDRISSI RHALBI 28 contributions 02/01/17 12:48 Score 0,926294
3. (12) Eric TELLIEZ 5 contributions 16/01/17 15:48 Score 0,924728
4. (3) Boualam HASNOUN 14 contributions 06/12/16 09:56 Score 0,923254
5. (4) Aurélien Massiot 6 contributions 08/12/16 10:24 Score 0,922952
6. (5) Pierre Vaningelandt 3 contributions 13/01/17 20:21 Score 0,922527
7. (6) Arnaud Chanoine 40 contributions 07/12/16 09:52 Score 0,922250
8. (7) Maxime Durot 6 contributions 24/11/16 00:00 Score 0,917798
9. (8) Remo Tacchi 1 contribution 12/12/16 20:13 Score 0,917400
10. (9) Sabri Benharrats 17 contributions 08/12/16 17:36 Score 0,915535
11. (10) François Meunier 24 contributions 11/01/17 14:24 Score 0,914700
12. (11) Stephane Charpentier 11 contributions 13/01/17 02:51 Score 0,910647
13. (13) Sophanara DE LOPEZ 49 contributions 10/01/17 00:58 Score 0,908878
14. (22) Etienne Fayet 30 contributions 16/01/17 18:03 Score 0,908101
15. (14) Pierre Jallais 5 contributions 12/12/16 21:38 Score 0,906221
16. (15) Alaa Jamal Eddine 21 contributions 13/12/16 11:11 Score 0,903797
17. (16) Fabien Grussy 17 contributions 19/11/16 08:18 Score 0,900268
18. (17) sebastien perrier 9 contributions 13/01/17 05:13 Score 0,899640
19. (18) David TEIXUGUEIRA DE CASTRO 15 contributions 05/12/16 15:37 Score 0,893133
20. (19) Jabus Tyerman 3 contributions 13/11/16 04:13 Score 0,874719
21. (20) Sébastien Gourvénec 21 contributions 09/01/17 17:50 Score 0,870374
22. (21) AAA BBB 9 contributions 03/11/16 08:42 Score 0,868686
23. (23) David Campion 1 contribution 26/10/16 15:59 Score 0,861343
24. (24) Vincent Canneva 2 contributions 07/12/16 16:25 Score 0,860144
25. (25) SEMMAU Denis 30 contributions 18/11/16 23:21 Score 0,850473
26. (26) Daniel Arogundade 17 contributions 16/01/17 23:43 Score 0,840935
27. (27) Jean-Luc Marsolier 14 contributions 15/01/17 18:05 Score 0,820451
28. (28) Jean-Marcelin Le M 3 contributions 01/11/16 18:28 Score 0,810798
29. (29) Laurence Bellicaud 1 contribution 16/11/16 12:04 Score 0,747973
30. (30) Guillaume Pottier 4 contributions 14/11/16 20:05 Score 0,743577
31. (31) DUZAN Thomas 1 contribution 17/11/16 21:53 Score 0,541380
32. (32) Matthieu Brucher 3 contributions 04/01/17 17:26 Score 0,522658
Discussions
loading... Chargement...