BLABLACAR

Société: Blablacar
Fondateur: Frédéric Mazzella
Site: https://www.blablacar.fr

Data driven company

Leader mondial du covoiturage

La data au coeur de la stratégie

Leader mondial du covoiturage, BlaBlaCar rassemble aujourd’hui une communauté de 30 millions de membres. Plus de 10 millions de personnes ont recours à ses services chaque trimestre, soit environ 110.000 personnes par jour. À l’origine dédié à la France, le service est désormais proposé dans 22 pays à travers le monde.

Stratégie Big data

Optimisation des services

Blablacar accompagne sa croissance par une stratégie Big Data pour optimiser ses services et sa relation client.

Face à sa croissance rapide, l’équipe dirigeante a compris l’importance de l’analyse de données pour améliorer l’expérience client. La société s’est dotée d’un outil de Business Intelligence taillé pour le développement exponentiel des informations (trajets, lieux, kilométrages, tarifs, notations, profils, ancienneté, etc) . « L’objectif était d’intégrer de la BI sur les données de production reposant sur une base de données MySQL. Auparavant, l’extraction de données comportait des risques de pertes d’informations avec les mises à jour sur des tables devenues trop grosses ». Le choix s’est porté sur un cluster Hadoop Cloudera.

Techniquement, le cluster repose sur 4 machines tournant sur Debian 6 avec 64 Go de RAM et 4 To de stockage. Une capacité jugée suffisante pour encaisser les estimations de croissance annuelle de la société. La première étape a été de l’alimenter avec la récupération des données des abonnés depuis 2005. Une opération qui s’est déroulée sans difficultés, selon la team Big Data de Blablacar.

Dataiku pour la data visualisation

L’objectif de la data visualisation est de donner aux métiers des éléments visuels compréhensibles et collant à leurs besoins. Un but similaire pour les requêtes : « avant nous avions des requêtes Excel/Excel, aujourd’hui les requêtes sont automatisées avec des rapports quotidiens pour les équipes marketing. Nous pouvons aussi faire des requêtes plus fines et plus granulaires pour les métiers ». Cette automatisation des tâches a été confiée à l’offre Data Science de Dataiku, une plateforme d’analyse de données et de construction d’applications prédictives. Un POC (un prototype, NDLR) a été réalisé en mai dernier puis implémenté rapidement. Elle a été séduite par la plateforme où « des recherches peuvent être créées à partir d’un simple script Python ».

Les bénéfices de cette stratégie sont donc au rendez-vous avec une plus grande rapidité et fluidité dans les requêtes et les rapports pour les métiers. Les campagnes marketing sont plus ciblées et plus réactives, notamment sur les réseaux sociaux comme Facebook où Blablacar est très présent. Elles prennent surtout en considération la montée en puissance de la start-up avec des marchés aussi importants que l’Inde ou la Russie. Les jeux de données vont s’enrichir au fur et à mesure du développement des services. « Nous avons une solution hyper scalable », affirme la société. Les relations avec les métiers ont changé, il n’y a plus de prises de décisions sans les data.

 

Trajets blablacar réalisés en Europe

sur 24h

En moyenne, près de 110.000 personnes voyagent avec BlaBlaCar chaque jour. Une vidéo propose d’en visualiser les déplacements.

Pour illustrer l’importance du réseau BlaBlaCar, l’équipe «Data» de l’entreprise a rassemblé les données indiquées par les covoitureurs avant leur voyage: leurs lieux de départ, d’arrivée mais aussi les horaires prévus de leurs déplacements.

Réalisée lors d’une «coding night», un hackathon en interne organisé deux fois par an, la vidéo finale permet de visualiser l’ensemble des trajets réalisés en Europe sur 24 heures.

En Europe, les trajets se concentrent en grande majorité autour de la France, de l’Espagne, de l’Italie et des pays du Benelux. Mais la vidéo laisse également visualiser une forte densité de déplacements autour de Moscou.

Flux continu de données

Data provenant de toute l'europe

Développement full data

Des ambitions dans le temps réel et le machine learning

L’équipe Big Data fourmille d’idées pour faire évoluer son architecture. En premier lieu, la « ‘nonification’ des bases de données SQL existantes vers Cassandra » (autrement dit, le passage graduel aux technologies NoSQL). L’équipe mène en parallèle des tests de Spark, le concurrent de MapReduce sur une partie de Cassandra pour obtenir des fonctions analytiques qui se rapprochent du temps réel. « L’idée est de pouvoir en faire une zone de test pour de nouvelles choses ».

Autre point d’amélioration attendue, un renforcement du cluster Hadoop sur 3 nœuds, la possibilité de réaliser des backups dans Hadoop et le test de l’offre Big Data Haven de HP. Sur l’automatisation des tâches, la partie machine learning sera développée avec Dataiku.

Taveng

Une suggestion ?

Contactez-moi

Data en action

Restons en contact

06-86-87-06-03 | hello@taveng@datajungle.fr


    Votre nom*

    Votre e-mail*

    Votre message*