Les dataminers sévissent depuis de nombreuses années, les datascientists, eux sont issus de la génération Big Data. Que seront-ils devenus dans 10 ans ? Nous allons essayer de décrire une activité en pleine révolution, et de prédire, ou plutôt d’imaginer ce qu’elle pourrait être dans 5 à 10 ans.
Le droit à l‘erreur : pas pour les métiers de la data !
Aujourd’hui tout le monde prône le « droit à l’erreur ». C’est en tombant qu’on apprend à marcher… Mais, tous ces beaux discours ne s’appliquent en général pas aux métiers de la data. Ici, l’erreur n’a pas sa place, les résultats doivent être précis et cohérents du premier coup !
Complexité…
Pourtant, quiconque a passé quelques temps à manipuler des bases de données sait qu’il est quasi impossible de réconcilier parfaitement deux sources. Que jamais gestionnaires et dataminers ne parviennent à compter le même nombre de clients, que les visites sur les stores varient d’un outil de collecte à l’autre pour des raisons parfois claires (fréquence ou date de mise à jour, filtres…), parfois moins claires (depuis la migration on ne retrouve plus les cartes créées en Auvergne avant avril, le nouvel identifiant client n’est plus compatible avec l’appli sur Android) et j’en passe.
Réconcilier…
Du coup, le spécialiste de la data passe une grande partie de son temps à réconcilier des informations, à valider la cohérence de ses chiffres, à essayer de comprendre les champs d’une variable, à tenter de combler des vides. Cette tâche qui peut sembler ingrate est néanmoins fondamentale lorsque l’on veut baser ses décisions business sur les data (le fameux data driven marketing).
Du coup, ça va durer encore longtemps ?
La quantité de données produites n’a jamais été aussi importante, et elle continue d’augmenter.
En revanche, ce sont des données de moins en moins structurées, issues de sources de plus en plus variées (et on ne s’est pas encore vraiment attaqué au sujet des objets connectés). Du coup les datascientists ont encore du pain sur la planche pour rendre toute cette information intelligible.
En effet, plus d’information disponible ne signifie pas nécessairement plus de valeur ajoutée. Il faut donc affiner encore les techniques d’exploration et de fouille de données. La performance des modèles est également à améliorer constamment, car pour la plupart ils cherchent à comprendre et à expliquer des phénomènes rares (les bases clients contiennent bien souvent plus d’inactifs que d’ambassadeurs…), à l’aide de signaux parfois très imprécis (avis, commentaires, navigation sur un site…).
Mais alors, demain tous datascientists ?
Une chose est sûre, il devient difficile d’y échapper. Les données sont partout dans notre quotidien professionnel, mais elles ont également envahi notre espace personnel.
D’un côté, il faut produire des KPIs, comprendre pourquoi la nouvelle couleur ne fonctionne pas, expliquer la note sur le store et prévoir le prochain buzz… Les outils à notre disposition évoluent, et nombre d’entre eux cherchent à être accessibles au plus grand nombre. Et n’oublions pas qu’internet a près de 50 ans, il est peut-être temps de s’y mettre sérieusement !
Dans notre quotidien aussi, nous sommes « data driven », le quantified self est en plein essor, et nos applications regorgent de graphiques et courbes de suivi (poids, sommeil, consultation de profil, nombre de notifications…) sans parler des jeux qui nous transforment en véritables gestionnaires. N’oublions pas non plus que ces données proviennent en grande partie de notre activité (numérique ou non) et que le meilleur moyen de ne plus en avoir peur est d’apprendre à les maitriser… un peu