Recruter un Data Scientist

Missions et compétences

Missions principales

  • Gérer les sources de données
  • Exploiter les informations
  • Accélérer les temps de traitements

Connaissances techniques

  • Logiciel d'analyse de données, Python
  • Plateforme Bigdata et solutions Apache
  • Base de données NoSQL

Personnalité et motivations pour le poste

  • 4/5 Inventivité
  • 4/5 S’exprimer en Public
  • 1/5 Diplomatie
  • 4/5 Prendre de la hauteur
  • 2/5 Résistance au stress

Le Data scientist est de plus en plus demandé en entreprise, son rôle est de collecter et d'analyser des données en masse pour aider l'entreprise ou les clients à la prise de décision. Il s'agit d'être le plus efficace possible dans un état d'esprit data-driven

COMMENT SÉCURISER LE RECRUTEMENT D'UN DATA SCIENTIST ?

Nouveau métier lié à l'explosion du nombre de données. Le fait que les entreprises qui s'en sortent le mieux sont celles qui arrivent à utiliser les données, le Big Data pour prendre les bonnes décisions au bon moments. Pour recruter votre bon Data Scientist, les principaux points à valider sont la créativité, la prise de hauteur et la capacité à s'exprimer en public. Voici quelques premières pistes de questions à creuser entretien :

  • Quelles sont les méthodes de machine learning que vous avez le plus utilisées (K-NN, Scikit Learn...) ?
  • Quelle outil data vous semble le plus adapté pour ce projet :  MongoDB, Cassandra, Redis ...?
  • Quel est le changement le plus impactant que vous avez accompagné grâce au BigData ?
  • Quels sont les choix techniques qui vous ont fait perdre le plus de temps ?

Lors de vos entretiens, préférez toujours des questions ouvertes qui évitent le biais cognitif de cadrage. Dans la mesure du possible il faut donc poser des questions ouvertes qui ne donnent pas d'indications sur la réponse que vous aimeriez entendre.

LES 3 POINTS PRINCIPAUX A VALIDER POUR UN INGENIEUR BIG DATA

Les rôles et missions d'un ingénieur en machine learning sont très variable en fonction du secteur et de l'importance que l'entreprise donne à la data. Aussi, pour sécuriser au maximum votre recrutement, il convient de vérifier l'adéquation des compétences de votre candidat avec votre projet:

1. Prise de hauteur sur les outils numériques utilisés

La principale qualité d'un ingénieur en machine learning est la prise de hauteur pour remettre en cause ses choix dans la récolte et le traitement des données. Comme en mathématiques, le choix de la solution la plus élégante fera gagner beaucoup de temps à l'entreprise. La difficulté est donc d'avoir un candidat avec un profil qui soit à la fois capable de comprendre la technique (programmation, Database, Mathématiques, statistiques) mais aussi de prendre de la hauteur par rapport aux choix techniques effectués.  Voici quelques exemples de questions pour valider ce point: Quel a été le plus mauvais choix technique (algo ou database) de votre dernière mission et pourquoi ? Comment validez-vous les modèles de données et leurs traitements ? Quel algorithme vous semble le plus adapté pour notre projet ? Quel est le traitement qui prend le plus de temps au quotidien ? 

2. Inventivité pour gagner du temps et récolter les données

Il y a beaucoup d'obstacles pour exploiter les données, et le Bigdata étant en pleine évolution, les outils et solutions techniques ont de nombreuses lacunes. La plupart du temps est perdu dans la récolte et l'intégration de la donnée. A vous de vous assurer que votre candidat possède une vraie capacité à contourner des obstacles et inventer des techniques pour gagner du temps dans les traitements. Voici quelques exemples de pistes à creuser: Avez vous trouver des manières inédites de récolter des données non structurées ? Avez vous contourner des techniques habituelles?  Quelles solutions avez vous mis en place pour améliorer la rapidité de la récolte de données ? 

3. Capacité à s'exprimer et faire passer ses idées 

Plus de 28% des entreprises qui ont une politique de Big Data ne l'utilisent pas suffisamment lors des prises de décisions. A quoi sert d'avoir le meilleur Machine Learner et les meilleurs algo mais sans décisions ou impact ? Il faut valider la capacité d'expression du candidat et sa faculté à communiquer ses résultats et ses préconisations. Pour évaluer cette capacité d'expression, il reste à affiner certains points: Combien aviez vous de personnes dans votre ancienne équipe ? Quelles sont les décisions que vous avez provoquées chez votre ancien employeur ? Quelles sont vos déceptions sur des changements non faits :segmentation clientèle, data-visualisation, modèles statistiques ? 

COMPÉTENCES TECHNIQUES

 Les outils sont en pleine évolution, donc le plus important pour les compétences techniques est de valider la bonne connaissance en méthode de machine learning et la capacité à apprendre de nouveaux outils.

  • Logiciel d'analyse des données : SAS ou R
  • Langage de programmation : Python, Java, Perl, C++, Pig, Hive, Matlab, Julia, C...
  • Méthodes de machine learning : forêts d'arbre décisionnels, K plus proches voisins (KNN), ou méthodes d'ensembles, Scikit Learn
  • Calcul statistiques : algèbre linéaire, 
  • Modélisation : UML, MERISE
  • Plateforme de big data : hadoop, Apache Spark... 
  • Bases de données : MongoDB, Cassandra, Redis, Postgrès, SQL, NoSQL, Hortonworks
  • Visualisation des données : ElasticSearch / Kibana

 Vous pouvez également demander au candidat s'il a des certifications ? (exemple MongoDB)

 

Les recruteurs ont aussi regardé