13.04.22 ● Israel Amangoua ● 5 minutes lecture
On veut donner du sens à nos données ? Bien sûr ! Mais comment s'y prendre ? Le container de plateforme "Open Data Hub" de Openshift est une excellente solution.
En général, donner du sens à des données passe par plusieurs étapes et regroupe différents métiers. La première phase passe par les ingénieurs de données (Data Engineers) qui acquièrent les données de plusieurs sources et effectuent les transformations requises. Ensuite, les scientifiques de données ( Data Scientists ) effectuent une analyse sur les données transformées et créent les modèles d'apprentissage automatique appropriés pour en tirer la valeur. Enfin, les spécialistes en mise en production ( DevOps ) sont chargés de déployer, surveiller et optimiser les services afin de les rendre exploitable.
Evidemment, ces différentes étapes non-centralisées posent problème au niveau de l'ingestion et analyse des données; de la gouvernance et du contrôle d'accès; de la mise en production et de la mise en commun du travail. Comment mutualiser le travail des Data Engineers, Data Scientists, et DevOps, sans ralentir le rythme de production?
Open Data Hub est un container de plateforme initié par Openshift. Son objectif est de livrer une plateforme qui fournit des outils open source d'intelligence artificielle dans le but final d'exécuter des charges de travail volumineuses. Il va donc permettre de centraliser, traiter et analyser les données mais aussi de construire des modèles d'apprentissage automatique ainsi que leur mise en production et le monitoring. Dans ce cadre, qui utilise Open Data Hub et pour quels uses-cases?
Open Data Hub est utilisé par tous les acteurs de l'ingénierie de l'apprentissage automatique : Data Scientists, Data Engineers, Data Analysts et ML Engineers. Open Data Hub va donc permettre de traiter en parallèle :
- De grands ensemble de données;
- D'exécuter des requêtes pour le traitement de ces données;
- D'entraîner et évaluer des modèles d'apprentissage;
- De mettre en oeuvre des pipelines de bout en bout;
Si vous désirez donner du sens à vos données tout en optimisant votre flux de travail d'apprentissage automatique et d'intelligence artificielle, Open Data Hub est le bienvenu. D'autres outils similaires existent tels que : Databricks, SnowFlake, Splunk.
Assurons que vos efforts investis dans le cloud soient rentables … dans le temps !