Pour les entreprises et organisations de toutes sortes, la transformation de données en intelligence exploitable peut marquer la différence entre effort et épanouissement. Optimiser la valeur de l'information nécessite l'analyse de données : le processus par lequel les données brutes sont analysées pour tirer des conclusions.
Alors que presque toutes les organisations font de l'analyse de données, l'analyse moderne offre une compréhension et une vision sans précédent. Jusqu'où votre entreprise a-t-elle exploité cette culture axée sur les données et l'analyse? Et quelle est la prochaine étape?
Tout commence par le pipeline de données.
Compréhension du pipeline de données
L'établissement d'une approche d'analyse de données bien structurée est un processus évolutif qui exige du temps et de l'engagement. Pour les organisations désireuses de passer à l'étape supérieure, il est essentiel de comprendre le pipeline de données et le cycle de vie des données qui passent par ce pipeline.
- Ingestion : collecte de données
La première phase du pipeline de données est l'ingestion. À ce stade, les données sont collectées à partir des sources et transférées dans un système où elles seront stockées. La collecte de données peut se faire en continu ou en plusieurs étapes distinctes.
Pour la plupart des données non structurées (entre 80 et 90 pour cent selon IDC1), l'ingestion est à la fois le début et la fin du cycle de vie des données. Ces données, appelées « dark data », sont ingérées mais jamais analysées ou utilisées pour avoir une incidence sur le reste de l'organisation.
Aujourd'hui, l'une des principales tendances de l'analyse avancée commence dès la phase d'ingestion. Dans ces cas, l'analyse en temps réel des données en continu se produit en même temps que le processus d'ingestion. On parle alors d'analyse en périphérie qui nécessite des performances de calcul élevées avec une faible consommation d'énergie. L'analyse en périphérie implique souvent des appareils et capteurs IoT qui recueillent des données sur d'autres appareils, tels que les machines d'usine, les lampadaires de ville, le matériel agricole ou d'autres objets connectés.
- Préparation : traitement de données
La deuxième phase du pipeline de données prépare les données à l'utilisation et au stockage des informations dans un système accessible aux utilisateurs et aux applications. Afin d'obtenir une qualité optimale, les données doivent être nettoyées et transformées en informations facilement accessibles et pouvant faire l'objet d'une requête.
Généralement, les informations sont préparées et stockées dans une base de données. Différents types de bases de données sont utilisés pour comprendre et analyser les données sous différentes formes et à des fins diverses. Les systèmes de gestion de bases de données relationnelles SQL*, comme SAP HANA* ou Oracle DB*, traitent en général des ensembles de données structurés. Cela peut inclure les données financières, la vérification d'identité ou encore le suivi des commandes. Les charges de travail des données non structurées et l'analyse en temps réel sont plus susceptibles d'utiliser des bases de données NoSQL* comme Cassandra et HBase.
L'optimisation de cette phase du pipeline de données nécessite des performances de calcul et de mémoire ainsi qu'une gestion de données, pour des requêtes plus rapides. Elle exige également une évolutivité pour prendre en charge des volumes de données élevés. Les données peuvent être stockées et hiérarchisées en fonction de l'urgence et de leur utilité. Ainsi, la vitesse d'accès aux données les plus importantes est très élevée.
Les technologies Intel® alimentent quelques-uns des boîtiers disposant de bases de données qui exigent une grande capacité de stockage et de mémoire. Grâce aux unités de stockage Intel® Optane™, Alibaba Cloud* a pu fournir 100 To de capacité de stockage à chaque instance POLARDB.
- Analyse : modélisation de données
À la troisième phase du pipeline de données, les données stockées sont analysées, et les algorithmes de modélisation sont créés. Les données peuvent être analysées par une plateforme d'analyse complète comme SAP, Oracle ou SAS, ou traitées à grande échelle par des outils comme Apache Spark*.
L'accélération et la réduction des coûts de cette phase du pipeline de données est essentielle pour bénéficier d'un avantage concurrentiel. Les bibliothèques et les kits d'outils peuvent réduire le temps et les coûts de développement. Dans le même temps, les optimisations matérielles et logicielles peuvent contribuer à réduire les coûts des serveurs et des centres de données tout en améliorant les délais de réponse.
Des technologies comme les analyses en mémoire peuvent améliorer les capacités d'analyse de données et rendre les investissements d'analyse plus rentables. Grâce à Intel, l'entreprise de produits chimiques Evonik a réalisé des redémarrages 17 fois plus rapides pour les tables de données SAP HANA*2
- Action : prise de décision
Après ingestion, préparation et analyse, les données sont prêtes à être exploitées. La visualisation et le rapport de données servent à communiquer les résultats de l'analyse.
Habituellement, une interprétation faite par des spécialistes ou analystes de données était nécessaire afin de transformer ces résultats en données de veille économique pour une plus grande exploitation. Cependant, les entreprises ont commencé à utiliser l'IA pour automatiser les actions (comme envoyer une équipe d'entretien ou changer la température d'une pièce) basées sur l'analyse.
Pour des informations plus approfondies sur le pipeline de données et sur la façon dont les organisations peuvent faire évoluer leurs capacités d'analyse, consultez notre livre électronique From Data to Insights: Maximizing Your Data Pipeline (Des données aux informations : comment optimiser votre pipeline de données).
Jusqu'où votre entreprise a-t-elle exploité cette culture axée sur les données et l'analyse? Et quelle est la prochaine étape?
Les quatre types d'analyse de données
L'analyse des données peut être divisée en quatre types de base : l'analyse descriptive, l'analyse diagnostique, l'analyse prédictive et l'analyse prescriptive. Il s'agit d'étapes menant à une analyse plus mature, chaque étape réduisant peu à peu la distance entre la phase d'« analyse » et la phase d'« action » du pipeline de données.
- Analyses descriptives
L'analyse descriptive permet de résumer et de visualiser les données historiques. En d'autres termes, elle informe les organisations sur leurs activités antérieures.
Type d'analyse le plus simple, l'analyse descriptive peut être aussi élémentaire qu'un graphique analysant les chiffres de vente de l'année dernière. Tout effort d'analyse dépend d'une base d'analyse descriptive solide. De nombreuses entreprises s'appuient encore essentiellement sur cette forme d'analyse qui comprend des tableaux de bord, des visualisations de données et des outils de rapport.
- Analyses diagnostiques
À mesure que les efforts d'analyse mûrissent, les organisations commencent à poser des questions plus difficiles sur leurs données historiques. L'analyse diagnostique ne se limite pas qu'à l'examen de vos activités antérieures, mais analyse également les raisons de ces activités. Pour effectuer une analyse diagnostique, les analystes doivent être en mesure de faire des requêtes détaillées pour identifier les tendances et les liens de causalité.
Grâce à l'analyse diagnostique, de nouveaux rapports entre variables peuvent être découverts : pour une entreprise de vêtements de sport par exemple, une augmentation des chiffres de vente dans le Midwest peut être en corrélation avec son climat ensoleillé. L'analyse diagnostique fait correspondre les données aux motifs et cherche à expliquer les données anormales ou aberrantes.
- Analyse prédictive
Alors que les deux premiers types d'analyse examinent les données historiques, l'analyse prédictive et l'analyse prescriptive, elles, se penchent sur l'avenir. L'analyse prédictive fait une prévision des résultats probables à partir des tendances identifiées et des modèles statistiques provenant des données historiques.
La mise en place d'une stratégie d'analyse prédictive nécessite un modèle de construction et de validation permettant de créer des simulations optimisées, afin que les décideurs d'entreprise obtiennent les meilleurs résultats. L'apprentissage automatique est couramment utilisé pour l'analyse prédictive et les modèles de formation sur des ensembles de données très étendus afin de faire des prévisions plus intelligentes.
- Analyses prescriptives
Un autre type d'analyse avancée est l'analyse prescriptive. Grâce à l'analyse prescriptive, qui recommande la meilleure solution à partir de l'analyse prédictive, l'évolution vers une véritable prise de décision fondée sur les données est complète.
L'analyse prescriptive s'appuie énormément sur l'analyse de l'apprentissage automatique et sur les réseaux neuronaux. Ces charges de travail s'exécutent sur un calcul et sur une mémoire aux performances élevées. Ce type d'analyse nécessite une base solide qui s'appuie sur les trois autres types d'analyse et ne peut être exécuté que par des entreprises dotées d'une stratégie d'analyse très évoluée et disposées à consacrer des ressources importantes à cet effort.
Exemples d'utilisation de l'analyse de données
La technologie Intel® modifie la façon dont les organisations d'entreprises modernes pratiquent l'analyse. Grâce à des cas d'utilisation applicables à de nombreux secteurs dans le monde entier, Intel s'efforce de faire évoluer l'analyse en permanence, tout en contribuant à l'optimisation des performances et de la rentabilité des entreprises.
- Secteur manufacturier
Pour l'industrie automobile, le contrôle qualité permet d'économiser de l'argent, et de sauver des vies. À l'usine automatisée d'Audi, les analystes ont utilisé l'échantillonnage pour garantir la qualité de la soudure. Grâce à l'analyse prédictive en périphérie, s'appuyant sur le logiciel Industrial Edge Insights d'Intel, le fabricant peut procéder à la vérification automatique de toutes les soudures sur toutes les voitures, et prévoir les problèmes de soudure en fonction des résultats des relevés des capteurs obtenus lors de la soudure.
- Santé
Former l'IA à lire des radiographies du thorax permet d'obtenir un diagnostic plus rapide pour les patients et les professionnels de santé. Grâce aux processeurs Intel® Xeon® Scalable qui alimentent le réseau neuronal, l'organisation de recherche SURF a réduit la durée de formation d'un mois à six heures, tout en améliorant la précision.
- Télécommunications
Les téléphones intelligents et l'Internet mobile ont créé des quantités de données mobiles sans précédent. Afin d'améliorer l'expérience client, l'entreprise de télécommunications Bharati Airtel a déployé des analyses de réseau avancées à l'aide des processeurs Intel® Xeon® et des unités de stockage SSD Intel®, pour obtenir des détections et des corrections des problèmes de réseau plus rapidement.
Les technologies Intel® d'analyse de données
Grâce à un vaste écosystème de technologies et de partenaires qui permettent aux entreprises de créer les solutions de demain, Intel fournit des services d'analyse avancée aux entreprises du monde entier. Du centre de données à la périphérie, Intel travaille à tous les niveaux de l'écosystème de l'analyse pour fournir un apport considérable et des performances optimales.
- Les processeurs Intel® Xeon® Scalable permettent d'analyser des quantités de données massives à une vitesse incroyable, que ce soit en périphérie, dans le centre de données ou dans le nuage.
- La technologie Intel® Optane™ représente une nouvelle approche de la mémoire et du stockage qui permet de surmonter les goulots d'étranglement liés au transfert et au stockage des données.
- Les FPGA Intel® accélèrent le centre de données afin d'améliorer les délais de réponse.
- Les solutions Intel® Select sont testées pour garantir des performances optimales, ce qui permet d'éviter les approximations et d'accélérer le déploiement de solutions.