En quoi consiste l'analyse de données?

La création de données est plus rapide que jamais. Cependant, tirez-vous suffisamment avantage des données que vous collectez?

Présentation de l'analyse de données

  • L'analyse de données transforme les données brutes en connaissances et informations pouvant être exploitées pour de meilleures prises de décision.

  • Les données passent par quatre phases de pipeline au cours de l'analyse : l'ingestion (collecte de données), la préparation (traitement de données), l'analyse (modélisation de données) et l'action (prise de décision).

  • Les analyses avancées utilisant l'apprentissage automatique et l'intelligence artificielle (IA) constituent la toute nouvelle frontière pour les organisations dotées de capacités d'analyse matures.

author-image

Par

Pour les entreprises et organisations de toutes sortes, la transformation de données en intelligence exploitable peut marquer la différence entre effort et épanouissement. Optimiser la valeur de l'information nécessite l'analyse de données : le processus par lequel les données brutes sont analysées pour tirer des conclusions.

Alors que presque toutes les organisations font de l'analyse de données, l'analyse moderne offre une compréhension et une vision sans précédent. Jusqu'où votre entreprise a-t-elle exploité cette culture axée sur les données et l'analyse? Et quelle est la prochaine étape?

Tout commence par le pipeline de données.

Compréhension du pipeline de données

L'établissement d'une approche d'analyse de données bien structurée est un processus évolutif qui exige du temps et de l'engagement. Pour les organisations désireuses de passer à l'étape supérieure, il est essentiel de comprendre le pipeline de données et le cycle de vie des données qui passent par ce pipeline.

  • Ingestion : collecte de données
    La première phase du pipeline de données est l'ingestion. À ce stade, les données sont collectées à partir des sources et transférées dans un système où elles seront stockées. La collecte de données peut se faire en continu ou en plusieurs étapes distinctes.

    Pour la plupart des données non structurées (entre 80 et 90 pour cent selon IDC1), l'ingestion est à la fois le début et la fin du cycle de vie des données. Ces données, appelées « dark data », sont ingérées mais jamais analysées ou utilisées pour avoir une incidence sur le reste de l'organisation.

    Aujourd'hui, l'une des principales tendances de l'analyse avancée commence dès la phase d'ingestion. Dans ces cas, l'analyse en temps réel des données en continu se produit en même temps que le processus d'ingestion. On parle alors d'analyse en périphérie qui nécessite des performances de calcul élevées avec une faible consommation d'énergie. L'analyse en périphérie implique souvent des appareils et capteurs IoT qui recueillent des données sur d'autres appareils, tels que les machines d'usine, les lampadaires de ville, le matériel agricole ou d'autres objets connectés.
     
  • Préparation : traitement de données
    La deuxième phase du pipeline de données prépare les données à l'utilisation et au stockage des informations dans un système accessible aux utilisateurs et aux applications. Afin d'obtenir une qualité optimale, les données doivent être nettoyées et transformées en informations facilement accessibles et pouvant faire l'objet d'une requête.

    Généralement, les informations sont préparées et stockées dans une base de données. Différents types de bases de données sont utilisés pour comprendre et analyser les données sous différentes formes et à des fins diverses. Les systèmes de gestion de bases de données relationnelles SQL*, comme SAP HANA* ou Oracle DB*, traitent en général des ensembles de données structurés. Cela peut inclure les données financières, la vérification d'identité ou encore le suivi des commandes. Les charges de travail des données non structurées et l'analyse en temps réel sont plus susceptibles d'utiliser des bases de données NoSQL* comme Cassandra et HBase.

    L'optimisation de cette phase du pipeline de données nécessite des performances de calcul et de mémoire ainsi qu'une gestion de données, pour des requêtes plus rapides. Elle exige également une évolutivité pour prendre en charge des volumes de données élevés. Les données peuvent être stockées et hiérarchisées en fonction de l'urgence et de leur utilité. Ainsi, la vitesse d'accès aux données les plus importantes est très élevée.

    Les technologies Intel® alimentent quelques-uns des boîtiers disposant de bases de données qui exigent une grande capacité de stockage et de mémoire. Grâce aux unités de stockage Intel® Optane™, Alibaba Cloud* a pu fournir 100 To de capacité de stockage à chaque instance POLARDB.
     
  • Analyse : modélisation de données
    À la troisième phase du pipeline de données, les données stockées sont analysées, et les algorithmes de modélisation sont créés. Les données peuvent être analysées par une plateforme d'analyse complète comme SAP, Oracle ou SAS, ou traitées à grande échelle par des outils comme Apache Spark*.

    L'accélération et la réduction des coûts de cette phase du pipeline de données est essentielle pour bénéficier d'un avantage concurrentiel. Les bibliothèques et les kits d'outils peuvent réduire le temps et les coûts de développement. Dans le même temps, les optimisations matérielles et logicielles peuvent contribuer à réduire les coûts des serveurs et des centres de données tout en améliorant les délais de réponse.

    Des technologies comme les analyses en mémoire peuvent améliorer les capacités d'analyse de données et rendre les investissements d'analyse plus rentables. Grâce à Intel, l'entreprise de produits chimiques Evonik a réalisé des redémarrages 17 fois plus rapides pour les tables de données SAP HANA*2
     
  • Action : prise de décision
    Après ingestion, préparation et analyse, les données sont prêtes à être exploitées. La visualisation et le rapport de données servent à communiquer les résultats de l'analyse.

    Habituellement, une interprétation faite par des spécialistes ou analystes de données était nécessaire afin de transformer ces résultats en données de veille économique pour une plus grande exploitation. Cependant, les entreprises ont commencé à utiliser l'IA pour automatiser les actions (comme envoyer une équipe d'entretien ou changer la température d'une pièce) basées sur l'analyse.

Pour des informations plus approfondies sur le pipeline de données et sur la façon dont les organisations peuvent faire évoluer leurs capacités d'analyse, consultez notre livre électronique From Data to Insights: Maximizing Your Data Pipeline (Des données aux informations : comment optimiser votre pipeline de données).

Jusqu'où votre entreprise a-t-elle exploité cette culture axée sur les données et l'analyse? Et quelle est la prochaine étape?

Les quatre types d'analyse de données

L'analyse des données peut être divisée en quatre types de base : l'analyse descriptive, l'analyse diagnostique, l'analyse prédictive et l'analyse prescriptive. Il s'agit d'étapes menant à une analyse plus mature, chaque étape réduisant peu à peu la distance entre la phase d'« analyse » et la phase d'« action » du pipeline de données.

  • Analyses descriptives
    L'analyse descriptive permet de résumer et de visualiser les données historiques. En d'autres termes, elle informe les organisations sur leurs activités antérieures.

    Type d'analyse le plus simple, l'analyse descriptive peut être aussi élémentaire qu'un graphique analysant les chiffres de vente de l'année dernière. Tout effort d'analyse dépend d'une base d'analyse descriptive solide. De nombreuses entreprises s'appuient encore essentiellement sur cette forme d'analyse qui comprend des tableaux de bord, des visualisations de données et des outils de rapport.
     
  • Analyses diagnostiques
    À mesure que les efforts d'analyse mûrissent, les organisations commencent à poser des questions plus difficiles sur leurs données historiques. L'analyse diagnostique ne se limite pas qu'à l'examen de vos activités antérieures, mais analyse également les raisons de ces activités. Pour effectuer une analyse diagnostique, les analystes doivent être en mesure de faire des requêtes détaillées pour identifier les tendances et les liens de causalité.

    Grâce à l'analyse diagnostique, de nouveaux rapports entre variables peuvent être découverts : pour une entreprise de vêtements de sport par exemple, une augmentation des chiffres de vente dans le Midwest peut être en corrélation avec son climat ensoleillé. L'analyse diagnostique fait correspondre les données aux motifs et cherche à expliquer les données anormales ou aberrantes.
     
  • Analyse prédictive
    Alors que les deux premiers types d'analyse examinent les données historiques, l'analyse prédictive et l'analyse prescriptive, elles, se penchent sur l'avenir. L'analyse prédictive fait une prévision des résultats probables à partir des tendances identifiées et des modèles statistiques provenant des données historiques.

    La mise en place d'une stratégie d'analyse prédictive nécessite un modèle de construction et de validation permettant de créer des simulations optimisées, afin que les décideurs d'entreprise obtiennent les meilleurs résultats. L'apprentissage automatique est couramment utilisé pour l'analyse prédictive et les modèles de formation sur des ensembles de données très étendus afin de faire des prévisions plus intelligentes.
     
  • Analyses prescriptives
    Un autre type d'analyse avancée est l'analyse prescriptive. Grâce à l'analyse prescriptive, qui recommande la meilleure solution à partir de l'analyse prédictive, l'évolution vers une véritable prise de décision fondée sur les données est complète.

    L'analyse prescriptive s'appuie énormément sur l'analyse de l'apprentissage automatique et sur les réseaux neuronaux. Ces charges de travail s'exécutent sur un calcul et sur une mémoire aux performances élevées. Ce type d'analyse nécessite une base solide qui s'appuie sur les trois autres types d'analyse et ne peut être exécuté que par des entreprises dotées d'une stratégie d'analyse très évoluée et disposées à consacrer des ressources importantes à cet effort.

Exemples d'utilisation de l'analyse de données

La technologie Intel® modifie la façon dont les organisations d'entreprises modernes pratiquent l'analyse. Grâce à des cas d'utilisation applicables à de nombreux secteurs dans le monde entier, Intel s'efforce de faire évoluer l'analyse en permanence, tout en contribuant à l'optimisation des performances et de la rentabilité des entreprises.

  • Secteur manufacturier
    Pour l'industrie automobile, le contrôle qualité permet d'économiser de l'argent, et de sauver des vies. À l'usine automatisée d'Audi, les analystes ont utilisé l'échantillonnage pour garantir la qualité de la soudure. Grâce à l'analyse prédictive en périphérie, s'appuyant sur le logiciel Industrial Edge Insights d'Intel, le fabricant peut procéder à la vérification automatique de toutes les soudures sur toutes les voitures, et prévoir les problèmes de soudure en fonction des résultats des relevés des capteurs obtenus lors de la soudure.

  • Santé
    Former l'IA à lire des radiographies du thorax permet d'obtenir un diagnostic plus rapide pour les patients et les professionnels de santé. Grâce aux processeurs Intel® Xeon® Scalable qui alimentent le réseau neuronal, l'organisation de recherche SURF a réduit la durée de formation d'un mois à six heures, tout en améliorant la précision.

  • Télécommunications
    Les téléphones intelligents et l'Internet mobile ont créé des quantités de données mobiles sans précédent. Afin d'améliorer l'expérience client, l'entreprise de télécommunications Bharati Airtel a déployé des analyses de réseau avancées à l'aide des processeurs Intel® Xeon® et des unités de stockage SSD Intel®, pour obtenir des détections et des corrections des problèmes de réseau plus rapidement.

Les technologies Intel® d'analyse de données

Grâce à un vaste écosystème de technologies et de partenaires qui permettent aux entreprises de créer les solutions de demain, Intel fournit des services d'analyse avancée aux entreprises du monde entier. Du centre de données à la périphérie, Intel travaille à tous les niveaux de l'écosystème de l'analyse pour fournir un apport considérable et des performances optimales.

  • Les processeurs Intel® Xeon® Scalable permettent d'analyser des quantités de données massives à une vitesse incroyable, que ce soit en périphérie, dans le centre de données ou dans le nuage.
  • La technologie Intel® Optane™ représente une nouvelle approche de la mémoire et du stockage qui permet de surmonter les goulots d'étranglement liés au transfert et au stockage des données.
  • Les FPGA Intel® accélèrent le centre de données afin d'améliorer les délais de réponse.
  • Les solutions Intel® Select sont testées pour garantir des performances optimales, ce qui permet d'éviter les approximations et d'accélérer le déploiement de solutions.

Foire aux questions

L'analyse de données est le processus par lequel les informations passent des données brutes à des données exploitables pour l'entreprise.

L'analyse des données massives (Big Data) utilise des ensembles de données à grande échelle pour dévoiler de nouveaux rapports et mieux comprendre de plus grandes quantités d'informations.

L'analyse avancée n'est pas une technologie ou un ensemble de technologies spécifiques. Il s'agit d'une classification des cas d'utilisation et des solutions qui utilisent des technologies avancées comme l'apprentissage automatique, l'analyse augmentée et les réseaux neuronaux.

L'analyse de données fournit des données de veille économique qui permettent aux organisations de comprendre les événements antérieurs, de prévoir les événements futurs et de planifier leurs actions.

Les quatre phases du pipeline de données sont l'ingestion, la préparation, l'analyse et l'action.

L'analyse descriptive et l'analyse diagnostique se penchent toutes deux sur la vie antérieure de l'entreprise. L'analyse descriptive se concentre sur les événements antérieurs de l'entreprise en eux-mêmes, tandis que l'analyse diagnostique étudie les causalités de ces évènements.

L'analyse descriptive se penche sur le passé de l'entreprise pour parler des événements qui ont déjà eu lieu, et constitue la base de tous les autres types d'analyses. L'analyse prescriptive formule des recommandations à partir des données existantes et les algorithmes prédictifs.

L'analyse prédictive et l'analyse prescriptive donnent toutes deux des informations sur le futur de l'entreprise. L'analyse prédictive fait une prévision à partir des événements prédits et l'analyse prescriptive recommande un plan d'action à partir de ces prévisions.

L'analyse prédictive permet de mieux anticiper les événements futurs. L'analyse prédictive peut identifier les besoins de maintenance avant qu'ils ne se développent ou évaluer l'impact le plus probable des conditions économiques sur les futures prévisions de ventes.

Infos sur le produit et ses performances

1« What Your Data Isn’t Telling You: Dark Data Presents Problems And Opportunities For Big Businesses » (Ce que vos données ne vous disent pas : les données sombres dévoilent les problèmes et les opportunités à saisir pour les grandes entreprises), Forbes, juin 2019, forbes.com/sites/marymeehan/2019/06/04/what-your-data-isnt-telling-you-dark-data-presents-problems-and-opportunities-for-big-businesses/#3086fe21484e.
2Charge de travail simulée SAP HANA* pour l'édition SAP BW du banc d'essai de l'application standard SAP HANA* Version 2 en date du 30 mai 2018. Il est possible que les logiciels et charges de travail utilisés dans les tests de performance aient été optimisés uniquement pour les microprocesseurs Intel®. Les tests de performance tels que SYSmark* et MobileMark* portent sur des configurations, composants, logiciels, opérations et fonctions spécifiques. Les résultats peuvent varier en fonction de ces facteurs. Pour l'évaluation complète d'un produit, il convient de consulter d'autres tests et d'autres sources d'informations, notamment pour connaître le comportement de ce produit lorsqu'il est associé à d'autres composants. Pour plus d'informations, voir www.intel.com/benchmarks. Les résultats de performance s'appuient sur les tests réalisés aux dates indiquées dans les configurations et peuvent ne pas refléter toutes les mises à jour de sécurité disponibles. Voir la sauvegarde pour obtenir les détails de configuration. Aucun produit ou composant ne saurait être totalement sécurisé en toutes circonstances. Configuration de base avec DRAM traditionnelle : serveur Lenovo ThinkSystem SR950 doté de 8 processeurs Intel® Xeon® Platinum 8176M (28 cœurs, 165 watts, 2,1 GHz). La mémoire totale est composée de 48 modules RDIMM TruDDR4 de 16 Go à 2 666 MHz et de 5 unités de stockage (SSD) ThinkSystem PM1633a de 2,5 pouces d'une capacité de 3,84 To SAS et de 12 Go de pilotes remplaçables à chaud pour le stockage SAP HANA*. Le système d'exploitation est SUSE Linux Enterprise Server 12* SP3. Il utilise SAP HANA* 2.0 SPS 03 avec un ensemble de données de 6 To. Temps de démarrage moyen pour toutes les données après préchargement tableau pour 10 itérations : 50 minutes. Nouvelle configuration avec une combinaison de DRAM et mémoire persistante Intel® Optane™ DC : Intel Lightning Ridge SDP avec 4 processeurs CXL QQ89 AO (24 cœurs, 165 W, 2,20 GHz). La mémoire totale se compose de 24 x 32 Go DDR4* 2 666 MHz et de 24 x 128 Go AEP ES2, et de 1 Intel® SSD DC série S3710 800 Go, de 3 Intel® SSD DC série P4600 2,0 To, de 3 Intel® SSD DC série S4600 1,9 To. BIOS version WW33’18. Le système d'exploitation est SUSE Linux*4 Enterprise Server 15. Il utilise SAP HANA* 2.0 SPS 03 (un noyau PTF spécifique de SUSE a été appliqué) avec un ensemble de données de 1,3 To. Temps de démarrage moyen pour le chargement optimisé des tableaux (amélioration de 17 fois).