Intel® Distribution de OpenVINO™ boîte à outils

753640
3/6/2024

Présentation

Ce package contient les Intel® Distribution du logiciel OpenVINO™ Toolkit version 2023.3 LTS pour Linux*, Windows* et macOS*.

Téléchargements disponibles

  • Debian Linux*
  • Taille : 24.7 MB
  • SHA256 : A4A3591409D172426AACA10AA3E1C475CB4B9E645974D1C861D34A2C8AAA6B65
  • CentOS 7 (1908)*
  • Taille : 48.4 MB
  • SHA256 : BCC452F4B0D278A0DCCA31CDECB6242C92720DA322B8F298BC3E4B38001E9259
  • Red Hat Enterprise Linux 8*
  • Taille : 41.7 MB
  • SHA256 : DD1957FC1ED132A585BCF1312D3FBB2ACDD9C9CC3807C3CA82B21ECC4AD52CDD
  • Ubuntu 22.04 LTS*
  • Taille : 45.6 MB
  • SHA256 : CB83304D6046F497F2E83F51671B343B458ABE853B316FD7DDB625A5A895347D
  • Ubuntu 20.04 LTS*
  • Taille : 44.6 MB
  • SHA256 : 6307E2C08DEAB7B869493594437355097CBF00D787EC6B56B02B9387D6D85C03
  • Ubuntu 18.04 LTS*
  • Taille : 41.7 MB
  • SHA256 : 9F949F10681285DE4E1DE63ECEC47454953824B35F54445CB9D3ADC01C36DC31
  • Ubuntu 18.04 LTS*
  • Taille : 36.1 MB
  • SHA256 : 8FCD52411C38AC64452F88309CABA7F04D88795935B0CF7EDB6F8F59F7800CC1
  • macOS*
  • Taille : 30.3 MB
  • SHA256 : 7BDC40C927037B83313CC7AF58AF44AAE1565E19723FA3E67928D34E66CD5C5B
  • macOS*
  • Taille : 124.8 MB
  • SHA256 : EE286D13D2CDD0112BE550BB95BC15969BD9D2A2FECA76DEB7CFD5B9CED260D3
  • Windows 11*, Windows 10, 64-bit*
  • Taille : 95.9 MB
  • SHA256 : 764BA560FC79DE67A7E3F183A15ECEB97EEDA9A60032E3DD6866F7996745ED9D

Description détaillée

Nouveautés

Plus de couverture de l’IA générative et d’intégrations de cadre pour minimiser les modifications de code.

  • Amélioration de l’expérience prête à l’emploi pour les modèles de codage de phrases TensorFlow* grâce à l’installation de OpenVINO™ boîte à outils Tokenizers.
  • OpenVINO™ boîte à outils prend désormais en charge Mixture of Experts (MoE), une nouvelle architecture qui permet de traiter des modèles génératifs plus efficaces dans le pipeline.
  • Les développeurs JavaScript ont désormais un accès transparent à OpenVINO API. Cette nouvelle liaison permet une intégration fluide avec l’API JavaScript.
  • Nouveaux modèles remarquables validés : Mistral, StableLM-tuned-alpha-3b et StableLM-Epoch-3B.

Prise en charge plus large du modèle LLM (Large Language Model) et davantage de techniques de compression de modèle.

  • Amélioration de la qualité de la compression de poids INT4 pour les LLM en ajoutant la technique populaire, Activation-aware Weight Quantization, au Neural Network Compression Framework (NNCF). Cet ajout réduit les besoins en mémoire et permet d’accélérer la génération de jetons.
  • Profitez de performances LLM améliorées sur les processeurs Intel®, avec une amélioration de l’état de la mémoire interne et une précision INT8 pour le cache KV. Spécialement conçu pour les LLM multi-requêtes comme ChatGLM.
  • La version OpenVINO™ 2024.0 facilite la tâche des développeurs, en intégrant des fonctionnalités plus OpenVINO™ à l’écosystème Hugging Face*. Stockez les configurations de quantification des modèles populaires directement dans Hugging Face pour compresser les modèles au format INT4 tout en préservant la précision et les performances.

Plus de portabilité et de performances pour exécuter l’IA à la périphérie, dans le cloud ou localement.

  • Une architecture de plug-in de prévisualisation de l’unité de processeur neuronal (NPU) intégrée dans Intel® Core™ Ultra processeur est maintenant incluse dans le package OpenVINO™ principal sur PyPI.
  • Amélioration des performances sur ARM* en activant la bibliothèque de threading ARM. De plus, nous prenons désormais en charge les plateformes ARM multicœurs et avons activé la précision FP16 par défaut sur MacOS*.
  • Échantillons de service LLM nouveaux et améliorés de OpenVINO™ Model Server pour les entrées multi-lots et la génération augmentée de récupération (RAG).

OpenVINO™ d’exécution

Commun

  • L’ancienne API pour les liaisons CPP et Python a été supprimée.
  • La prise en charge de StringTensor a été étendue par des opérateurs tels que Gather, Reshape et Concat, afin d’améliorer la prise en charge des opérateurs de tokenizer et la conformité avec le hub TensorFlow.
  • oneDNN a été mis à jour à v3.3 pour les périphériques CPU et à v3.4 pour les cibles des périphériques GPU. (notes de version oneDNN : https://github.com/oneapi-src/oneDNN/releases).

Plug-in CPU

  • Les performances LLM sur les plateformes CPU Intel® ont été améliorées pour les systèmes basés sur AVX2 et AVX512, grâce à la quantification dynamique et à l’optimisation de l’état de la mémoire interne, comme la précision INT8 pour le cache KV. Les processeurs Intel® Core™ et Intel® Core™ Ultra de 13e et 14e générations utilisent AVX2 pour l’exécution des processeurs, et ces plateformes bénéficieront d’une accélération.
  • Activez ces fonctionnalités en définissant « DYNAMIC_QUANTIZATION_GROUP_SIZE » :"32 » et « KV_CACHE_PRECISION » :"u8 » dans le fichier de configuration.
  • La configuration de l’API « ov ::affinity » est désormais obsolète et sera supprimée dans la version 2025.0.
  • Les éléments suivants ont été améliorés et optimisés :
    • Structure multi-requête LLM (comme ChatGLM 2/3) pour BF16 sur les processeurs Intel® Xeon® Scalable de 4e et 5e génération.
    • Performance du modèle Mixtral.
    • Temps de compilation LLM compressé 8 bits et utilisation de la mémoire, précieux pour les modèles avec des intégrations volumineuses comme Qwen.
    • Réseaux convolutifs en précision FP16 sur plates-formes ARM.

Plug-in de périphérique GPU

  • Les éléments suivants ont été améliorés et optimisés :
    • Latence moyenne des jetons pour les LLM sur les plates-formes GPU intégrés (iGPU), en utilisant des modèles compressés INT4 avec une grande taille de contexte sur les processeurs Intel® Core™ Ultra.
    • Performances de recherche de faisceau LLM sur iGPU. On peut s’attendre à une diminution de la latence moyenne et du premier jeton pour des tailles de contexte plus importantes.
    • Performances multi-lots de YOLOv5 sur les plates-formes iGPU.
  • L’utilisation de la mémoire pour les LLM a été optimisée, permettant des modèles 7B avec un contexte plus large sur des plates-formes 16 Go.

Plug-in de dispositif NPU (fonctionnalité d’aperçu)

  • Le plugin NPU pour OpenVINO™ est maintenant disponible via PyPI (exécutez « pip install openvino »).

OpenVINO Python API

  • .add_extension signatures des méthodes ont été alignées, ce qui améliore le comportement de l’API pour une meilleure expérience utilisateur.

OpenVINO C API

  • ov_property_key_cache_mode (C++ ov ::cache_mode) active désormais les modes optimize_size et optimize_speed pour définir/obtenir le cache de modèle.
  • L’exception de surface VA sous Windows* a été corrigée.

OpenVINO Node.js API

  • OpenVINO : les liaisons JS sont cohérentes avec l’API C++ OpenVINO.
  • Un nouveau canal de distribution est désormais disponible : Registre logiciel Node Package Manager (npm) (consultez le guide d’installation)
  • L’API JavaScript est maintenant disponible pour les utilisateurs de Windows*, car certaines limitations pour les plates-formes autres que Linux* ont été supprimées.

Prise en charge du framework TensorFlow

  • Les tenseurs de chaînes sont maintenant supportés nativement, gérés sur les couches d’entrée, de sortie et intermédiaires #22024
    • TensorFlow Hub universal-phrase-encoder-multilingual inféré prêt à l’emploi.
    • Tenseurs de chaîne pris en charge pour les opérations Gather, Concat et Reshape.
    • Intégration avec le module openvino-tokenizers - l’importation d’openvino-tokenizers corrige automatiquement TensorFlow Frontend avec les traducteurs requis pour les modèles avec tokenisation.
  • Le secours pour Model Optimizer par opération vers le frontend hérité n’est plus disponible. La configuration de secours par .json restera jusqu’à ce que Model Optimizer soit abandonné #21523
  • La prise en charge des éléments suivants a été ajoutée :
    • Variables et ressources mutables telles que HashTable*, Variable, VariableV2 #22270
    • Nouveaux types de tenseurs : tf.u16, tf.u32 et tf.u64 #21864
    • 14 NOUVELLES OPS*. Vérifiez la liste ici (marquée comme NOUVEAU).
    • TensorFlow 2.15 #22180
  • Les problèmes suivants ont été résolus :
    • La conversion UpSampling2D s’est écrasée lorsque le type d’entrée int16 #20838
    • Index de liste IndexError pour Squeeze #22326
    • Calcul FloorDiv correct pour les entiers signés #22684
    • Correction d’une erreur de mauvaise distribution pour tf. TensorShape à ov. Forme partielle #22813
    • Correction de la lecture des attributs tf.string pour les modèles en mémoire #22752

Prise en charge de l’infrastructure ONNX

  • ONNX* Frontend utilise désormais l’API OpenVINO 2.0.

Prise en charge du framework PyTorch

  • Les noms des sorties décompressées de dict ou de tuple sont désormais plus clairs. #22821
  • FX Graph (torch.compile) prend désormais en charge les entrées kwarg, améliorant ainsi la couverture des types de données. #22397

Serveur de modèles OpenVINO

  • OpenVINO™ backend d’exécution utilisé est maintenant 2024.0.
  • La démo de génération de texte prend désormais en charge la taille de lots multiples, avec des clients en streaming et unaires.
  • Le client REST prend désormais en charge les servables basés sur des graphiques mediapipe, y compris les nœuds de pipeline python.
  • Les dépendances incluses ont reçu des mises à jour liées à la sécurité.
  • Le remodelage d’un modèle en cours d’exécution en fonction des demandes entrantes (forme automatique et taille automatique du lot) est obsolète et sera supprimé ultérieurement. L’utilisation des modèles de forme dynamiques d’OpenVINO est recommandée à la place.

Framework Neural Network Compression (NNCF)

  • L’algorithme de quantification de poids prenant en charge l’activation (AWQ) pour la compression des poids 4 bits prenant en charge les données est maintenant disponible. Il facilite une meilleure précision pour les LLM compressés avec un rapport élevé de poids 4 bits. Pour l’activer, utilisez le paramètre optionnel 'awq' dédié de l’API nncf.compress_weights().
  • Les modèles ONNX sont désormais pris en charge dans la quantification post-entraînement avec contrôle de précision, via la méthode nncf.quantize_with_accuracy_control(). Il peut être utilisé pour les modèles aux formats OpenVINO IR et ONNX.
  • Un tutoriel d’exemple de compression de poids est maintenant disponible, démontrant comment trouver les hyperparamètres appropriés pour le modèle TinyLLama à partir des transformateurs Hugging Face, ainsi que d’autres LLM, avec quelques modifications.

OpenVINO Tokenizer

  • Le support Regex a été amélioré.
  • La couverture du modèle a été améliorée.
  • Les métadonnées Tokenizer ont été ajoutées à rt_info.
  • Un support limité pour les modèles Tensorflow Text a été ajouté : convertissez MUSE pour TF Hub avec des entrées de chaîne.
  • OpenVINO Tokenizers ont maintenant leur propre référentiel : https://github.com/openvinotoolkit/openvino_tokenizers

Autres modifications et problèmes connus

Ordinateurs portables Jupyter

Les blocs-notes suivants ont été mis à jour ou nouvellement ajoutés :

Problèmes connus

Composant : PyTorch FE.

N° d’identification : S.O.

Description : à partir de la version 2024.0, les entrées et sorties du modèle n’auront plus de noms de tenseurs, sauf si explicitement définis pour s’aligner sur le comportement du framework PyTorch.

Composant : durée d’exécution du GPU.

Identité : 132376

Description : ralentissement de la latence de la première inférence pour les LLM sur les processeurs Intel® Core™ Ultra. Une baisse allant jusqu’à 10 à 20 % peut se produire en raison de l’optimisation radicale de la mémoire pour le traitement de longues séquences (environ 1,5 à 2 Go de réduction de l’utilisation de la mémoire).

Composant : durée d’exécution du processeur.

N° d’identification : S.O.

Description : les résultats de performance (première latence symbolique) peuvent différer de ceux offerts par la version OpenVINO précédente, pour l’inférence d’indice de « latence » des LLM avec de longues invites sur Intel® Xeon® plates-formes avec 2 sockets ou plus. La raison en est que tous les cœurs de processeur d’un seul socket exécutant l’application sont utilisés, ce qui réduit la surcharge de mémoire pour les LLM lorsque le contrôle numa n’est pas utilisé.

Solution : le comportement est attendu, mais la configuration des flux et des threads peut être utilisée pour inclure les cœurs de tous les sockets.

Obsolescence et prise en charge

L’utilisation de fonctionnalités et de composants obsolètes n’est pas conseillée. Ils sont disponibles pour permettre une transition en douceur vers de nouvelles solutions et seront abandonnés à l’avenir. Pour continuer à utiliser les fonctionnalités abandonnées, vous devrez revenir à la dernière version LTS OpenVINO les prenant en charge.

Pour plus de détails, reportez-vous à la page OpenVINO Fonctionnalités et composants hérités.

Abandonné en 2024.0 :

  • Composants d’exécution :
    • Intel® Gaussian & Neural Accelerator Intel® GNA). Envisagez d’utiliser l’unité de traitement neuronal (NPU) pour les systèmes de faible puissance tels que la Intel® Core™ Ultra ou la 14e génération et au-delà.
    • OpenVINO API C++/C/Python 1.0 (voir le guide de transition de l’API 2023.3 pour référence).
    • API héritée de tous les frontaux ONNX (appelée ONNX_IMPORTER_API)
    • Propriété « PerfomanceMode.UNDEFINED » dans le cadre de l’API Python OpenVINO
  • Outils:

Obsolète et à supprimer à l’avenir :

  • Le package d’outils de développement OpenVINO™ (pip install openvino-dev) sera supprimé des options d’installation et des canaux de distribution à partir de OpenVINO 2025.0.
  • Model Optimizer sera abandonné d’ici la fin OpenVINO 2025.0. Envisagez plutôt d’utiliser OpenVINO Model Converter (appel API : OVC). Suivez le guide de transition de conversion de modèle pour plus de détails.
  • OpenVINO’API Affinity sera abandonnée avec OpenVINO 2025.0. Il sera remplacé par des configurations de liaison CPU (ov ::hint ::enable_cpu_pinning).
  • OpenVINO Composants du serveur de modèles :
    • Le remodelage d’un modèle en cours d’exécution en fonction des demandes entrantes (forme automatique et taille automatique du lot) est obsolète et sera supprimé ultérieurement. L’utilisation des modèles de forme dynamiques d’OpenVINO est recommandée à la place.

Configuration requise

Avertissement. Certains matériels (y compris, mais sans s’y limiter, les GPU et les NPU) nécessitent l’installation manuelle de pilotes spécifiques et/ou d’autres composants logiciels pour fonctionner correctement et/ou utiliser au mieux les capacités matérielles. Cela peut nécessiter des mises à jour du système d’exploitation, y compris, mais sans s’y limiter, le noyau Linux, veuillez vous référer à leur documentation pour plus de détails. Ces modifications doivent être gérées par l’utilisateur et ne font pas partie de OpenVINO’installation. Ces modifications doivent être gérées par l’utilisateur et ne font pas partie de OpenVINO’installation. Pour connaître la configuration système requise, consultez la section Configuration requise dans les notes de mise à jour.

Consignes d’installation

Vous pouvez choisir comment installer OpenVINO™ Runtime en fonction de votre système d’exploitation :

Ce qui est inclus dans le package de téléchargement

  • OpenVINO™ Moteur d’exécution/d’inférence pour C/C++

Liens utiles

REMARQUE : liens ouverts dans une nouvelle fenêtre.

Ce téléchargement est également valide pour le ou les produits répertoriés ci-dessous.

Le contenu de cette page est une combinaison de traduction humaine et informatique du contenu original en anglais. Ce contenu vous est fourni pour votre commodité et à titre informatif seulement et ne saurait être totalement exact ou complet. En cas de contradiction entre la version anglaise de cette page et la traduction, c'est la version anglaise qui prévaut. Afficher la version anglaise de cette page.