Triton Inference Server 

Communauté d’assistance GitHub Service et surveillance du modèle

Triton Inference Server fournit une solution d’inférence cloud et Edge optimisée pour les CPU et les GPU. Triton prend en charge un protocole HTTP/REST et GRPC qui permet aux clients distants de demander une inférence pour tout modèle géré par le serveur. Pour les déploiements périphériques, Triton est disponible sous forme de bibliothèque partagée avec une API C qui permet d’inclure toutes les fonctionnalités de Triton directement dans une application.

Caractéristiques

Plusieurs cadres d’apprentissage en profondeur. Triton peut gérer n’importe quel nombre et combinaison de modèles (limités par les ressources du disque système et de la mémoire). Triton prend en charge les formats de modèles TensorRT, TensorFlow GraphDef, TensorFlow SavedModel, ONNX, PyTorch TorchScript et OpenVINO. TensorFlow 1.x et TensorFlow 2.x sont pris en charge. Triton prend également en charge les modèles intégrés TensorFlow-TensorRT et ONNX-TensorRT.

Exécution simultanée du modèle. Plusieurs modèles (ou plusieurs instances du même modèle) peuvent s’exécuter simultanément sur le même GPU ou sur plusieurs GPU.

Traitement par lots dynamique. Pour les modèles prenant en charge le traitement par lots, Triton implémente plusieurs algorithmes de planification et de traitement par lots qui combinent des requêtes d’inférence individuelles pour améliorer le débit d’inférence. Ces décisions de planification et de traitement par lots sont transparentes pour le client demandant l’inférence.

Backends extensibles. En plus des frameworks d’apprentissage en profondeur, Triton fournit une API backend qui permet à Triton d’être étendu avec n’importe quelle logique d’exécution de modèle implémentée en Python ou C++, tout en bénéficiant de la prise en charge du CPU et du GPU, de l’exécution simultanée, du traitement par lots dynamique et d’autres fonctionnalités fournies par Triton.

Modéliser des pipelines. Les ensembles Triton représentent un pipeline d’un ou plusieurs modèles et la connexion des tenseurs d’entrée et de sortie entre ces modèles. Une seule demande d’inférence adressée à un ensemble déclenchera l’exécution de l’ensemble du pipeline.

Protocoles d’inférence HTTP/REST et GRPC basés sur le protocole KFServing développé par la communauté.

Une API C permet à Triton d’être lié directement à votre application pour les cas d’utilisation en périphérie et en cours de processus.

Métriques indiquant l’utilisation du GPU, le débit du serveur et la latence du serveur. Les métriques sont fournies au format de données Prometheus.

Site officiel

Tutoriel et documentation

Enter your contact information to continue reading