Spark Streaming 

La Fondation logicielle ApacheTraitement en flux de données

Spark Streaming est une extension de l’API Spark principale qui permet un traitement de flux évolutif, à haut débit et tolérant aux pannes des flux de données en direct. Les données peuvent être ingérées à partir de nombreuses sources telles que Kafka, Kinesis ou les sockets TCP, et peuvent être traitées à l’aide d’algorithmes complexes exprimés avec des fonctions de haut niveau telles que mapper, réduire, joindre et fenêtrer. Enfin, les données traitées peuvent être transférées vers des systèmes de fichiers, des bases de données et des tableaux de bord en direct.

Caractéristiques

Fast recovery from failures and stragglers.
Better load balancing and resource usage.
Combining of streaming data with static datasets and interactive queries.
Native integration with advanced processing libraries (SQL, machine learning, graph processing)

Site officiel

Tutoriel et documentation

Enter your contact information to continue reading