La vidéosurveillance s'est considérablement développée ces dernières années. Les sources sont de plus en plus nombreuses, en mouvement ou avec des qualités variables : on parle de système distribué. L'analyse des données produites par de tels systèmes est devenue un enjeu majeur. En effet, si la détection des objets et des actions capturés par une caméra individuelle est aujourd'hui accessible à travers les modèles d'apprentissage automatique ou de reconnaissance de forme, la modélisation et la détection automatique d'évènements longue durée et faisant intervenir un réseau de caméras de surveillance restent un défi. Ainsi, comment permettre la détection d'évènements complexes dans un réseau de caméras de surveillance hétérogènes et distribuées ? Afin de répondre à cette problématique, nous proposons un framework pour l'extraction et l'enrichissement de caractéristiques à partir de caméras de vidéosurveillance. Il repose sur 1) un pipeline de modèles de Deep Learning pour l'extraction de caractéristiques de vidéos (extraction d'images-clés, détections d'objets / segmentation d'instances, extraction d'attributs, détection de relations spatiales, réidentification), 2) un module de génération d'un graphe de connaissances, 3) un module d'enrichissement du graphe pour améliorer la qualité des détections, et 4) un module d'analyse pour la détection d'événements complexes sur le graph. Son architecture modulaire permet d'interchanger les étapes d'extraction de caractéristiques provenant des vidéos. Le poster détaillera le framework proposé et illustrera le processus de création du graphe à partir de vidéos provenant du benchmark Smart-City CCTV Violence Detection Dataset (SCVD). L'intérêt de l'approche est de pouvoir, à terme, se focaliser sur la sémantique des vidéos comme l'isolation de segments vidéo ou d'actions (filtres/projections sur le graph), la détection d'événements ou activités au moyen d'algorithmes de Graph Mining / GNN.