En vedette

MDD-reID — Re-identification de personnes par Biometrie Soft

AIContexte: Polytech Nantes (R&D)

PyTorchTorchVisionVision TransformerFAISSDeep LearningCNN

MDD-reID — Re-identification de personnes par Biometrie Soft

Projet de R&D mené au LS2N (Laboratoire des Sciences du Numérique de Nantes, affilié CNRS) sous la supervision d'une chercheuse de l'équipe DUKE. Publié sous la forme d'un rapport de recherche de 73 pages couvrant une revue de littérature, la conception d'architectures, un protocole expérimental et une évaluation cross-domain. 25+ modèles entraînés, 60+ évaluations sur 3 benchmarks.

Extraction de features par régions corporelles (Vision Transformer)

Architecture Vision Transformer sur mesure produisant une représentation d'identité consciente des parties du corps. Traite des images 224x224 à travers 12 blocs Transformer avec un mécanisme de local awareness qui projette 196 patchs d'image en 14 régions corporelles, produisant un vecteur d'identité de 10 752 dimensions (14 x 768).

Fusion CLS token : chaque région locale est fusionnée avec le token CLS global via un paramètre lambda appris, capturant à la fois l'apparence globale et les détails fins par partie du corps
Dégel progressif : les 12 blocs Transformer sont gelés initialement, puis dégelés un par un toutes les 2 époques avec décroissance du learning rate (x0.8) pour prévenir l'oubli catastrophique des poids pré-entraînés
14 têtes de classification parallèles avec vote de type ensemble : scores softmax agrégés sur toutes les parties, loss CrossEntropy jointe rétropropagée à travers tout le réseau
Entraîné sur CUDA (NVIDIA 4060 Ti), ~1h40 par session d'entraînement

Prédiction d'attributs biométriques soft

Module de prédiction d'attributs opérant sur les embeddings du Transformer. 5 architectures comparées systématiquement (régression logistique, MLP, CNN1D, encodeur Transformer, hybride CNN1D+Transformer), CNN1D sélectionné pour le pipeline final.

Feature engineering des attributs : réduction de 28 annotations binaires brutes à 4 attributs équilibrés (genre, catégorie haut, type bas, présence de sac) par recatégorisation des colonnes binaires mutuellement exclusives en variables catégorielles, résolvant un sévère déséquilibre de classes (ex : ratio 85/15 sur les attributs de couleur)
Double tête de sortie : activation sigmoid pour 3 attributs binaires + softmax sur 10 classes pour l'attribut catégoriel
Évaluation de stratégies d'oversampling (SMOTE, ADASYN) sur l'espace d'embeddings, identification que les interdépendances entre attributs rendaient la génération synthétique inefficace, choix de l'approche par recatégorisation

Fusion embeddings + attributs

3 stratégies de fusion conçues et benchmarkées pour combiner les embeddings d'identité 10 752D avec les attributs biométriques prédits :

Fusion additive pondérée : scalaire alpha appris équilibrant embeddings et attributs projetés (alpha optimal ~0.92, confirmant la dominance des embeddings avec un signal complémentaire des attributs)
Fusion par gating : portes sigmoid par dimension pour une pondération adaptative par feature via produit de Hadamard
Fusion par concaténation : projection des attributs en 1 024D via couches linéaires + embeddings appris, concaténés pour un vecteur combiné de 12 800D

Recherche de similarité & évaluation cross-domain

Deux backends de retrieval parallèles implémentés pour le matching en galerie à grande échelle, comparés systématiquement sur des vecteurs 10 752D.

FAISS (IndexFlatIP) : recherche par produit scalaire accélérée GPU, passage à l'échelle sur des millions d'entrées
Similarité cosinus (PyTorch) : implémentation de référence avec normalisation L2 mise à l'échelle par sqrt(14)
Matrice d'évaluation cross-domain : chaque modèle entraîné sur un dataset, puis évalué sur les 3 jeux de test pour mesurer la généralisation au-delà des performances same-domain
Métriques : Rank-1, Rank-5, Rank-10 et mAP (mean Average Precision)

Résultats

Évaluation face aux modèles de l'état de l'art sur 3 benchmarks standards de ré-identification (Market-1501 : 1 501 identités / 32K images, DukeMTMC-reID : 1 812 identités / 36K images, CUHK03 : 1 360 identités) :

Market-1501 : 99.2% Rank-1, 99.6% Rank-5 (same-domain)
DukeMTMC-reID : 94.0% Rank-1, 92.7% mAP (cross-domain)
CUHK03 : 81.3% Rank-1, 76.5% mAP (cross-domain)
La fusion avec les attributs a maintenu le Rank-1 tout en améliorant le Rank-10, validant l'approche multi-modale comme signal complémentaire pour les requêtes difficiles

Stack technique

PythonPyTorchtorchvisiontimmFAISSCUDAscikit-learnNumPyPandasMatplotlibSciPy