La nouvelle version du framework de reconnaissance d’objets offre des performances en temps réel plus rapides et améliorées :


Vous ne regardez qu’une seule fois (YOLO) est un système de détection d’objets en temps réel à la fine pointe de la technologie. Sur un Pascal Titan X, il traite les images à 30 FPS et a un mAP de 57,9% sur le test-dev COCO.

…. Les systèmes de détection préalable réorientent les classificateurs ou les localisateurs pour effectuer la détection. Ils appliquent le modèle à une image à plusieurs endroits et à plusieurs échelles. Les zones à score élevé de l’image sont considérées comme des détections.

Nous utilisons une approche totalement différente. Nous appliquons un seul réseau neuronal à l’image complète. Ce réseau divise l’image en régions et prédit les boîtes de délimitation et les probabilités pour chaque région. Ces boîtes de délimitation sont pondérées par les probabilités prévues.

Notre modèle présente plusieurs avantages par rapport aux systèmes à base de classificateurs. Il regarde l’image entière au moment de l’essai, de sorte que ses prédictions sont éclairées par le contexte global de l’image. Il fait également des prédictions avec une seule évaluation de réseau contrairement à des systèmes comme R-CNN qui nécessitent des milliers pour une seule image. Cela le rend extrêmement rapide, plus de 1000x plus rapide que R-CNN et 100x plus rapide que Fast R-CNN.

Plus d’infos

Source : pjreddie.com

Laisser un commentaire