Certains sont spécialistes du bruit pour détecter quand quelque chose va mal. Beaucoup d’autres experts peuvent détecter des problèmes avec les engins du quotidien, dans leurs domaines respectifs, tout en écoutant les sons qu’ils font. Si nous pouvons trouver un moyen d’automatiser l’écoute elle-même, nous serions en mesure de surveiller plus intelligemment notre monde et ses machines, jour et nuit. Nous pourrions prédire l’échec des moteurs, de l’infrastructure ferroviaire, des forages pétroliers, des centrales électriques, en temps réel et avertir les humains au moment d’une anomalie acoustique.

Cela a le potentiel de sauver des vies, mais en dépit des progrès dans l’apprentissage de la machine, nous luttons pour faire de ces technologies une réalité. Nous avons des charges de données audio, mais le manque d’étiquettes est critique. Dans le cas des modèles d’apprentissage, les problèmes enregistrés par la fameuse « boîte noire » font qu’il est difficile de déterminer la raison pour laquelle une anomalie acoustique a été signalée en premier lieu. Il y a un travail permanent sur les petits défauts en temps réel de l’apprentissage machine. Et les sons viennent souvent au milieu d’un bruit plus important que le signal, ce qui limite les caractéristiques qui peuvent être extraites à partir des données audio.

La grand abîme du son

La plupart des chercheurs dans le domaine de l’apprentissage machine conviennent que l’intelligence artificielle va augmenter, et progresser par vagues. Le but étant maintenant de détecter des sons plus subtils.

Derrière un grand nombre des plus grandes percées dans l’apprentissage de la machine se trouve un ensemble de données soigneusement assemblées. Il y a IMAGEnet pour la reconnaissance des objets et des choses, comme il y le Linguistic Data Consortium et GOOG-411 dans le cas de la reconnaissance vocale. Mais trouver un ensemble de données adéquat pour juxtaposer le son d’une fermeture automatique de porte et une fermeture de porte de chambre est assez difficile.

« L’ apprentissage en profondeur peut faire beaucoup si vous construisez un modèle correctement, vous avez juste besoin d’un grand nombre de données de la machine » , explique Scott Stephenson, directeur général de Deepgram, une start – up de recherche qui aide les entreprises à travers leurs données audio. « La reconnaissance vocale d’il y a 15 ans n’était pas excellente , il n’y avait pas de jeux de données ».

L’étiquetage crowdsourced des chiens et des chats sur Amazon Mechanical Turk est une chose. La collecte de 100.000 sons de roulements à billes et d’étiquetage est tout autre chose.

Et tandis que ces problèmes tourmentent même l’usage unique classificateurs acoustiques, le Saint Graal de l’espace est un outil généralisable pour identifier tous les sons, et non pas simplement la construction d’un modèle pour différencier les sons différents.

L’appréciation par l’introspection

Notre capacité humaine à généraliser nous rend particulièrement aptes à classer des sons. Pensez à la dernière fois que vous avez entendu une ambulance dans la rue. Même avec l’effet Doppler, le changement de fréquence des ondes sonores qui affectent la hauteur des sirènes que vous entendez, vous permet facilement identifier le véhicule comme une ambulance.

Un manque de  séparation à la source  peut compliquer encore les choses. Ceci est une lutte déjà à l’échelle humaine. Si vous avez déjà essayé de choisir une seule conversation de table dans un restaurant bruyant, vous avez une appréciation pour la façon dont il peut être difficile de donner un sens à des sons qui se chevauchent.

Des chercheurs de l’Université de Surrey au Royaume-Uni ont été en mesure d’utiliser un réseau de neurones à convolution profonde pour séparer les voix d’instruments d’accompagnement dans un certain nombre de chansons. Leur astuce était de former des modèles sur les 50 morceaux divisés en pistes avec leurs instruments et les voix qui les composent. Les pistes ont ensuite été coupées en segments de 20 secondes pour créer un spectrogramme. Combiné avec des spectrogrammes de chansons entièrement mixtes, le modèle a été en mesure de séparer les voix des instruments sauvegardés dans de nouvelles chansons.

Mais il est une chose de diviser une chanson de cinq pièces avec des composants facilement identifiables, il en est une autre pour enregistrer le son d’un moteur diesel et de demander à un modèle d’apprentissage de la machine de hacher la signature acoustique en composants.

Les frontières acoustiques de l’humain

Spotify est l’ une des entreprises plus ambitieuses à jouer avec les applications de l’ apprentissage de la machine à des signaux audio.  Bien que Spotify repose toujours sur des tas d’autres données, les signaux reconnus dans les chansons elles-mêmes sont un facteur pour ce qui sera recommandé sur sa caractéristique populaire dans Discover.

La recommandation de musique a toujours compté sur l’heuristique intelligente de filtrage collaboratif. Ces modèles rudimentaires d’analyse acoustique permettent de vous recommander des chansons jouées pour d’autres utilisateurs avec des motifs d’écoute similaires.

De cette représentation, nous pouvons voir que beaucoup de filtres ramasser contenu harmonique, qui se manifeste sous forme de bandes rouges et bleues parallèles à des fréquences différentes. Parfois, ces bandes sont sont inclinées vers le haut ou vers le bas, ce qui indique la présence de la hausse et la baisse des emplacements. Il se trouve que ces filtres ont tendance à détecter la voix humaine.

Les filtres compilent le contexte harmonique sous forme de bandes rouges et bleues à des fréquences différentes. Slanting indique des emplacements montant et descendant qui peuvent détecter des voix humaines, selon Spotify

En dehors de l’environnement contrôlé de la musique, les ingénieurs ont proposé des solutions qui entrent dans deux grandes catégories. Les « solutions personnalisées », ce qui implique essentiellement qu’une entreprise collecte des données à partir d’un client dans le seul but d’identifier une gamme de pré-série de sons. Pensez-y comme l’accumulation pour la musique, mais en beaucoup plus coûteuse et généralement pour des applications industrielles.

La deuxième approche est le « catch-all » un modèle d’apprentissage profond qui peut signaler toute anomalie acoustique. Ces modèles nécessitent généralement un rôle humain pour en classer manuellement les sons qui forment alors davantage le modèle sur lequel il faut chercher. Au fil du temps ces systèmes nécessitent de moins en moins d’intervention humaine.

Une entreprise, signaux 3D, arrive sur le marché avec une approche hybride entre ces deux. La société possède des brevets autour de la détection d’anomalies acoustiques dans l’équipement rotatif. Cela comprend des moteurs, des pompes, des turbines, des réducteurs et générateurs, entre autres choses.

« Nous avons construit une architecture très réduite pour connecter d’énormes flottes de machines distribuées à notre plate-forme de surveillance où les algorithmes mettront en évidence chaque fois que l’une de ces machines commencera à montrer une mauvaise conduite », a déclaréPDG de l’entreprise Amnon Shenfeld.

s90me-c-à-guy-10

MAN B & W 12S90ME-C Mark moteur diesel 9.2 de type

Mais ils tirent également parti des ingénieurs existants pour classer les problèmes suivant une importance particulière. Si un technicien reconnaît un problème, il peut noter l’anomalie acoustique qui contribue à former l’algorithme d’apprentissage pour ces types de sons à l’avenir.

Une autre société, OtoSense, offre en fait un « laboratoire de conception » sur son site Internet. Les clients peuvent noter si elles ont des exemples d’événements acoustiques spécifiques qu’ils veulent identifier et la société contribuera à fournir une plate-forme logicielle qui peut accueillir leurs besoins spécifiques.

La maintenance prédictive non seulement va être réaliste, mais facilement disponible. Des entreprises comme 3DSignals et OtoSense ont tous deux ciblé cet espace, en tirant parti des capteurs IdO banalisés pour aider les utilisateurs à changer des pièces de façon transparente pour éviter les temps d’arrêt coûteux.

Les machines de demain

En quelques années, nous aurons des solutions pour un large éventail de problèmes acoustiques et de détection des événements. Les systèmes d’analyse acoustiques seront en mesure de suivre les coûts du cycle de vie et d’aider le budget des entreprises pour l’avenir.

« Il y a une forte poussée de la Federal Transit Administration pour faire des évaluations de condition pour Transit Asset Management« , a déclaré Shannon McKenna, ingénieur chez ATS Conseil, un cabinet de travail sur le bruit et l’analyse des vibrations. « Nous voyons cela comme un moyen d’aider les organismes de transport avec une évaluation métrique de l’état de leurs systèmes ferroviaires. »

Au-delà des indicateurs à court-terme comme des bruits de rouages, dans le cas de la surveillance ferroviaire, les ingénieurs commencent à chercher et à affuter les sons. McKenna explique que les signaux acoustiques communs ne représentent que 50% des problèmes auxquels un système ferroviaire complexe peut faire face. Contrairement aux boîtes de vérification de conformité, une véritable gestion des risques exige un système généralisé – vous ne voulez pas d’un cas de valeurs aberrantes pour générer une catastrophe.

Mais nous restons loin d’un seul classificateur généralisé qui permettrait d’identifier tous les sons. À moins d’une percée algorithmique, nous devrons résoudre le problème dans les segments. Nous aurons besoin des chercheurs et des fondateurs de ces mêmes classificateurs de construction pour les sons des systèmes souterrains de métro, le système respiratoire humain et l’infrastructure énergétique essentielle pour aider à prévenir les échecs de demain.

Techcrunch

Publicités

1 commentaire »

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.