Conference

AmiBio Workshop – Bonn, 13/14 juin 2013 – Bonn, June 13th-14th 2013

As always, the English version is below.

**************

Attention, ce post est très long ! Je reviens du workshop AmiBio à Bonn qui réunissait une trentaine de chercheurs du monde entier autour de la thématique de l’évaluation de la biodiversité par l’analyse des sons d’animaux. Voici quelques notes sur les présentations des chercheurs présents les plus en rapport avec mes propres recherches.

Les articles complets seront publiés par le bulletin zoologique de Bonn et disponibles avec les présentations sur le site de AmiBio.

1. Equipe AmiBio (Musée Koenig à Bonn, Allemagne ; Université de Patras, Institut technologique d’Héraklion, Association de protection de l’Hymettus, Grèce)

Le projet AmiBio étudie l’Hymettus, une montagne près d’Athènes située à l’une des trois portes d’entrée de l’Europe pour les oiseaux migrateurs (les deux autres sont l’Italie et Gibraltar), d’où son importance pour la biodiversité. La zone comprend quatre types d’habitats, allant des forêts de pin aux maquis.

Le réseau de stations acoustiques installées à l’Hymettus a permis de récolter plus de 8 TB (terabytes) d’enregistrements sonores. Les données sont transmises par le réseau 3G à l’université de Patras qui les analyse. Un algorithme de détection isole les sons de faunes des autres sons (voitures, coups de feu…) et signale en temps réel les bruits qui correspondent à des évènements problématiques.

AmiBio newsletter - Janvier 2013 - January 2013

AmiBio newsletter – Janvier 2013 – January 2013

Les stations acoustiques ne perturbent pas la faune locale ; les plus grands soucis à l’Hymettus sont le feu (incendie majeur en 2007), la proximité d’Athènes et de l’aéroport, les antennes, les chasseurs et les vandales.

Des plus de 28000 sons de faune obtenus, environ 10% ont été étiquetés manuellement pour être employés à l’entraînement d’un algorithme de classification.

Les données recueillies à l’Hymettus seront entreposées chez GBIF (Global Biodiversity Information Facility, www.gbif.org ). Le but de GBIF est de rassembler les collections des musées du monde entier. L’organisation référence aujourd’hui trois cents millions d’enregistrements divers.

Le projet AmiBio touche à sa fin. La question se pose de savoir comment maintenir le réseau de stations et continuer à analyser les données.

 2. Jason Wimmer (QUT, Australie)

Jason a présenté les travaux de son équipe, composée d’écologistes et d’informaticiens.

QUT possède un grand réseau de stations d’écoute à travers l’Australie et 100 TB de données disponibles. Tout analyser est un problème majeur. Même l’analyse idéale entièrement automatique nécessite une intervention humaine de vérification et pour enrichir les algorithmes.

Les données à analyser sont donc échantillonnées : on choisit des données adéquates dans les 100TB pour balayer le plus d’espèces possibles. Pour les oiseaux, la période reine d’activité est l’aube mais elle ne concerne pas toutes les espèces (les espèces nocturnes, par exemple, sont manquées). Sur base d’indicateurs acoustiques, les segments à analyser peuvent être identifiés de manière plus pertinente. Le spectrogramme des indices acoustiques est colorié selon une méthode spécifique qui permet la mise en évidence des périodes de chant (par opposition au bruit, au silence…).

Pour préparer des modèles (templates) qui serviront à la classification des espèces, QUT a un software en ligne qui permet de sélectionner manuellement des zones de spectrogrammes et de les étiqueter et stocker pour réutilisation. Cette manière de faire permet de décrire des structures ou des éléments de structure des chants. Chaque utilisateur peut préparer ses échantillons en fonction des besoins de son étude.

QUT a aussi un projet de « citizen science » : sur le modèle des Captchas, des internautes écoutent un exemple de chant d’une espèce, puis des extraits à classifier de la base de données. On leur demande ensuite de déterminer si les extraits à classifier contiennent l’espèce test ou non. Pour l’ornithologue amateur, c’est un moyen de se former et pour QUT, c’est un moyen de trier leurs données.

3. Adrian Ruiz (Ulm, Allemagne)

Adrian a présenté une étude de classification automatique de dix espèces de chauves-souris.

Pour les chauves-souris, on utilise le signal d’écholocation qui est spécifique à l’espèce. Comme ces signaux sont des ultrasons, la fréquence d’échantillonnage doit être très élevée. Les chercheurs déciment les signaux d’un facteur dix pour pouvoir « écouter » les sons.

Le travail comporte trois volets principaux :

  • La détection de signal, pour reconnaître les moments où une chauve-souris est présente  (en utilisant un algorithme de short time energy detection);
  • L’entraînement, qui nécessite de taguer une bibliothèque de spécimens de sons qui vont servir de référence;
  • La reconnaissance des signaux détectés (~5800, tous annotés à la main), sur base d’indicateurs acoustiques et d’un modèle prédictif.
L'incroyable talent du dessinateur Ben Templesmith - The incredible talent of artist Ben Templesmith

L’incroyable talent du dessinateur Ben Templesmith – The incredible talent of artist Ben Templesmith

Une fenêtre est sélectionnée autour de l’instant où l’appel est détecté sur le spectrogramme. L’appel d’une chauve-souris a la forme d’une courbe, qui est extraite et paramétrée (en fonction du temps, de la fréquence). Les indicateurs acoustiques sont calculés sur cette courbe.

29 indicateurs acoustiques sont utilisés, extraits de la littérature existante sur les chauves-souris. Leur pertinence est testée en fonction de leur impact sur le résultat de la classification. Les indicateurs « standards » basés sur les fréquences restent très importants.

L’algorithme de classification « random forest » est jugé le meilleur (90% de réussite). Autres algorithmes testés : discriminant function analysis, Gaussian mixture model, classification and regression trees, support vector machine.

L’université de Ulm héberge la base de données zoologiques Systax.

4. Karl-Heinz Frommolt (ornithologue, musée des sciences naturelles de Berlin, Allemagne)

Celui-ci est un projet de renaturation (rewilding) d’une zone marécageuse sur les berges de la rivière Peene et proche de la mer Baltique (à l’est du Danemark, près de la Pologne). La zone était anciennement agricole, mais est devenue inexploitable suite à la montée du niveau des eaux. La zone inondée n’est pas facile d’accès pour les ornithologues et de nombreuses espèces en reconquête sont des espèces nocturnes, ce qui explique la nécessité d’un monitoring par stations acoustiques. D’autre part, cette approche permet de limiter les dérangements causés aux oiseaux en période de reproduction. Trois espèces rares d’oiseaux nocturnes ont pu être détectées par ce procédé, dont une classée éteinte dans la région. Les enregistrements sont disponibles sur internet (www.animalsoundarchive.org, alias www.tierstimmenarchiv.de ).

La classification est faite à la main. Deux espèces cibles sont contrôlées systématiquement dans tous les enregistrements en utilisant une procédure de template matching disponible dans le software Avisoft. La présence de grenouilles et d’espèces qui imitent le chant des autres compliquent la tâche. Il est donc plus réaliste de se focaliser sur deux espèces clés.

L’analyse des enregistrements permet aussi de déterminer à quelle période de l’année les espèces sont présentes et chantent. Les moments de la journée dédiés au chant peuvent aussi être étudiés.

Raven Pro permet de visualiser les enregistrements en quatre spectrogrammes correspondant à quatre directions (microphones 4 canaux) ; associés aux fréquences caractéristiques (centrales), ils permettent de compter les individus. Ceci est effectué pour un enregistrement à la fois (ce n’est pas une procédure de comptage automatique). Les tentatives existantes de comptage ne sont encore très expérimentales ; il se confirme également que l’activité vocale est un mauvais indicateur pour le recensement des oiseaux.

Le monitoring acoustique ne détecte pas autant d’espèces que les ornithologues. Un nombre « représentatif » d’espèces peut cependant être capturé.

Dans sa forme actuelle, le monitoring acoustique prend plus de temps que le recensement ornithologique classique ; il est donc justifié seulement dans les cas comme celui-ci où le recensement classique atteint ses limites.

5. Sur l’avenir du monitoring acoustique

Deux directions critiques ont été identifiées :

  • La constitution de base de données pérennes, toujours plus vastes et en libre accès pour entraîner les algorithmes de classification ;
  • L’analyse et l’étiquetage des TB de données disponibles.

Pour les algorithmes de classification, il y a de plus en plus d’activités du côté des compétitions Kaggle (deux compétitions pour les oiseaux, deux pour les baleines jusqu’à présent). Le gagnant doit partager ses algorithmes. Les scores atteignent 99% de réussite pour détecter une espèce de baleine et 70% pour classifier des oiseaux.

La philosophie de ce crowd-sourcing est de trouver des solutions ponctuelles et pertinentes à des problèmes concrets plutôt que de publier davantage d’articles scientifiques qui témoignent d’excellents résultats sur des données idéales.

**************************************************************************************************

Beware, this post is quite long! I’m just back from the AmiBio workshop in Bonn, Germany, which gathered about thirty scientists from around the world to discuss the evaluation of biodiversity by way of analyzing animal sounds. Here are a few notes from presentations related to my own research.

Papers will be edited by the Bonn zoological bulletin and available on the AmiBio website, along with presentations.

1. From the AmiBio team (Koening museum in Bonn, Germany; University of Patras, Technological Institute of Heraklion, Association for the Protection of Hymettus, Greece)

The AmiBio project studies Hymettus, a mountain near Athens which is located at one of the three entrance gates to Europe for migrating birds (the other two are Italy and Gibraltar), hence its importance for biodiversity. The zone comprises four types of habitats, ranging from pine forests to maquis.

The network of acoustic stations installed in Hymettus allowed gathering more than 8 TB (terabytes) of sound recordings. The data is transmitted through the 3G network to the university of Patras, who analyzes it. A detection algorithm isolates wildlife sounds from other sounds (cars, gun shots…) and signals sounds linked to problematic events in real time.

Acoustic stations do not interfere with the local fauna; the greater concerns at Hymettus are fire (there was a major one in 2007), the proximity of Athens and its airport, antennas, hunters and vandals.

Of more than 28000 sounds gathered, about 10% were labeled manually to be used in training of classification algorithms.

The Hymettus data will be stored at GBIF (Global Biodiversity Information Facility, www.gbif.org ). GBIF aims at connecting the various databases of museums worldwide and currently holds 300 million records.

The AmiBio project is coming to a close. The maintenance of the network of acoustic stations and the continued analysis of its data are in question.

2. From Jason Wimmer (QUT, Australia)

Jason presented the work of his teammates, half ecologists and half computer engineers.

Une bonne excuse pour une photo de koala - a good excuse for a koala picture

Une bonne excuse pour une photo de koala – a good excuse for a koala picture

QUT has a large network of listening stations all throughout Australia and 100 TB of available data. Analyzing everything is a major issue. Even an ideal, entirely automated scheme would require human intervention for verification and to feed-back the algorithm with additional knowledge.

The analyzed data is thus sampled: one chooses relevant data amongst the 100 TB to sweep as many species as possible. For birds, the main time of activity is dawn; however it does not work with all species. For example, it would not allow detection of nocturnal birds. Segments to analyze can be better identified using acoustic indicators. Spectrograms of acoustic indicators are colored following a specific methodology that allows the identification of vocalization times, as opposed to time segments filled mostly with of background noise or relative silence.

To prepare templates which will be used for the classification of species, QUT has an on-line program which allows manually selecting zones of spectrograms, tagging and storing them for later use. This permits the description of the structure of songs or of elements of songs. Each user can prepare his/her own samples according to his classification needs.

QUT also has a citizen science project, similar to Captchas. Internet users would listen first to an example of bird song, then to unidentified samples. Then they are asked to determine whether the samples contain the reference bird or not. For amateur ornithologists, this is a way to train themselves, and for QUT, it’s a way to get their data sorted out.

3. From Adrian Ruiz (Ulm, Germany)

Adrian presented a study of automated classification for ten species of bats.

For bats, the echolocation signal is recorded; it is species-specific. As these signals are ultrasounds, the sampling frequency must be quite high. Researchers decimate the signals by a factor ten to be able to “listen” to the sounds.

The study has three main steps:

  • Signal detection, to identify the moments when a bat is present (using a short time energy detection algorithm);
  • Training, which consists in tagging a library of reference sound specimens;
  • Identification and classification of detected sounds (~5800, all tagged by hand!), based on acoustic indicators and a predictive model.

A window is drawn around the instant of detection of a bat on the spectrogram. A bat call typically follows a curve, which is extracted and parameterized (in function of time, of frequency). Acoustic indicators are calculated on this curve.

29 acoustic indicators are used, which were chosen from the existing literature on bats. Their relevance is then tested based on their impact on the classification results. It appears that the standard indicators which use frequencies score amongst the highest.

Several algorithms are tested for classification; random forst works the best (90% success). Others which are tested: discriminant function analysis, Gaussian mixture model, classification and regression trees, support vector machine.

The University of Ulm houses the Systax zoological database.

4. From Karl-Heinz Frommolt (ornithologist at the Museum für Naturkunde in Berlin)

This one is a rewilding project in a bog region by the Peene river, close to the Baltic sea (east of Danemark, close to Poland). The zone was formerly dedicated to agriculture but became harder to keep in use due to rising waters. The newly wet zone is difficult to access for ornithologists and many bird species reclaiming the bog area are nocturnal species, which explains why a monitoring using acoustic stations is necessary. In addition, this approach limits disturbances during the breeding season. Three rare species of nocturnal birds were detected by the stations, amongst which one was considered extinct in the region. The recordings are available on the internet (www.animalsoundarchive.org, aka www.tierstimmenarchiv.de ).

La région du Peenetal - the Peenetal region

La région du Peenetal – the Peenetal region

The classification is done by hand. Two target species are systematically checked for in all recordings by using a template matching procedure available in software Avisoft. The presence of frogs and birds that imitate the songs of others make the task difficult. Focusing on two species is a realistic approach.

The analysis of recordings allows determining the time of year when species are present and sing. Times of day dedicated to singing can also be highlighted.

Raven Pro allows visualizing the recordings in the form of four spectrograms (the microphones had four channels); compared with characteristic (central) frequencies, they allow counting individuals. This is done for one record at a time (this is not an automated procedure). Existing counting methods are still at the experimental stage; it is also confirmed that vocal activity is a poor indicator for bird census.

Acoustic monitoring does not detect as many species as ornithologists; yet a “representative” number can be captured.

In its current form, acoustic monitoring takes more time than a classic ornithological survey. Thus it is only justified in specific cases like the present one where classic surveys reach their limits.

5. About the future of acoustic monitoring

Two critical directions were identified:

  • The constitution of large, sustainable and open access databases that can be used to train classification algorithms;
  • The analysis and tagging of the terabytes of already available data;

As for classification algorithms, there is increasing activity by the Kaggle competitions (two for birds, two for whales so far). The winner must share his/her algorithm. Scores reach 99% success to detect a whale specie and 70% success to classify birds.

The philosophy of these crowd-sourcing exercises is to find punctual, relevant solutions to real-life problems rather than increasing scientific publications which testify of excellent results obtained on an ideal dataset.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s