• Wilfried Wöber

Traue keinem neuronalen Netz: wissenschaftliche Bildanalysen

In der Biologie ist statistische Datenanalyse nicht mehr wegzudenken. Anders als in industriellen Anwendungen beschäftigen sich Publikationen wie jene von Tibihika et al. mit visuellen Unterschieden biologischer Proben – in diesem Fall von Fischen. Typischerweise kommen hier manuell gesetzte Landmarken zum Einsatz, welche für statistische Analysen genutzt werden. Es stellt sich natürlich die Frage ob AI Informationen aufdecken kann, die für das menschliche Auge zunächst unsichtbar sind.


Abbildung 1: Visualisierung der "Gründe" für eine richtige Klassifizierung. Hier wurde die Nadel verwendet - kein Körperteil des Fisches


Im Zuge dieser Arbeit wurde machine learning für die Identifikation relevanter Körperteile von Nilbuntbarschen aus sechs ausgewählten Populationen eingesetzt. Wir haben uns hier einmal für ein simples Vorgehen entschlossen: die Verwendung eines CNN. Da es sich hier um eine biologische Applikation handelt, mussten wir noch zusätzlich die biologischen „Gründe“ für die CNN-Entscheidung herausfinden. Das wurde unter anderem durch eine Methode von Bach et al. implementiert. Dann hatten wir ein Problem: das CNN hat teilweise biologisch irrelevante Merkmale für die Klassifizierung verwendet (siehe Abbildung 1). Woran liegt das? Das CNN verwendet jede Information, die im Bild vorhanden ist um eine „richtige“ Entscheidung (hier Klassifizierung) zu lernen. Wenn die Nadel hilft, wird sie auch miteingeschlossen. Dieses Phänomen wird beispielsweise in der Publikation von Lapuschkin et al. diskutiert. Wie kann man dieses Problem nun lösen? ​ Wir haben uns für folgendes Vorgehen entschieden: wir verwenden machine learning nicht für die Klassifizierung sondern ausschließlich für die Extraktion der „wichtigen“ Teile im Bild. Wir ignorieren dann biologisch irrelevante Bildbereiche und verwenden biologisch sinnvolle Bildbereiche um eine separierte Klassifizierung durchzuführen. Wie kann man sich das vorstellen? Dieses Vorgehen ist in Abbildung 2 visualisiert. Die Merkmale/Features wurden dann wieder für eine Klassifizierung genutzt.


Abbildung 2: Biologisch relevante Bildbereiche. Die roten Bildbereiche zeigen hohe Variabilität in dieser Bildregion - genau das, was wir gesucht haben


Ein direkter Vergleich der Klassifizierungsgenauigkeit zeigt, dass das CNN mit 93,3% die richtige Population erkennen kann. Der gewählte Ansatz basierend auf biologisch sinnvollen Merkmalen nur 72,1%. Allerdings scheint das CNN eine Klassifizierung basierend auf irrelevanten Merkmalen im Bild durchzuführen – dieser Effekt konnte mit dem gewählten Ansatz verhindert werden. ​

Der prinzipielle Umgang mit CNN-Klassifikatoren ist im Use-Case CNN (coming soon) bzw. in den AIAV Videos CNN Classifier und CNN Classifier vs. Detector erklärt. Eine Erklärung von Bildmerkmalen nach Bach et al. finden Sie hier (Link Jupyter Notebook Keras innvestigate). Darüber hinaus finden Sie hier eine detaillierte Erklärung des Vorgehens.



62 Ansichten

Aktuelle Beiträge

Alle ansehen