Mensch oder Maschine: Wer bestimmt die Musikgenres?

Demian Till Von Demian Till am

Mit der Beliebtheit von Streaming steigt auch die Verfügbarkeit von Musik. Die Schwierigkeit ist es, diese einem Genre zuzuordnen. Weshalb ist das wichtig?

Der Nutzer möchte nicht einfach einen spezifischen Künstler, sondern gleich die Musik eines gesamten Genres hören. Eine manuelle Klassifizierung ist bei Millionen von Songs nur unter schweren Bedingungen möglich. Obwohl Firmen wie Spotify, Apple und Shazam sich in diesem Forschungsgebiet tummeln, sind noch viele Probleme ungelöst. Wir sprechen hier von künstlicher Intelligenz (KI) in der Musik.

Informatikstudent und Musiknerd Demian Thoma programmierte unter anderem diese Website.

In verschiedensten Bereichen, wie der Haussteuerung oder beim Autofahren, wird versucht, unseren Alltag mit künstlicher Intelligenz zu erleichtern. Doch auch in der Musik gibt es Anwendungsbereiche für KI. In diesem Bericht vertiefen wir uns mit der Genre-Klassifizierung. Wir wollen herausfinden, ob eine automatisierte Kategorisierung akzeptable Resultate liefert und sinnvoll ist.


Künstliche Intelligenz (KI, auch Artificial Intelligence, AI) ist ein Teilgebiet der Informatik, welches sich mit der Automatisierung intelligenten Verhaltens und dem Maschinellen Lernen befasst.
Ein Algorithmus ist eine eindeutige Abfolge an Handlungen zur Lösung eines Problems oder einer Klasse von Problemen. Diese Handlungen können zum Beispiel in Form eines Computerprogramms umgesetzt werden.

Es beginnt bereits mit der Frage: «Was ist ein Genre?» Die Definitionen davon gehen weit auseinander. Da liegt schon die erste Schwierigkeit: wie ist eine immer wechselnde Definition vereinbar mit einem Algorithmus, der auf eine möglichst klare Festlegung seiner Argumente angewiesen ist? Ist es überhaupt sinnvoll, die Musik automatisiert in Genres aufzuteilen?

Wirksamkeit der Genres-Klassifizierung

Zur Klassifizierung von Musik gibt es verschiedenste Ansätze. In den meisten Versuchen werden die Stücke in ein Standardformat umgewandelt, wie in der Studie Machine Recognition of Music Emotion: A Review aus dem Jahr 2012 beschrieben wird. Es wird also versucht, Punkte zu definieren, die ein Musikstück aufweist. Anhand deren kann man es mit anderen vergleichen. Zur Analyse gibt es zwei verbreitete Praktiken:

  1. Short-term Features: berücksichtigen nur einen Abschnitt des Songs. Da die Lieder oft Facetten verschiedener Genres beinhalten, werden sie meist auf eine Länge von 30 Sekunden gekürzt.
  2. Long-term Features: berücksichtigen Rhythmus und Beat. Die Länge entspricht meist dem ganzen Musikstück. Diese Features werden nur selten verwendet.

Damit ein Algorythmus überhaupt Daten verarbeiten kann muss er trainiert werden. In der Praxis bedeutet das, man gibt ihm Daten, die er als Grundlage oder Referenz werte verwendet. Für unser Problem müssen wir dem System einen Datensatz mit bereits kategorisierten Songs bereitstellen. Wie bei uns Menschen gibt es auch bei solchen Systemen unterschiedliche Trainingsarten. Dabei sind zwei Ansätze verbreitet:

  1. Der Expertenansatz: Wenige Experten kategorisieren die Stücke nach ihrem jeweiligen Genre.
  2. Die subjektive Methode: Eine grosse Anzahl an Personen kategorisiert die Stücke nach ihrem jeweiligen Genre.

Zwei Beispiele:

  1. Li et al. versuchen mit einem Datensatz von 1000 Songs aus 10 Genres und einem 30 Sekunden Ausschnitt das Genre zu erkennen. Mit einem neuen Feature namens DWCH erhalten sie eine Erfolgsrate von 78.8%.
  2. Rosner und Kostek verfolgen den Ansatz der Analyse von einzelnen Instrumentenspuren, um damit die Erfolgsrate zu verbessern. Mit 3000 Songs aus 13 Genres erreichen sie eine Erfolgsrate von 72%.

Die Algorithmen funktionieren mit Ihren Testdatensätzen sehr gut. Zur eindeutigen Identifizierung wird nur ein Teilstück eines Musikstückes analysiert. Dies hebt die Schwierigkeit des Problems hervor:

Das Genre eines Songs ist oftmals nicht klar zu definieren. Zudem kommen oft Passagen verschiedenster Genres in einem Song vor.

Sind Genres überhaupt wichtig?

Die Klassifizierung von Musikstücken ist trotz guter Algorithmen schwierig, da die Definition eines Genres sehr anspruchsvoll ist. Dafür gibt es mehrere Gründe:

  1. Die menschliche Auffassung von der Definition eines Genres ist subjektiv. Bzw. ist die Definition eines Genres unklar.
  2. Es kommen stetig neue Genres dazu oder alte verändern ihre Definition.
  3. Songs können aus verschiedenen Abschnitten bestehen. Diese Abschnitte würden alleinstehend unterschiedlichen Genres zugewiesen werden.

Der Kategorisierungsservice Gracenote kategorisiert seine Musik in über 300 Genretypen. Das ist ein weiteres Anzeichen an die Vielfalt der Genres. Die meisten Algorithmen kategorisieren die Musik nur in einen Bruchteil dieser Genres.

Es gibt jedoch auch mehrere Gründe, die eine Klassifizierung mit KI unterstützen:

  1. Die Kategorisierung nach Genres ist noch immer sehr verbreitet und hat auch darum seine Daseinsberechtigung. Eine riesige Datenbank kann fast nicht manuell indexiert werden.
  2. Benutzer sind sich gewohnt, dass Musik nach Genres sortiert ist. Eine aktuelle Studie besagt, dass Hörer ihre Musik sogar eher nach Genres suchen. Anstatt ähnliche Künstler oder ähnliche Musik zu berücksichtigen.
  3. Das Genre hat bei gewissen Hörern einen höheren Einfluss darauf, ob es ihm gefällt, als das Stück selber.
  4. Die automatische Kategorisierung kann auch bei der automatischen Analyse von Videos hilfreich sein. Die Musik kann vor allem bei der Definition des Kontexts eines Videos viele Informationen liefern.

Die Wirksamkeit von automatisierter Genreklassifikation lässt Diskussionsraum offen. Es werden passable Resultate erzielt, die jedoch mit Vorsicht zu geniessen sind. Oftmals ist die Anzahl der Genres reduziert. Oder die Länge der Musikstücke wird auf einen Abschnitt reduziert, um ein klareres Bild des Songs zu erhalten.

Und dennoch hat die Genre-Klassifizierung mit KI auch ihre Daseinsberechtigung. Nutzer legen noch immer sehr grossen Wert auf die Genresortierung. Es wird nach Genres gefiltert und gesucht. Das Genre hat zudem einen grossen Einfluss darauf ob die Musik dem Hörer gefällt. Die riesigen Datenbanken lassen sich nur schwer von Hand kategorisieren. Diese Arbeit kann von einem solchen Algorithmus übernommen werden.


Titelbild: Demian by Dominik André