Können Computer lernen, Stil von Inhalt zu unterscheiden, wie es Menschen tun? Diese Forschung stellt ein Rechenmodell zur Trennung von 'Inhalt' von 'Stil' in Wahrnehmungssystemen unter Verwendung bilinearer Modelle vor. Wahrnehmungssysteme trennen routinemäßig 'Inhalt' von 'Stil', klassifizieren vertraute Wörter, die in einem ungewohnten Akzent gesprochen werden, identifizieren eine Schriftart oder einen Handschriftstil über Buchstaben hinweg oder erkennen ein vertrautes Gesicht oder Objekt unter ungewohnten Betrachtungsbedingungen. Der allgemeine Rahmen löst Zwei-Faktor-Aufgaben mithilfe bilinearer Modelle und kann mithilfe effizienter Algorithmen basierend auf Singularwertzerlegung und Erwartungsmaximierung an Daten angepasst werden. Er bietet ausdrucksstarke Darstellungen von Faktorinteraktionen unter Beibehaltung der rechnerischen Handhabbarkeit. Bestehende Faktormodelle (Mardia, Kent & Bibby, 1979; Hinton & Zemel, 1994; Ghahramani, 1995; Bell & Sejnowski, 1995; Hinton, Dayan, Frey & Neal, 1995; Dayan, Hinton, Neal & Zemel, 1995; Hinton & Ghahramani, 1997) sind entweder nicht ausreichend reichhaltig, um die komplexen Wechselwirkungen von perzeptuell bedeutsamen Faktoren wie Phonem und Sprecherakzent oder Buchstabe und Schriftart zu erfassen, oder lassen keine effizienten Lernalgorithmen zu. Das Modell wird in drei Wahrnehmungsbereichen getestet: Klassifizierung gesprochener Vokale, Schriftextrapolation und Gesichtsbeleuchtungstranslation. Das Modell bietet ein leistungsstarkes Werkzeug für maschinelles Lernen und künstliche Intelligenz mit potenziellen Anwendungen von der Spracherkennung bis zur Bildverarbeitung.
Diese in Neural Computation veröffentlichte Arbeit steht im Einklang mit dem Fokus der Zeitschrift auf theoretische und rechnerische Ansätze zum Verständnis neuronaler und kognitiver Prozesse. Die Entwicklung und Anwendung bilinearer Modelle zur Trennung von Stil und Inhalt trägt zum Verständnis des perzeptuellen Lernens und der Repräsentation bei.