Können Maschinen lernen, Texte so gut wie Menschen zu kategorisieren? Diese Studie präsentiert umfangreiche Experimente zu automatisierten, regelbasierten Induktionsmethoden für große Dokumentsammlungen, mit dem Ziel, Klassifizierungsmuster für die Dokumentenkategorisierung und personalisierte Filterung zu entdecken. Die Forschung zeigt, dass maschinell erzeugte Entscheidungsregeln eine Leistung erzielen können, die mit von Menschen entwickelten Systemen vergleichbar ist, wobei dieselbe regelbasierte Darstellung verwendet wird. Die Ergebnisse auf dem Reuters Collection Benchmark zeigen einen signifikanten Leistungszuwachs im Vergleich zu anderen Techniken des maschinellen Lernens und erreichen einen Recall/Precision-Breakeven-Punkt von 80,5 %, eine deutliche Verbesserung gegenüber den zuvor berichteten 67 %. Die Studie untersucht auch methodische Alternativen, einschließlich universeller versus lokaler Wörterbücher und binärer versus frequenzbezogener Merkmale, im Kontext hochdimensionaler Merkmalsräume. Diese Arbeit unterstreicht das Potenzial des maschinellen Lernens zur Automatisierung von Textkategorisierungsaufgaben, wodurch der Bedarf an umfangreicher menschlicher Beteiligung reduziert wird. Diese Ergebnisse haben Auswirkungen auf die Informationsbeschaffung, das Dokumentenmanagement und die Entwicklung intelligenter Systeme.
Diese Forschung wurde in den ACM Transactions on Information Systems veröffentlicht und steht im Einklang mit dem Fokus der Zeitschrift auf Informationsbeschaffung, Textverarbeitung und intelligente Systeme. Durch die Vorstellung eines automatisierten Ansatzes zur Textkategorisierung trägt die Studie zur Weiterentwicklung von Informationstechnologien und deren Anwendungen bei, was für den Umfang der Zeitschrift von zentraler Bedeutung ist.