Benötigen Sie schnellere Textsuche auf komprimierten Daten? Dieser Artikel stellt eine schnelle Komprimierungstechnik für natürlichsprachliche Texte vor, bei der die Dekomprimierung beliebiger Textabschnitte sehr effizient durchgeführt werden kann, die direkte Suche nach Wörtern und Phrasen ermöglicht wird und auch die ungefähre Suche effizient ohne Dekodierung durchgeführt werden kann. Die Experimente zeigen, dass die Ausführung unserer Algorithmen auf einem komprimierten Text doppelt so schnell ist wie die Ausführung der besten vorhandenen Software auf der unkomprimierten Version desselben Textes. Der Hauptteil zeigt, dass das Komprimierungsschema ein semistatisches wortbasiertes Modell und einen Huffman-Code verwendet, bei dem das Codierungsalphabet eher byteorientiert als bitorientiert ist. Wir komprimieren typische englische Texte auf etwa 30 % ihrer ursprünglichen Größe, gegenüber 40 % und 35 % für *Compress* bzw. *Gzip*. Bei der Suche nach komplexen oder ungefähren Mustern sind unsere Algorithmen bis zu 8-mal schneller als die Suche auf unkomprimiertem Text. Wir stellen drei Algorithmen zur Suche im komprimierten Text vor. Dies kann verwendet werden, um den Text die ganze Zeit komprimiert zu halten und nur zu Dekomprimierungszwecken zu dekomprimieren.
Veröffentlicht in ACM Transactions on Information Systems, passt dieser Artikel zum Fokus der Zeitschrift auf Information Retrieval und Datenmanagementtechniken. Die Forschung zur schnellen und flexiblen Wortsuche in komprimiertem Text verbessert die Effizienz der Informationsverarbeitung und stimmt mit den Kerninteressen der Zeitschrift überein.