Fast and flexible word searching on compressed text

Artikeleigenschaften
  • Sprache
    English
  • Veröffentlichungsdatum
    2000/04/01
  • Indian UGC (Zeitschrift)
  • Auffrischen
    42
  • Zitate
    79
  • Edleno Silva de Moura Univ. Federal de Minas Gerais, Belo Horizonte, Brazil
  • Gonzalo Navarro Univ. de Chile, Santiago, Chile
  • Nivio Ziviani Univ. Federal de Minas Gerais, Belo Horizonte, Brazil
  • Ricardo Baeza-Yates Univ. de Chile, Santiago, Chile
Abstrakt
Zitieren
Silva de Moura, Edleno, et al. “Fast and Flexible Word Searching on Compressed Text”. ACM Transactions on Information Systems, vol. 18, no. 2, 2000, pp. 113-39, https://doi.org/10.1145/348751.348754.
Silva de Moura, E., Navarro, G., Ziviani, N., & Baeza-Yates, R. (2000). Fast and flexible word searching on compressed text. ACM Transactions on Information Systems, 18(2), 113-139. https://doi.org/10.1145/348751.348754
Silva de Moura E, Navarro G, Ziviani N, Baeza-Yates R. Fast and flexible word searching on compressed text. ACM Transactions on Information Systems. 2000;18(2):113-39.
Journalkategorien
Science
Mathematics
Instruments and machines
Electronic computers
Computer science
Science
Science (General)
Cybernetics
Information theory
Technology
Electrical engineering
Electronics
Nuclear engineering
Telecommunication
Technology
Technology (General)
Industrial engineering
Management engineering
Information technology
Beschreibung

Benötigen Sie schnellere Textsuche auf komprimierten Daten? Dieser Artikel stellt eine schnelle Komprimierungstechnik für natürlichsprachliche Texte vor, bei der die Dekomprimierung beliebiger Textabschnitte sehr effizient durchgeführt werden kann, die direkte Suche nach Wörtern und Phrasen ermöglicht wird und auch die ungefähre Suche effizient ohne Dekodierung durchgeführt werden kann. Die Experimente zeigen, dass die Ausführung unserer Algorithmen auf einem komprimierten Text doppelt so schnell ist wie die Ausführung der besten vorhandenen Software auf der unkomprimierten Version desselben Textes. Der Hauptteil zeigt, dass das Komprimierungsschema ein semistatisches wortbasiertes Modell und einen Huffman-Code verwendet, bei dem das Codierungsalphabet eher byteorientiert als bitorientiert ist. Wir komprimieren typische englische Texte auf etwa 30 % ihrer ursprünglichen Größe, gegenüber 40 % und 35 % für *Compress* bzw. *Gzip*. Bei der Suche nach komplexen oder ungefähren Mustern sind unsere Algorithmen bis zu 8-mal schneller als die Suche auf unkomprimiertem Text. Wir stellen drei Algorithmen zur Suche im komprimierten Text vor. Dies kann verwendet werden, um den Text die ganze Zeit komprimiert zu halten und nur zu Dekomprimierungszwecken zu dekomprimieren.

Veröffentlicht in ACM Transactions on Information Systems, passt dieser Artikel zum Fokus der Zeitschrift auf Information Retrieval und Datenmanagementtechniken. Die Forschung zur schnellen und flexiblen Wortsuche in komprimiertem Text verbessert die Effizienz der Informationsverarbeitung und stimmt mit den Kerninteressen der Zeitschrift überein.

Auffrischen
Zitate
Zitationsanalyse
Die erste Studie, die diesen Artikel zitiert hat, trug den Titel Compression: a key for next-generation text retrieval systems und wurde in 2000. veröffentlicht. Die aktuellste Zitierung stammt aus einer 2024 Studie mit dem Titel Compression: a key for next-generation text retrieval systems Seinen Höhepunkt an Zitierungen erreichte dieser Artikel in 2016 mit 9 Zitierungen.Es wurde in 41 verschiedenen Zeitschriften zitiert., 7% davon sind Open Access. Unter den verwandten Fachzeitschriften wurde diese Forschung am häufigsten von Information Processing & Management zitiert, mit 10 Zitierungen. Die folgende Grafik veranschaulicht die jährlichen Zitationstrends für diesen Artikel.
Zitate verwendeten diesen Artikel für Jahr