fordított index

Invertált index (Engl invertált index.) - adatszerkezet. ahol minden egyes szót a dokumentum-gyűjtemény az egyes listákon az összes dokumentumot a gyűjtemény, amelyben teljesül. Az invertált index használjuk szöveget keresni.

Két változata van a fordított index:

  • indexet, amely csak a dokumentumok listáját minden szó,
  • index, amely tartalmaz továbbá egy szót helyzetben minden dokumentum [1].

Bemutatjuk, hogyan lehet megoldani a problémát találni dokumentumokat, amelyek megfelelnek az összes szót a keresési lekérdezést. A kezelés egyszavas keresésnek válasz már az invertált index - annyi, hogy a lista, amely megfelel a szavát a kérelmet. A feldolgozás részletes lekérdezés listákat hozott megfelelő az egyes kifejezésekre, és átfedik egymást.

Általában a keresők építése után egy fordított index listáját tartalmazó dokumentumok a szavakat a lekérdezés a rangsorban a dokumentumok a listából. Invertált index - a legnépszerűbb adatszerkezet, hogy a használt információt visszakereső [2].

Tegyük fel, hogy van egy teste három szöveg T 0 = => „ez mi ez.” T 1 = => "mi ez", és T 2 = => "ez egy banán". akkor a invertált index a következő lesz:

Minden számadatok számú szöveget, amelyben találkozott a megfelelő szó. Ezután dolgozott ki a keresési „mi ez” kérést a következő eredményt adja <0. 1> ∩ <0. 1. 2> ∩ <0. 1. 2> = <0. 1>\ Cap \\ kupakot \ = \>.

Jellemzői az alkalmazás valós keresők

A bejegyzést a listában a Word dokumentumok mellett id dokumentumok általában azt is jelzik faktorok (TF-IDF bináris tényező :. „Horrible szó a címben, vagy nem kapott” egyéb tényezők), amelyeket a rangsorban. Az index épülhet nem minden szóalakok. és lemmák (kanonikus alakban a szó). Megáll a szavakat lehet zárni, és nem épít egy index számukra, figyelembe véve, hogy mindegyik megtalálható szinte az összes dokumentumot az ügy. Fel kell gyorsítani a számítás csomópontok használni heurisztikus hagyja-pointer-ek. A feldolgozás lekérdezések, amelyek sok szót használja a határozatképesség, amely átmegy a következő lépés a rangsor dokumentumok, amelyek nem feleltek meg a szavak a lekérdezés.

Kapcsolódó cikkek