Kivonat az információkeresés témájában az interneten, letölthető esszé
A keresés földrajzi régiói meghatározása
Mivel az információkeresés gyakorlati célokat követ, az információforrás gyakorlati értéke függhet az adott forrás földrajzi helyétől.
Tezaurusz írás
A keresőmotorok hatékony használatához kulcsszavak listáját kell megadni, figyelembe véve a köztük lévő szemantikai kapcsolatokat, pl. Tezaurusz. A tezaurusz megalkotásakor figyelembe kell venni a kulcsszavak szinonimáinak, homonímáinak és morfológiai változatainak feldolgozását.
Zipf törvények használata
Az a szám, amely megmutatja, hogy hányszor fordul elő egy szó a szövegben, a szó előfordulási gyakorisága. Ha elrendezi a frekvenciákat lefelé, és számolja azokat, akkor a frekvencia rendszáma a gyakorisági rang. A szövegfelismerés valószínûsége a szövegben = egy szó / szavak számának gyakorisága a szövegben. Zipf megállapította, hogy ha megszorozzuk annak valószínűségét, hogy egy szót találunk a szövegben egy frekvenciasorhoz, akkor az így kapott érték megközelítőleg állandó az összes nyelvben lévő összes szöveg esetében:
C = (a szavak előfordulási gyakoriságának gyakorisága X frekvencia) / szavak száma
Ez azt jelenti, hogy a rang függősége grafikonja egy egyenlő oldalú hiperbola.
A Zipf azt is megállapította, hogy a szavak számának függése egy adott frekvencián a frekvencián egyaránt hiperbola és állandó az összes ugyanazon a nyelven található szövegen.
Mit lehet kivonni e törvényektől? Tanulmányok a fenti összefüggéseket különböző szövegek azt mutatják, hogy a legfontosabb szó a szövegben a közepén a diagram, mint a szó a maximális frekvencia általában elöljárók, részecskéket, névmások angol nyelven - a cikk (úgynevezett „stop szavak”), és ritka szavak a legtöbb esetben nem rendelkeznek döntő