A Yandex technológia "spektruma" és a weboldalak osztályozása

Eugene beszédét a Spectrum technológia sajátosságaira fektette. És a szokásos módon kezdte a kérdés történetét.

Amikor a felhasználók a Yandex-et kérik, az esetek mintegy 20% -ában kétértelműen fogalmazzák meg a lekérdezést. Például, kérésre [Napoleon], valaki meg akar találni egy parancsnokot, és valaki - egy recept egy torta. És a [sushi] megkérdezésével egy személy házhozszállítást is igénybe vehet egy éttermet, és egy receptet erre az ételre.

Az implicit célokat a keresési lekérdezések statisztikái alapján osztják el. Elvben ez ésszerű. Valaki, aki keres [laptop] akar vásárolni egy új laptop, valaki akar vásárolni használt laptop.

Az eredmények témakörei:

1. Az oldal téma: "új, vásárlás". Kiemelt a részletben: eladó, ár. vásárol, katalógus, új, stb.

2. Az oldal téma: "használt". Kiemelt a részletben: használt, használt. stb NEM kiemelve: eladás, ár, javítás

3. Az oldal téma: "Javítás" A részletekben kiemelve: javítás. stb NEM kiemelve: eladó, ár, használt

Eugene szerint eredetileg a Spectrum technológia helyesen működött. A tantárgyak különek voltak, és nem fedették egymást. Aztán a SEO szokásos elképzelése működött - több különböző szót írni, de hirtelen valami kijön. Most a Spectrum másképp működik.

Most a kiegészítő szándékok listája a kérelemre (

szándékok, témák), az eredményeket hozzáadják a minősített oldalak különálló adatbázisához (a téma szerint):

- "spektrális" szavak megvilágítása a "rendes" eredményekben

- Az összes "spektrális" szó csúcspontja, függetlenül a szándékoktól (témák)

- A keverés mankó. Néha vannak olyan oldalak, amelyek feltűnnek minden kérésnél. Ez egy meglehetősen jól ismert dolog, amikor kérésre [munkát] kijutni a weboldalról a "kisteherautók" miatt, hogy valahol a "munka" szót írta, és a webhely egy relevánsabb adatbázisban volt. Természetesen nem feltételezhetjük, hogy a kisteherautókról szóló site besorolásra került [munka]. "Vans" pontszám kiadatás.

- Számos szennyezés eredménye egy mondatban. Például néhány zsarolás a véleményben. Például kérjen egy autós modellt [Suzuki Grand Vitara]. Vannak kiemeltek, fotók és leírások, valamint a költségek és a műszaki jellemzők - minden lehetséges szándék, ami ott áll:

A Yandex technológia

Hogyan lehet megkülönböztetni a spektrális szennyeződést ugyanabban a témában, azonos témában?

Az XML-dokumentum dokumentumazonosítójában. A színkódolt töredékek rendszeresen változnak. Látható, hogy a hatodik eredmény és az ötödik a felülvizsgálatokra szánják, bár a visszajelzés mellett sok más lehetséges szándék is létezik. Minden találat dokumentum azonosítója:

Közös dokumentum: 4 töredék

SPECTRUM. 3 töredék

Sebesség: 3 darab

Ultra-robot (nem most): 2 darab

Például az [i] lekérdezésben tízből tíz spektrális eredmény jelent meg a kibocsátásban. És a kérelmek különböző típusúak [Perm, Kazan, Novosibirsk]. Nagyon érthetetlen, hogy miért ebben az esetben: [Victor Tsoi], [a kutyákról]. Úgy tűnik, hogy volt az első szó, de aztán levágták és elhagyták, és a kérelem ebben a formában a "Spectrum" -ba került.

Itt van a kérés [kazan], add. témák a "Spectra" - 7 a 10:

A Yandex technológia

Milyen néhány nyilvánvaló téma van? Térkép, látnivalók, hírek, szállodák. Kazan városa Kazan városának valószínűleg néhány telephelye. És az utolsó a Gismeteo.ru, az időjárás. Minden úgy tűnik, hogy jó. De amikor belépünk a [Kazan] lekérdezésbe, akkor látni fogjuk, hogy a Spectra egyszerűen nincs ott, és itt nincsenek szennyeződések:

A Yandex technológia

Ez egy közönséges kérdés. Meglepő módon nincs erre a kérésre Spectrum, annak ellenére, hogy annak gyakorisága tízszer nagyobb, mint a lekérdezés [kazan].

Egyes oldalak szerencsésebbek. Egyes webhelyek gyakran a "Spectrum" -ba esnek. Világos, hogy minél több kérés, annál több webhely. A nagyszámú spektrumszennyeződés közül a legnagyobb vezető a www.torrentino.com, www.zaycev.net, majd ismét www.fast-torrent.ru - általában szórakoztató helyek.

Néhány webhely szerencsés, hogy átmenetileg bejut a "Spectrum" -ba, majd megtisztítják.

Termi funkciók. Mi azonosítható fut ed a leginkább informatív szorgalmi jellemzői alapján a kölcsönös információ ... Ahogy az várható volt, a legtöbb szembeállítása szempontjából voltak áruház, rubel, katalógus, árak, ár, és a kosár ... A teljes lista használt kifejezések besorolása kation abból állt, mintegy száz feltételek .

Lexikai jellemzők. A védjegyek és márkák listáját használtuk

A termi funkciók ... a lexikális sokféle vélemény jóval magasabb, mint a boltban.

Lexikális features.The listája 165 kézzel gyűjtött értékelése melléknevek-jó, szép, gyönyörű, a rossz, undorító, borzalmas, stb (jó, kiváló, nagyszerű, rossz, undorító, rettenetes stb.)

Egy személy felvet egy kérdést egy lehetséges termékről, és a feladata annak eldöntése, hogy meg akarja-e venni ezt a terméket, vagy hogy el akarja olvasni róla. Az áruházak lekérdezéseinek és oldalainak osztályozásához terminológiát alkalmaznak, ahol körülbelül száz szó látható a boltban. A felülvizsgálat osztályozásához pedig mintegy 7 ezer szó szerepel, és néhány melléknév manuálisan történik. A rendezői sorrend az osztályozóban 7-10 ezer.

De a legérdekesebb dolog az, hogy a kiadatás is szórványos töredékek. Például, kérje [pizza] Moszkvában. Úgy látszik, hogy a [pizza] és a [szállítmány] külön-külön kerülnek elkülönítésre, és a [otthon] töredék teljesen el van látva. Két szó egy darabból:

A Yandex technológia

Általánosságban elmondható, hogy a "Spectrum" -on ilyen kiterjedt töredékek kibocsátása nagyon nagy. A 83 ezer darabból a spektrumszennyeződések 20-25% -a volt, és csak 127 volt egyedülálló.

A legnagyszerűbb törött töredékek így néznek ki:

mi 21773, 26,1%

Nézze online - 17034, 20,4%

dalszöveg - 10970, 13,1%

saját kezükben - 9809, 11,7%

az otthonban - 4062, 4,9%

időjárás-előrejelzés - 2639, 3,2%

tulajdonos véleménye - 2324, 2,8%

dal dalszövegei - 2049, 2,5%

a dalok szövege - 1862, 2,2%

letöltő illesztőprogramok - 1001, 1,2%

a térképen - 992, 1,2%

műszaki előírások - 970, 1,2%

online karóra - 899, 1,1%

várostérkép - 681, 0,8%

letöltő illesztőprogram - 634, 0,8%

Nyilvánvalóan ezek a töredékek manuálisan kerülnek hozzáadásra. Természetesen félelmetes, hogy a Yandex figyelembe veszi ezeket a szavakat a rangsorolás során, mivel még nem használják a rangsoroláshoz, de csak a Spectra osztályozóban használják. Mit tegyek?

Ha feltételezzük, hogy nem vesznek részt a rangsorban, akkor az egyetlen lehetséges érdek az, ha bejutunk a spektrum szennyeződésekbe. Következő - minőségi weboldal. Egyes webhelyek gyakrabban keverednek egymással. A besorolási szavak és az összetett részek pontosítása a lekérdezésekhez (különböző témákra vonatkozó kérelmek). Ne féljen, hogy használja őket a szövegben. És így tovább.

Köszönjük figyelmét!

Hall: - Megvizsgálták-e a spektrális keverékbe eső vizsgálatot? Nyilvánvaló, hogy tartalmaznia kell további szavakat, amelyek a szándékot jellemzik. Átmennek az üzemeltetőn, vagy valahogy hozzáadják? Érthető, hogy elkülöníthetjük a szavakat. Vedd magad a téma, meg fogjuk nevezni a feltételeket. Mindezeket a dolgokat kiszámíthatjuk mind a szavakat, mind a kifejezéseket. De logikus feltételezni, hogy a webhelyek szennyeződnek ezekkel a szándékokkal és vezetők bármely kérés esetén. Volt egy ilyen tanulmány? Vagy kérelmeken, vagy a kérések egy csoportjánál. Mi ez a kérés? Vagy ez másfajta találat?

Eugene Trofimenko: - Két kérdésed van a kérdésedre. Vagy a kérelemről, vagy a tárgyak metszéspontjáról a Spectrumban.

Hall: - A kérésekről.

Eugene Trofimenko: - Nem, nem vizsgálták.

Hall: - Vagyis logikus feltételezni, hogy a Spectrumba való bejutás problémájának megoldása érdekében meg kell értenünk, hogy milyen kérésre és vezetővé válik rajta.

Eugene Trofimenko: - Nem a vezető. Úgy gondolom, legalább egy lekérdezést kell készítenie, amely szerint van egy spektrum, és amely megfelel neked.

Hall: - Volt egyszer egy spektrális eredmény, és egy fix helyre, a hatodikra ​​vagy a nyolcadikra ​​került. Ezután a spektrális eredmény lett az elsőszámú és első helyen állt?

Eugene Trofimenko: - Szóval azt szeretnéd megkérdezni, hogy miként változik a helyzet a spektrális szennyeződésben?

Hall: - Igen. Talán felkutatták?

Eugene Trofimenko: - Nem, nem vizsgálták. Csak egy kis kérés feldolgozása szükséges.

Hall: - Vagyis csak megváltoztatjuk a spektrális szennyeződések pozícióit?

Evgeni Trofimenko: - Természetesen ez megváltozik.

Hall: - Szeretném tisztázni, hol szerezzük be ezeket a pluszokat. szavak a keveréshez?

Eugene Trofimenko: - Elemezze azokat a kéréseket, amelyek érdeklődnek Öntől.

Hall: - De valószínűleg nem lesz minden?

Eugene Trofimenko: - Igen, nem minden. És nem mindegyik parsit, minden megtalálható webhelyen, három webhelyen válogatva. Utána is tíz van kiemelve. A webhelyen belüli különböző URL-ek böngészésével többet is húzhat.

Kapcsolódó cikkek