A Yandex technológia "spektruma" és a weboldalak osztályozása
Eugene beszédét a Spectrum technológia sajátosságaira fektette. És a szokásos módon kezdte a kérdés történetét.
Amikor a felhasználók a Yandex-et kérik, az esetek mintegy 20% -ában kétértelműen fogalmazzák meg a lekérdezést. Például, kérésre [Napoleon], valaki meg akar találni egy parancsnokot, és valaki - egy recept egy torta. És a [sushi] megkérdezésével egy személy házhozszállítást is igénybe vehet egy éttermet, és egy receptet erre az ételre.
Az implicit célokat a keresési lekérdezések statisztikái alapján osztják el. Elvben ez ésszerű. Valaki, aki keres [laptop] akar vásárolni egy új laptop, valaki akar vásárolni használt laptop.
Az eredmények témakörei:
1. Az oldal téma: "új, vásárlás". Kiemelt a részletben: eladó, ár. vásárol, katalógus, új, stb.
2. Az oldal téma: "használt". Kiemelt a részletben: használt, használt. stb NEM kiemelve: eladás, ár, javítás
3. Az oldal téma: "Javítás" A részletekben kiemelve: javítás. stb NEM kiemelve: eladó, ár, használt
Eugene szerint eredetileg a Spectrum technológia helyesen működött. A tantárgyak különek voltak, és nem fedették egymást. Aztán a SEO szokásos elképzelése működött - több különböző szót írni, de hirtelen valami kijön. Most a Spectrum másképp működik.
Most a kiegészítő szándékok listája a kérelemre (
szándékok, témák), az eredményeket hozzáadják a minősített oldalak különálló adatbázisához (a téma szerint):
- "spektrális" szavak megvilágítása a "rendes" eredményekben
- Az összes "spektrális" szó csúcspontja, függetlenül a szándékoktól (témák)
- A keverés mankó. Néha vannak olyan oldalak, amelyek feltűnnek minden kérésnél. Ez egy meglehetősen jól ismert dolog, amikor kérésre [munkát] kijutni a weboldalról a "kisteherautók" miatt, hogy valahol a "munka" szót írta, és a webhely egy relevánsabb adatbázisban volt. Természetesen nem feltételezhetjük, hogy a kisteherautókról szóló site besorolásra került [munka]. "Vans" pontszám kiadatás.
- Számos szennyezés eredménye egy mondatban. Például néhány zsarolás a véleményben. Például kérjen egy autós modellt [Suzuki Grand Vitara]. Vannak kiemeltek, fotók és leírások, valamint a költségek és a műszaki jellemzők - minden lehetséges szándék, ami ott áll:
Hogyan lehet megkülönböztetni a spektrális szennyeződést ugyanabban a témában, azonos témában?
Az XML-dokumentum dokumentumazonosítójában. A színkódolt töredékek rendszeresen változnak. Látható, hogy a hatodik eredmény és az ötödik a felülvizsgálatokra szánják, bár a visszajelzés mellett sok más lehetséges szándék is létezik. Minden találat dokumentum azonosítója:
Közös dokumentum: 4 töredék
SPECTRUM. 3 töredék
Sebesség: 3 darab
Ultra-robot (nem most): 2 darab
Például az [i] lekérdezésben tízből tíz spektrális eredmény jelent meg a kibocsátásban. És a kérelmek különböző típusúak [Perm, Kazan, Novosibirsk]. Nagyon érthetetlen, hogy miért ebben az esetben: [Victor Tsoi], [a kutyákról]. Úgy tűnik, hogy volt az első szó, de aztán levágták és elhagyták, és a kérelem ebben a formában a "Spectrum" -ba került.
Itt van a kérés [kazan], add. témák a "Spectra" - 7 a 10:
Milyen néhány nyilvánvaló téma van? Térkép, látnivalók, hírek, szállodák. Kazan városa Kazan városának valószínűleg néhány telephelye. És az utolsó a Gismeteo.ru, az időjárás. Minden úgy tűnik, hogy jó. De amikor belépünk a [Kazan] lekérdezésbe, akkor látni fogjuk, hogy a Spectra egyszerűen nincs ott, és itt nincsenek szennyeződések:
Ez egy közönséges kérdés. Meglepő módon nincs erre a kérésre Spectrum, annak ellenére, hogy annak gyakorisága tízszer nagyobb, mint a lekérdezés [kazan].
Egyes oldalak szerencsésebbek. Egyes webhelyek gyakran a "Spectrum" -ba esnek. Világos, hogy minél több kérés, annál több webhely. A nagyszámú spektrumszennyeződés közül a legnagyobb vezető a www.torrentino.com, www.zaycev.net, majd ismét www.fast-torrent.ru - általában szórakoztató helyek.
Néhány webhely szerencsés, hogy átmenetileg bejut a "Spectrum" -ba, majd megtisztítják.
Termi funkciók. Mi azonosítható fut ed a leginkább informatív szorgalmi jellemzői alapján a kölcsönös információ ... Ahogy az várható volt, a legtöbb szembeállítása szempontjából voltak áruház, rubel, katalógus, árak, ár, és a kosár ... A teljes lista használt kifejezések besorolása kation abból állt, mintegy száz feltételek .
Lexikai jellemzők. A védjegyek és márkák listáját használtuk
A termi funkciók ... a lexikális sokféle vélemény jóval magasabb, mint a boltban.
Lexikális features.The listája 165 kézzel gyűjtött értékelése melléknevek-jó, szép, gyönyörű, a rossz, undorító, borzalmas, stb (jó, kiváló, nagyszerű, rossz, undorító, rettenetes stb.)
Egy személy felvet egy kérdést egy lehetséges termékről, és a feladata annak eldöntése, hogy meg akarja-e venni ezt a terméket, vagy hogy el akarja olvasni róla. Az áruházak lekérdezéseinek és oldalainak osztályozásához terminológiát alkalmaznak, ahol körülbelül száz szó látható a boltban. A felülvizsgálat osztályozásához pedig mintegy 7 ezer szó szerepel, és néhány melléknév manuálisan történik. A rendezői sorrend az osztályozóban 7-10 ezer.
De a legérdekesebb dolog az, hogy a kiadatás is szórványos töredékek. Például, kérje [pizza] Moszkvában. Úgy látszik, hogy a [pizza] és a [szállítmány] külön-külön kerülnek elkülönítésre, és a [otthon] töredék teljesen el van látva. Két szó egy darabból:
Általánosságban elmondható, hogy a "Spectrum" -on ilyen kiterjedt töredékek kibocsátása nagyon nagy. A 83 ezer darabból a spektrumszennyeződések 20-25% -a volt, és csak 127 volt egyedülálló.
A legnagyszerűbb törött töredékek így néznek ki:
mi 21773, 26,1%
Nézze online - 17034, 20,4%
dalszöveg - 10970, 13,1%
saját kezükben - 9809, 11,7%
az otthonban - 4062, 4,9%
időjárás-előrejelzés - 2639, 3,2%
tulajdonos véleménye - 2324, 2,8%
dal dalszövegei - 2049, 2,5%
a dalok szövege - 1862, 2,2%
letöltő illesztőprogramok - 1001, 1,2%
a térképen - 992, 1,2%
műszaki előírások - 970, 1,2%
online karóra - 899, 1,1%
várostérkép - 681, 0,8%
letöltő illesztőprogram - 634, 0,8%
Nyilvánvalóan ezek a töredékek manuálisan kerülnek hozzáadásra. Természetesen félelmetes, hogy a Yandex figyelembe veszi ezeket a szavakat a rangsorolás során, mivel még nem használják a rangsoroláshoz, de csak a Spectra osztályozóban használják. Mit tegyek?
Ha feltételezzük, hogy nem vesznek részt a rangsorban, akkor az egyetlen lehetséges érdek az, ha bejutunk a spektrum szennyeződésekbe. Következő - minőségi weboldal. Egyes webhelyek gyakrabban keverednek egymással. A besorolási szavak és az összetett részek pontosítása a lekérdezésekhez (különböző témákra vonatkozó kérelmek). Ne féljen, hogy használja őket a szövegben. És így tovább.
Köszönjük figyelmét!
Hall: - Megvizsgálták-e a spektrális keverékbe eső vizsgálatot? Nyilvánvaló, hogy tartalmaznia kell további szavakat, amelyek a szándékot jellemzik. Átmennek az üzemeltetőn, vagy valahogy hozzáadják? Érthető, hogy elkülöníthetjük a szavakat. Vedd magad a téma, meg fogjuk nevezni a feltételeket. Mindezeket a dolgokat kiszámíthatjuk mind a szavakat, mind a kifejezéseket. De logikus feltételezni, hogy a webhelyek szennyeződnek ezekkel a szándékokkal és vezetők bármely kérés esetén. Volt egy ilyen tanulmány? Vagy kérelmeken, vagy a kérések egy csoportjánál. Mi ez a kérés? Vagy ez másfajta találat?
Eugene Trofimenko: - Két kérdésed van a kérdésedre. Vagy a kérelemről, vagy a tárgyak metszéspontjáról a Spectrumban.
Hall: - A kérésekről.
Eugene Trofimenko: - Nem, nem vizsgálták.
Hall: - Vagyis logikus feltételezni, hogy a Spectrumba való bejutás problémájának megoldása érdekében meg kell értenünk, hogy milyen kérésre és vezetővé válik rajta.
Eugene Trofimenko: - Nem a vezető. Úgy gondolom, legalább egy lekérdezést kell készítenie, amely szerint van egy spektrum, és amely megfelel neked.
Hall: - Volt egyszer egy spektrális eredmény, és egy fix helyre, a hatodikra vagy a nyolcadikra került. Ezután a spektrális eredmény lett az elsőszámú és első helyen állt?
Eugene Trofimenko: - Szóval azt szeretnéd megkérdezni, hogy miként változik a helyzet a spektrális szennyeződésben?
Hall: - Igen. Talán felkutatták?
Eugene Trofimenko: - Nem, nem vizsgálták. Csak egy kis kérés feldolgozása szükséges.
Hall: - Vagyis csak megváltoztatjuk a spektrális szennyeződések pozícióit?
Evgeni Trofimenko: - Természetesen ez megváltozik.
Hall: - Szeretném tisztázni, hol szerezzük be ezeket a pluszokat. szavak a keveréshez?
Eugene Trofimenko: - Elemezze azokat a kéréseket, amelyek érdeklődnek Öntől.
Hall: - De valószínűleg nem lesz minden?
Eugene Trofimenko: - Igen, nem minden. És nem mindegyik parsit, minden megtalálható webhelyen, három webhelyen válogatva. Utána is tíz van kiemelve. A webhelyen belüli különböző URL-ek böngészésével többet is húzhat.