Robotai internete ir jų įtaka svetainėms

Interneto svetainių lankomumo statistikose kiekvieno svetainės savininko žvilgsnis dažnai krypsta į unikalius lankytojus bei jų atidarytų puslapių svetainėje kiekius (paspaudimus). Nepaisant to, kad matomi skaičiai iš pirmo žvilgsnio gali džiuginti, reikėtų turėti omenyje, kad ne visi svetainės puslapių atidarymai yra atlikti realaus lankytojo-žmogaus iniciatyva. Kad ir kaip keistai tai skambėtų, internete kiaurą parą svetaines lanko įvairiausi robotai, renkantys informaciją apie kiekvieną internete viešai pasiekiamą puslapį ir tai turi vienokią ar kitokią įtaką interneto svetainėms – tiek teigiamą, tiek neigiamą.

Kas yra laikoma robotu interneto svetainių kontekste?

Visus interneto svetainių lankytojus galima suskirstyti į dvi pagrindines grupes – realius lankytojus (žmones) bei automatizuotas sistemas (robotus). Anglų kalboje internete veikiantiems robotams apibūdinti plačiai naudojami tokie terminai kaip “bot”, “crawler” bei “spider”. Visų jų tikslas yra rinkti viešai prieinamą informaciją apie interneto svetaines, nuskaitant visus arba tam tikrą dalį vidinių svetainės puslapių. Šios surinktos informacijos panaudojimas gali būti labai įvairus, tačiau pagrindines robotų lankymosi svetainėse priežastis galima įvardinti:

  • informacijos apie svetainėje esantį turinį išsisaugojimas nuosavoje duomenų bazėje tam, kad paieškos sistema (kurios robotas atliko indeksavimą) galėtų rodyti svetainę paieškos rezultatuose po naudotojo įvestų tikslinių raktažodžių. Tokiu tikslu svetainėse lankosi robotai, pavyzdžiui: GoogleBot, BingBot, YandexBot, Baiduspider, kurie priklauso pasaulyje plačiai naudojamoms paieškos sistemoms.
  • informacijos apie svetainę rinkimas su tikslu reitinguoti tarpusavyje interneto svetaines. Tokiu tikslu svetainėse lankosi robotas, pavyzdžiui: ia_archiver, priklausantis plačiai žinomai svetainių reitingavimo sistemai Alexa.
  • svetainėse nurodytos kontaktinės informacijos (el. pašto adresai, telefonų numeriai ir pan.) rinkimui ir vėlesniam panaudojimui tiesioginės rinkodaros tikslais (kas akivaizdu, jog tokia veikla yra neteisėta).

Taigi, kaip jau tikriausiai supratote – didžioji dalis robotų yra naudingi ir pageidaujami interneto svetainėse, tačiau yra ir tokių, kurie pasitelkiami kenkėjiškai veiklai vykdyti, negana to – generuodami užklausas interneto svetainei ją dar labiau apkrauna ir tai gali atsiliepti bendrai svetainės greitaveikai.

Kaip veikia robotai?

Didžioji dauguma robotų pasižymi savybe konkrečias interneto svetaines lankyti periodiškai (dažnumas priklauso nuo kelių veiksnių), kuomet robotas savo duomenų bazėje jau turi informaciją apie jį dominančią interneto svetainę. Tačiau kaip robotai patenka į internete visiškai naujai atsiradusias interneto svetaines? Tam yra galimi du pagrindiniai būdai:

  • į interneto svetainę patenkama per kitoje svetainėje esančią nuorodą (svetainės adresas internete jau yra kažkur minimas).
  • rankinis iš svetainės savininko pusės inicijuojamas roboto apsilankymas interneto svetainėje. Google paieškos sistemos atveju inicijavimas atliekamas per Google Search Console sistemą.

Kalbant apie “geruosius” robotus, kurie dažnu atveju priklauso plačiai žinomoms paieškos sistemoms ir kurie veikia vadovaudamiesi robots.txt failo standartu – pirmojo apsilankymo svetainėje metu jie visų pirma patikrina ar svetainėje egzistuoja robots.txt failas (keliamas į pagrindinę svetainės direktoriją public_html). Jei taip – nuskaito jame esančias taisykles, kitaip tariant draudimus bei leidimus svetainėje lankytis ir indeksuoti tam tikras jos dalis. Jei robots.txt failo svetainėje nėra arba jame esančios taisyklės nedraudžia robotui lankytis svetainėje – jis nuskaito esamo puslapio informaciją ir sekdamas puslapyje aptiktomis nuorodomis į vidinius ir išorinius (kitų svetainių) puslapius keliauja iš vieno puslapio į kitą, iš vienos svetainės į kitą ir t.t., surinktą informaciją išsisaugodamas savo duomenų bazėje.

Užbaigę interneto svetainės indeksavimą ir susirinkę visą reikalingą informaciją, robotai svetainę vėliau “prisimena” po tam tikro laiko ir perindeksuoja iš naujo (patikrina, kokie atsirado pokyčiai svetainėje).
Mūsų klientų aptarnavimo specialistams konsultuojant klientus retkarčiais tenka susidurti su gana neįprastomis situacijomis, kai klientų svetaines skirtingi robotai nusprendžia indeksuoti beveik tuo pačiu metu (dažniausiai – mėnesio pirmosiomis dienomis). Todėl po gausybės interneto svetainėje gaunamų užklausų būna pradedami fiksuoti PHP perviršiai, kurie indikuoja uždelstą PHP procesų įvykdymą, atsiliepiantį svetainės greitaveikai.

Kokia robotų įtaka interneto svetainei?

Kaip jau buvo minima, internetiniai robotai gali daryti tiek teigiamą, tiek neigiamą įtaką interneto svetainei:

  • teigiama:
    • dėl periodiškai apsilankančių paieškos sistemų robotų, interneto svetainė bus randama ir matoma paieškos sistemų naudotojų vykdomose tikslinėse paieškose – būsite matomi internete.
    • svetainių reitingavimo sistemoms turint informaciją apie Jūsų svetainę, galėsite palyginti savo svetainės vertinimą su kitomis panašiomis svetainėmis.
  • neigiama:
    • intensyvūs ir dažni robotų apsilankymai interneto svetainėje gali tiesiogiai lemti svetainės greitaveiką į neigiamą pusę realiems lankytojams-žmonėms.
    • didesni robotų apsilankymo svetainėje kiekiai gali ženkliai iškreipti svetainės lankomumo statistiką.
    • yra rizika, kad tam tikrų robotų apsilankymo svetainėje tikslas tėra kontaktinių duomenų nuskaitymas ir išsisaugojimas vėlesniems kenkėjiškiems tikslams.

Pagrindinė taisyklė, kuria reikėtų vadovautis kalbant apie robotus – interneto svetainės savininkui vertėtų periodiškai peržiūrėti svetainės lankomumo statistiką ir konkrečiai lentelę pavadinimu “User Agents”. Šiuose rodmenyse bus matomi gerai žinomų interneto naršyklių pavadinimai ir kartu visų robotų su unikaliais arba žodį “Bot” sudurtiniame pavadinime turinčiais įrašais. Kiekvieną įtartiną roboto pavadinimą vertėtų patikrinti internete ir identifikavus roboto priklausymą tam tikrai sistemai (galite pasinaudoti botreports.com svetaine) reikėtų įsivertinti, ar ta sistema yra naudinga Jums arba Jūsų interneto svetainei. Pavyzdžiui: jei Jūsų interneto svetainėje yra talpinama informacija lietuvių kalba ar prekiaujama Lietuvos rinkai skirtais produktais, Kinijos paieškos sistemos Baidu robotui indeksuoti Jūsų svetainės nėra aktualu ir ypač jei jis pasižymi dideliu generuojamų užklausų kiekiu. Galbūt svetainės lankomumo statistikoje išvydus roboto pavadinimą Baiduspider vertėtų apsvarstyti galimybę jį blokuoti?

Kaip valdyti robotus?

Internetinių robotų valdymui yra sukurtas specialus standartas, kuris paremtas leidimų ir draudimų įvardinimu jau minėtame svetainės faile robots.txt. Šiame faile aprašomos taisyklės gali uždrausti arba leisti išvardintiems ar visiems robotams indeksuoti interneto svetainę ar atskiras jos dalis, taip pat galima įvardinti, kokiu intensyvumu iš vieno konkretaus roboto pageidaujama gauti užklausas (ne dažniau, nei nurodytas sekundžių kiekis). Gana nemažai robots.txt failo taisyklių pavyzdžių esame įvardinę savo pagalbos puslapyje.

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *