Joomla 5.2.2 Security & Bugfix Release
Joomla 5.2.2 je nyní k dispozici. Jedná se o bezpečnostní vydání pro Joomla 5.x.
Zahlcení serveru Googlebotem - jak tomu zabránit?
Leoš napsal: Jde mi pouze o to, proč ten bot tak vehementně indexuje url, které ani nejsou v sitemapě? Tam mám asi 1500 url ale bot indexuje 200k a více url? To musí mít právě tu souvislost s Virtuemartem a těmi moduly.
Problém s boty jsme řešili na jednom serveru cca v srpnu 2024, kde jsme měli cca 30k přístupů na jeden eshop za hodinu a týkalo se to všech eshopů, takže během půl dne se server zhroutil a bylo třeba manuálně mazat a restartovat.
Pomocí úpravy souboru native.php jsme si vyexportovali excel s URL, časy a IP adresami botů - nejsou to jen googleboti.
Boti prochází všechny URL, které na webu najdou, tedy i ty, které nejsou v sitemapě, ale které prostě jsou k dispozici na daném webu (a nyní to je jedno jestli joomla versus Wordpress nebo VirtueMart versus PhocaCart).
Správné řešení není univerzální jedno, ale určitě:
- upravit robot.txt a omezit ty typy URL, které nechci aby někdo procházel, zkoumal a případně posílal do indexu s označením procházeno, neindexováno
- jeden příklad, sice ne zrovna typický - Disallow: /*?format=feed&type=*
- projít si všechny view (a tím myslím opravdu všechny view, i ty které se generují v pluginech nebo funkcích komponent) a přidat manuálně directivu na nofollow, noindex a následně zkontrolovat
- nespoléhat se na globální nastavení komponent, modulů, pluginů...
V našem případě, protože nešlo čistě jen o boty, ale o zahlcení serveru pomocí generování session (a boti každou návštěvou generovali session), šlo o
- eliminaci návštěv URL pomocí botů, které nechceme procházet == nechceme aby se objevily v GSC
- eliminaci generování session pomocí návštěvy URL botem a tím zahlcení serveru
- ale také eliminaci generování session od wget cronů (příklad generování feedů, import dat od dodavatelů...)
Nakonec nám pomohlo:
- úprava robots.txt
- plugin od OPC ohledně session a CLI
- úprava cronů na verzi CLI
- úprava view
Co se týká vygenerování 403, nejsem si jistý jestli její generování je v pořádku.
Stavový kód 403 říká, že hledaná URL adresa sice opravdu existuje, žádost o přístup ze strany klienta ale nemůže být provedena
Podle mne se budou ti boti vracet a ty URL znovu zkoušet, protože UR přece existuje že? byť již asi nezahltí server.
Ale v GSC tyhle URL asi pořád budou.
Tohle bych si musel prozkoumat a otestovat ale možná zde přiběhnout lepší "zaručení" odborníci jak a co správně udělat.
Já bych se spíše přikláněl k názoru, že je třeba tyto URL označit že je roboti nemají prcházet a indexovat.
Nicméně již jen to že můj příspěvek povzbudí diskusi je super
A pozor!
Někdy chceme abychom dané URL mohli procházet i když je nechceme indexovat (interní odkazy, a také myslím že se jedná o odkazy paginace).
MiniJoomla! - www.minijoomla.cz - eshop s rozšířením Joomla/VM
Email Manager - aplikace na správu šablon emailů pro VirtueMart
Easy Feeder - aplikace na generování XML/CSV feedů a napojení na ERP pro VM
PragueClassicconcert - portál pro prodej vstupenek na systému Joomla
moc díky moc za obsáhlý příspěvek.
Ta 403 byla způsobena tím, že jsem v prvním okamžiku zakázal Googlebotovi přístup na web pomocí htaccessu. Jakmile jsem zjistil, že jádro problému bylo to indexování atypických url a narychlo to upravil v robots.txt, tak jsem tomu robotovi zase přístup povolil.
Procházím si GSC a vypisuju si nežádoucí url adresy a ty se pak snažím eliminovat pomocí robots.txt.
Jak ale docílím toho, že mi zmizí z GSC? Stačí na to ta eliminace v robots.txt? Nebo jsem to pochopil blbě?
Leoš napsal: Ahoj Rudolfe,
moc díky moc za obsáhlý příspěvek.
Ta 403 byla způsobena tím, že jsem v prvním okamžiku zakázal Googlebotovi přístup na web pomocí htaccessu. Jakmile jsem zjistil, že jádro problému bylo to indexování atypických url a narychlo to upravil v robots.txt, tak jsem tomu robotovi zase přístup povolil.
Procházím si GSC a vypisuju si nežádoucí url adresy a ty se pak snažím eliminovat pomocí robots.txt.
Jak ale docílím toho, že mi zmizí z GSC? Stačí na to ta eliminace v robots.txt? Nebo jsem to pochopil blbě?
Stačí eliminace v robots.txt a ony časem zmizí
Nezapomenout na ty view a vložení do hlavičky direktivu noindex, nofollow nebo noindex, follow podle potřeby.
Nevím jestli do robots.txt jste schopen vložit všechny generované URL ze všech aplikací Joomla, tak to view je taková jistota.
MiniJoomla! - www.minijoomla.cz - eshop s rozšířením Joomla/VM
Email Manager - aplikace na správu šablon emailů pro VirtueMart
Easy Feeder - aplikace na generování XML/CSV feedů a napojení na ERP pro VM
PragueClassicconcert - portál pro prodej vstupenek na systému Joomla