Přihlásit se

Joomla 5.2.2 Security & Bugfix Release

Joomla 5.2.2 je nyní k dispozici. Jedná se o bezpečnostní vydání pro Joomla 5.x.

Zahlcení serveru Googlebotem - jak tomu zabránit?

29. led 2025 07:37 #150146
Odpověď od Rudolf
Joomla Expert

Leoš napsal: Jde mi pouze o to, proč ten bot tak vehementně indexuje url, které ani nejsou v sitemapě? Tam mám asi 1500 url ale bot indexuje 200k a více url? To musí mít právě tu souvislost s Virtuemartem a těmi moduly.


Problém s boty jsme řešili na jednom serveru cca v srpnu 2024, kde jsme měli cca 30k přístupů na jeden eshop za hodinu a týkalo se to všech eshopů, takže během půl dne se server zhroutil a bylo třeba manuálně mazat a restartovat.

Pomocí úpravy souboru native.php jsme si vyexportovali excel s URL, časy a IP adresami botů - nejsou to jen googleboti.

Boti prochází všechny URL, které na webu najdou, tedy i ty, které nejsou v sitemapě, ale které prostě jsou k dispozici na daném webu (a nyní to je jedno jestli joomla versus Wordpress  nebo VirtueMart versus PhocaCart).

Code:
[b]Přklad z exportu:[/b] /obchod/vsechny-produkty?limit=99&limitstart=7524&order=DESC&mode=fav_add&favorite_id=55707 To je zaindexovaná URL ze starého eshopu z komponenty com_wishlist, která dříve existovala a nyní ji volá AmazonBot (Bad Bot) pomocí return a base64.


Správné řešení není univerzální jedno, ale určitě:
- upravit robot.txt a omezit ty typy URL, které nechci aby někdo procházel, zkoumal a případně posílal do indexu s označením procházeno, neindexováno
- jeden příklad, sice ne zrovna typický - Disallow: /*?format=feed&type=*
- projít si všechny view (a tím myslím opravdu všechny view, i ty které se generují v pluginech nebo funkcích komponent) a přidat manuálně directivu na nofollow, noindex a následně zkontrolovat
- nespoléhat se na globální nastavení komponent, modulů, pluginů...

V našem případě, protože nešlo čistě jen o boty, ale o zahlcení serveru pomocí generování session (a boti každou návštěvou generovali session), šlo o
- eliminaci návštěv URL pomocí botů, které nechceme procházet == nechceme aby se objevily v GSC
- eliminaci generování session pomocí návštěvy URL botem a tím zahlcení serveru
- ale také eliminaci generování session od wget cronů (příklad generování feedů, import dat od dodavatelů...)

Nakonec nám pomohlo:
- úprava robots.txt
- plugin od OPC ohledně session a CLI
- úprava cronů na verzi CLI
- úprava view

Co se týká vygenerování 403, nejsem si jistý jestli její generování je v pořádku.

Stavový kód 403 říká, že hledaná URL adresa sice opravdu existuje, žádost o přístup ze strany klienta ale nemůže být provedena

Podle mne se budou ti boti vracet a ty URL znovu zkoušet, protože UR přece existuje že? byť již asi nezahltí server.
Ale v GSC tyhle URL asi pořád budou.
Tohle bych si musel prozkoumat a otestovat ale možná zde přiběhnout lepší "zaručení" odborníci jak a co správně udělat.
Já bych se spíše přikláněl k názoru, že je třeba tyto URL označit že je roboti nemají prcházet a indexovat.

Nicméně již jen to že můj příspěvek povzbudí diskusi je super :)

A pozor!

Někdy chceme abychom dané URL mohli procházet i když je nechceme indexovat (interní odkazy, a také myslím že se jedná o odkazy paginace).

MiniJoomla! - www.minijoomla.cz - eshop s rozšířením Joomla/VM
Email Manager - aplikace na správu šablon emailů pro VirtueMart
Easy Feeder - aplikace na generování XML/CSV feedů a napojení na ERP pro VM
PragueClassicconcert - portál pro prodej vstupenek na systému Joomla
Poděkovali: Leoš

29. led 2025 20:50 #150148
Odpověď od Leoš
Pokročilý uživatel
Ahoj Rudolfe, 
moc díky moc za obsáhlý příspěvek.
Ta 403 byla způsobena tím, že jsem v prvním okamžiku zakázal Googlebotovi přístup na web pomocí htaccessu. Jakmile jsem zjistil, že jádro problému bylo to indexování atypických url a narychlo to upravil v robots.txt, tak jsem tomu robotovi zase přístup povolil.

Procházím si GSC a vypisuju si nežádoucí url adresy a ty se pak snažím eliminovat pomocí robots.txt.
Jak ale docílím toho, že mi zmizí z GSC? Stačí na to ta eliminace v robots.txt? Nebo jsem to pochopil blbě?

30. led 2025 07:17 #150152
Odpověď od Rudolf
Joomla Expert

Leoš napsal: Ahoj Rudolfe, 
moc díky moc za obsáhlý příspěvek.
Ta 403 byla způsobena tím, že jsem v prvním okamžiku zakázal Googlebotovi přístup na web pomocí htaccessu. Jakmile jsem zjistil, že jádro problému bylo to indexování atypických url a narychlo to upravil v robots.txt, tak jsem tomu robotovi zase přístup povolil.

Procházím si GSC a vypisuju si nežádoucí url adresy a ty se pak snažím eliminovat pomocí robots.txt.
Jak ale docílím toho, že mi zmizí z GSC? Stačí na to ta eliminace v robots.txt? Nebo jsem to pochopil blbě?


Stačí eliminace v robots.txt a ony časem zmizí
Nezapomenout na ty view a vložení do hlavičky direktivu noindex, nofollow nebo noindex, follow podle potřeby.
Nevím jestli do robots.txt jste schopen vložit všechny generované URL ze všech aplikací Joomla, tak to view je taková jistota.

MiniJoomla! - www.minijoomla.cz - eshop s rozšířením Joomla/VM
Email Manager - aplikace na správu šablon emailů pro VirtueMart
Easy Feeder - aplikace na generování XML/CSV feedů a napojení na ERP pro VM
PragueClassicconcert - portál pro prodej vstupenek na systému Joomla

Powered by Fórum