Kezded unni, hogy várni kell a Google indexelésére az új tartalmaiddal kapcsolatban? Segítsd a folyamatot azzal, hogy gondoskodsz arról, hogy az oldalaid feltérképezhetőek legyenek.
Miért olyan nehéz megbecsülni, mennyi ideig tarthat az indexelés, és mit tehetsz a gyorsítás érdekében?
Az indexelés az a folyamat, amelynek során a google információkat tölt le a webhelyedről úgynevezett „crawlerek” segítségével, majd kategorizálja azokat, és egy adatbázisban tárolja. Ez az adatbázis – a Google-index – a forrása minden olyan információnak, amelyet a Google-keresésen keresztül lehet megtalálni.
Az indexben nem szereplő oldalak nem jelenhetnek meg a keresési eredményekben, függetlenül attól, hogy mennyire felelnek meg egy adott lekérdezésnek.
Tegyük fel, hogy nemrégiben új oldalt adtál hozzá a blogodhoz. Az új bejegyzésében egy trendi témáról írsz, remélve, hogy ezzel sok új látogatót fogsz szerezni.
Mielőtt azonban láthatnád, hogyan teljesít az oldal a Google keresőben, meg kell várnod, hogy indexelésre kerüljön.
Szóval, pontosan mennyi ideig tart ez a folyamat? És mikor kell elkezdened aggódni, hogy az indexelés hiánya technikai problémákat jelezhet az oldaladon?
Mennyi ideig tart a googlenek az indexelés?
A Google indexe több százmilliárd weboldalt tartalmaz, és több mint 100 millió gigabájt tárhelyet foglal el.
Ezen kívül a Google nem korlátozza, hogy egy weboldal hány oldalát indexelheti. Bár egyes oldalak elsőbbséget élvezhetnek az indexelési sorban, az oldalaknak általában nem kell versenyezniük az indexelésért.
Ebben a gigászi adatbázisban mindig kell, hogy legyen még hely egy kis oldalnak, nem igaz? Nem kell aggódni a blogbejegyzésed miatt? Attól tartok, sajnos mégiscsak kell.
A Google elismeri, hogy nem minden, a crawlerek által feldolgozott oldal kerül indexelésre.
2021 januárjában a Google search Advocate, John Mueller részletesen kifejtette a témát, és nyilvánosságra hozta, hogy teljesen normális, hogy a Google nem indexeli a honlapok minden oldalát.
Ezért sok esetben a Google stratégiai döntése, hogy egy adott tartalmat nem indexel.
A Google nem akarja, hogy indexébe alacsony minőségű, duplikált tartalmú vagy olyan oldalak kerüljenek, amelyeket a felhasználók valószínűleg nem néznek meg. A legjobb módja annak, hogy a spameket távol tartsuk a keresési találatoktól, az, hogy nem indexeljük azokat.
De mindaddig, amíg a blogbejegyzéseid értékesek és hasznosak maradnak, addig még indexelésre kerülnek, nem igaz?
A válasz bonyolult.
Tomek Rudzki, az Onely – egy cég, amelynek én is dolgozom – indexelési szakértője kiszámolta, hogy a népszerű webhelyek értékes és indexelhető oldalainak átlagosan 16%-a soha nem kerül indexre.
Van garancia arra, hogy az oldalad indexelve lesz?
Ahogyan azt már a cikk címéből is sejtheted, erre az indexelési kérdésre nincs végleges válasz.
Nem fogod tudni beállítani magadnak egy naptárba emlékeztetőt azon a napon, amikor a blogbejegyzésed indexelésre kerül.
John Mueller szerint egy oldal indexelése néhány órától akár több hétig is eltarthat. Gyanítja, hogy a legtöbb jó tartalom körülbelül egy héten belül felkerül és indexelődik.
A Rudzki által végzett kutatás kimutatta, hogy átlagosan az oldalak 83%-át indexelik a megjelenést követő első héten belül.
Egyes oldalaknak akár nyolc hetet is várniuk kell az indexelésre. Természetesen ez csak azokra az oldalakra vonatkozik, amelyeket végül indexelnek.
Crawl igény és Crawl Budget
Ahhoz, hogy egy új oldal a blogodon felfedezésre és indexelésre kerüljön, a Googlebotnak újra fel kell térképeznie a blogot.
Az, hogy a Googlebot milyen gyakran térképezi fel újra a webhelyedet, minden bizonnyal hatással van arra, hogy az új oldalad milyen gyorsan indexelődik, és ez a tartalom jellegétől és frissítésének gyakoriságától függ.
A rendkívül gyakran új tartalmat közzétevő hír oldalakat gyakran kell újra feltérképezni. Mondhatjuk, hogy ezek magas feltérképezési igényű oldalak.
Alacsony feltérképezési igényű webhelyre példa lehet egy cég (Ács, fogorvos, stb) weboldala ahol nem blogolnak, mivel annak tartalma valószínűleg nem frissül túl gyakran.
A Google automatikusan meghatározza, hogy az adott webhely alacsony vagy magas crawl-igényű-e. A kezdeti feltérképezés során ellenőrzi, hogy miről szól a webhely, és mikor frissítették utoljára.
A döntésnek, hogy a webhelyet gyakrabban vagy ritkábban láncolja-e fel, semmi köze a tartalom minőségéhez – a döntő tényező a frissítések becsült gyakorisága.
A második fontos tényező a feltérképezési arány. Ez az a kérések száma, amelyet a Googlebot a szerver túlterhelése nélkül el tud végezni.
Ha blogját alacsony sávszélességű szerveren üzemelteti, és a Googlebot észreveszi, hogy a szerver lelassul, akkor alkalmazkodni fog, és csökkenti a lánctalálási sebességet.
Másrészt, ha a webhely gyorsan reagál, a határérték felemelkedik, és a Googlebot több URL-t tud feltérképezni.
A döntésnek, hogy a webhelyet gyakrabban vagy ritkábban kell feltérképezni, semmi köze a tartalom minőségéhez – a döntő tényező a frissítések becsült gyakorisága.
A második fontos tényező a feltérképezési arány. Ez az a kérések száma, amelyet a Googlebot a szerver túlterhelése nélkül el tud végezni.
Ha blogodat alacsony sávszélességű szerveren hosztolod, és a Googlebot észreveszi, hogy a szerver belassul, akkor alkalmazkodni fog, és csökkenti a feltérképezési sebességet.
Másrészt, ha a webhely gyorsan reagál, a határérték felemelkedik, és a Googlebot több URL-t tud feltérképezni.
Minek kell történnie, mielőtt az oldalad indexelésre kerül?
Mivel az indexelés időbe telik, felmerülhet a kérdés is – pontosan hogyan telik ez az idő?
Hogyan kategorizálódnak és kerülnek be a Google indexébe a weboldaladról származó információk?
Tartalomfelfedezés
Térjünk vissza a példához, amelyben új tartalmat tettél közzé. A Googlebotnak az indexelési folyamat első lépésében fel kell fedeznie ennek az oldalnak az URL-címét.
Ez a következőképpen történhet:
- A blogod másik oldalain megadott belső hivatkozások követésével, amelyek már indexelve vannak.
- Olyan emberek által létrehozott külső linkek követésével, akik hasznosnak találták az új tartalmadat.
- A Google Search Console-ba feltöltött XML oldaltérképen keresztül.
- WordPress oldalnál ha RankMath SEO plugint használsz lehetőség van az instant indexelésre.
- Google Search Console-ba beilleszted a bejegyzésed címét és kérheted az oldal indexelésést.
Az oldal felfedezésének ténye azt jelenti, hogy a Google tud a létezéséről és URL-címéről.
Crawling
A crawling az URL meglátogatásának és az oldal tartalmának lekérdezésének folyamata.
A Googlebot a feltérképezés során információkat gyűjt az adott oldal fő témájáról, arról, hogy az oldal milyen fájlokat tartalmaz, milyen kulcsszavak jelennek meg rajta stb.
Miután egy oldalon linkeket talál, a crawler követi azokat a következő oldalra, és a folyamat folytatódik.
Fontos megjegyezni, hogy a Googlebot követi a robots.txt fájlban meghatározott szabályokat, így nem fog olyan oldalakat feltérképezni, amelyeket az ebben a fájlban megadott irányelvek blokkolnak.
Renderelés
Az oldal megjelenítésnek meg kell történnie ahhoz, hogy a Googlebot megértse mind a JavaScript-tartalmat, mind a képeket, hang- és videofájlokat.
Az ilyen típusú fájlok mindig is nagyobb nehézséget jelentettek a Google számára, mint a HTML.
A Google fejlesztői szószólója, Martin Splitt a renderelést egy étel elkészítéséhez hasonlította.
Ebben a metaforában egy weboldal kezdeti HTML-fájlja más tartalmakra mutató hivatkozásokkal egy recept. Ezt a böngészőben az F12 billentyűzet lenyomásával nézheted meg.
A weboldal összes erőforrása, például a CSS, a JavaScript-fájlok, a képek és a videók a weboldal végső megjelenéséhez szükséges hozzávalók.
Amikor a weboldal eléri ezt az állapotot, akkor a renderelt HTML-el, gyakrabban Document Object Modelnek nevezett dokumentum objektum-modellel van dolga.
Martin azt is elmondta, hogy a JavaScript végrehajtása a legelső renderelési szakasz, mivel a JavaScript úgy működik, mint egy recept a recepten belül.
A nem is olyan távoli múltban a Googlebot az oldal kezdeti HTML-változatát indexelte, és a JavaScript renderelését a folyamat költségei és időigényessége miatt későbbre hagyta.
A SEO-iparág ezt a jelenséget „az indexelés két hullámának” nevezte.
Most azonban úgy tűnik, hogy a két hullámra már nincs szükség.
Mueller és Splitt elismerte, hogy manapság szinte minden új weboldal alapértelmezés szerint átmegy a renderelési szakaszon.
A Google egyik célja, hogy a feltérképezés, a renderelés és az indexelés közelebb kerüljön egymáshoz.
Lehet gyorsítani az oldal indexelését?
A rövid válasz az, hogy nem kényszerítheted a Google-t, hogy indexelje az új oldalad.
Az, hogy ez milyen gyorsan történik, szintén nem áll az irányításod alatt. Azonban optimalizálhatod az oldalaidat, hogy a felfedezés és a feltérképezés a lehető leggördülékenyebben menjen.
A következőket kell tenned:
Gondoskodj arról, hogy az oldalad indexelhető legyen
Két fontos szabályt kell betartanod ahhoz, hogy oldalad indexelhető maradjon:
- El kell kerülnöd, hogy a robots.txt vagy a noindex direktíva segítségével blokkold őket.
- Egy adott tartalmi rész kanonikus változatát kanonikus taggel kell megjelölnöd.
A robots.txt egy olyan fájl, amely utasításokat tartalmaz az oldaladat látogató robotok számára.
Segítségével megadhatod, hogy melyik robotok nem látogathatnak meg bizonyos oldalakat vagy mappákat. Mindössze a disallow utasítást kell használnod.
Ha például nem szeretnéd, hogy a robotok megnézzék a „példa” mappában található oldalakat és fájlokat, a robots.txt fájlodnak a következő direktívákat kell tartalmaznia:
User-agent: * Disallow: /example/
Néha előfordulhat, hogy a Googlebot indexelését tévedésből blokkoljuk az értékes oldalakon.
Ha aggódsz amiatt, hogy oldaladat technikai problémák miatt nem indexelik, mindenképpen nézd meg a robots.txt fájlodat.
A Googlebot udvarias, és nem fog olyan oldalt továbbítani az indexelésre amire azt mondták neki, hogy ne tegye. Az ilyen utasítás kifejezésére egy noindex direktíva beiktatásával van mód.
WordPressnél ezt SEO bővítmények segítségével tudod kontrollálni. Például ha van egy oldalad (ÁSZF) amit nem szertnél indexeltetni, akkro csak válaszd a „noindex” opciót.
Ügyelj arra, hogy ez az irányelv ne jelenjen meg az indexelendő oldalakon.
Mint már megbeszéltük, a Google el akarja kerülni a duplikált tartalmak indexelését. Ha két olyan oldalt talál, amelyek egymás másolatának tűnnek, valószínűleg csak az egyiket fogja indexelni.
A kanonikus címke a félreértések elkerülésére jött létre, és a Googlebotot azonnal arra az URL-címre irányítja, amelyet a webhely tulajdonosa az oldal eredeti változatának tekint.
Oldaltérkép beküldése
Az oldaltérkép felsorolja a weboldal minden olyan URL-címét, amelyet indexelni szeretne (legfeljebb 50 000).
Az oldaltérkép létrehozásával megkönnyíted, hogy a Googlebot könnyebben felfedezze az oldalaidat, és növeled annak esélyét, hogy feltérképezze azokat is, amelyeket nem talált meg a belső hivatkozások követése során.
Jó gyakorlat, ha a robots.txt fájlban hivatkozol az oldaltérképre.
Kérd meg a Google-t, hogy vizsgálja újra az oldalaidat
A Google Search Console-ban elérhető URL-ellenőrző eszközzel kérheted az egyes URL-ek feltérképezését.
Ez még mindig nem garantálja az indexelést, és némi türelemre lesz szükséged, de ez egy másik módja annak, hogy jelezd a googlelnek az új tartalmat.
Ha releváns, használd a Google Indexing API-ját
Az Indexing API egy olyan eszköz, amely lehetővé teszi, hogy értesítsd a Google-t a frissen hozzáadott oldalakról.
Ennek az eszköznek köszönhetően a Google hatékonyabban tudja ütemezni az időérzékeny tartalmak indexelését.
Sajnos a blogbejegyzéseidhez nem tudod használni, mert jelenleg ez az eszköz csak állásajánlatokat és élő videókat tartalmazó oldalakhoz készült.
Bár néhány SEO-profi más típusú oldalakhoz is használja az Indexing API-t – és ez rövid távon akár működhet is -, kétséges, hogy hosszú távon életképes megoldás marad.
Előzd meg a szerver túlterhelését a webhelyeden
Végül ne felejtsd el biztosítani a szervered jó sávszélességét, hogy a Googlebot ne csökkentse a webhelyed feltérképezési sebességét.
Kerüld a megosztott tárhelyszolgáltatók használatát, persze ez sok esetben nem kivitelezhető.
Összegzés
Lehetetlen pontosan megjósolni, hogy mennyi időbe telik, amíg az oldalad indexelésre kerül (vagy hogy ez egyáltalán megtörténik-e), mivel a Google nem indexel minden általa feldolgozott tartalmat.
Az indexelés általában órákkal vagy hetekkel a közzététel után történik.
Az indexelés során a legkritikusabb pont az azonnali feltérképezés.
Ha a tartalmad megfelel a minőségi küszöbértékeknek, és nincsenek technikai akadályai az indexelésnek, akkor elsősorban azt kell megvizsgálnod, hogy a Googlebot hogyan térképezi fel az oldaladat, hogy a friss tartalmak gyorsan indexelésre kerüljenek.
Mielőtt egy oldal be kerülne az indexelő rendszerbe, a Googlebot feltérképezi azt, és sok esetben megjeleníti a beágyazott képeket, videókat és JavaScript-elemeket.
Azokat a webhelyeket, amelyek gyakrabban változnak, és ezért nagyobb a feltérképezési igényük, gyakrabban látogatja meg újra és újra.
Amikor a Googlebot meglátogatja a webhelyedet, a feltérképezési arányt az alapján igazítja, hogy hány lekérdezést tud küldeni a szerverre anélkül, hogy túlterhelné azt.
Ezért érdemes gondoskodni a szerver jó sávszélességéről.
Ne blokkold a Googlebotot a robots.txt-ben, mert akkor nem fogja feltérképezni az oldalaidat.
Ne feledd, hogy a Google is tiszteletben tartja a noindex robots meta taget, és általában csak az URL kanonikus változatát indexeli.