Googlebot Nedir? Nasıl Çalışır?

Googlebot, Google arama motoru için kullanılabilir bir arama dizini oluşturmak üzere web’den belgeler (link, doküman) toplayan ve aktif olarak Google tarafından kullanılmakta olan web tarayıcı yazılıma verilen isimdir. Googlebot aracılığı ile Google web dünyasında yer alan linkleri takip ederek yeni site ve sayfaları keşfeder, bunları tarar ve dizine ekler.

Arama motoru botları web dünyasında bot (robot) ve spider (örümcek) olarak adlandırılırlar. Googlebot’un Googlerobot ve Google örümceği (Google spider) gibi isimleri de mevcuttur.

Googlebot temelde Googlebot masaüstü ve Googlebot mobil olmak üzere iki farklı amaç ve cihaz için kullanılan web tarayıcılarını genel anlamda isimlendirmek için kullanılır. Bu web tarayıcılarının user-agentları ortak olsa da üstlendikleri görev ve sayfaları işleme şekilleri birbirinden farklıdır.

Google arama motoru dizinini (index) güncel tutmak ve kullanıcılara arama niyetleri ile uyumlu, başarılı sonuçlar sunmak için Googlebot aracılığı ile web dünyasını aralıksız olarak tarar ve mevcut sayfaları ihtiyaç dahilinde güncellerken yeni keşfettiği sayfaları arama dizinine ekler.

Google’ın arama dizinine kaydettiği milyarlarca sayıda web sayfası kullanıcı tarafından gerçekleştirilen arama sorgusuna göre değerlendirilir ve arama sonuçlarında Google algoritması tarafından başarılı olarak değerlendirilen sayfalar en üst sıralarda yer alır. Gerçekleştirilen bir arama sorgusuna yanıt olarak oluşturulan arama sonuç sayfasında ilgili web siteleri (web sayfaları) sıralanmadan önce ilgili sayfaların taranma ve dizine kaydedilme süreçlerinde Googlebot aktif rol alır.

Makalenin İçerikleri gizle

1 Googlebot Nasıl Çalışır ?

1.1 Googlebot Web Sayfalarını Tekrarlı Olarak Ziyaret Eder

1.2 Googlebot Site Haritalarını Aktif Olarak Kullanmaktadır

1.3 Googlebot Robots.txt Direktiflerini İşleme Alır

1.4 Googlebot Tarama ve İndeksleme Süreçlerinde Meta Etiketlerini Kontrol Eder

2 Robots.txt ve Meta Etiketi ile Engellenmiş Sayfaların İndekslenmesi

3 Googlebot Türleri (Crawlers)

4 Googlebot’un Siteyi Taraması ve İndekslemesi Nasıl Engellenir ?

5 Googlebot’un Tarama Sıklığı

Googlebot Nasıl Çalışır ?

Googlebot’un çalışma şekli temelde bilinen bir web sayfasının taranmasına ve sayfada yer alan linklerin Googlebot tarafından keşfedilerek takip edilmesine ve keşfedilen linkte yer alan sayfanın taranılarak alaka durumuna göre dizine eklenmesine dayanır. Googlebot, arama dizininde kayıtlı olan linkler üzerinde yer alan farklı linkleri (sayfaları) birbiri ardına ziyaret ederek ilgili sayfalarda yer alan linkleri takip eder ve buna bağlı olarak webde yer alan veya yeni oluşturulan web sayfalarını keşfeder ve dizine ekler.

Googlebot tarafından keşfedilen bir web sayfasının tüm içeriği (içerik kaynakları) ilgili bot tarafından indirilir ve daha sonra siteye ziyaret gerçekleştirilebilecek botların kullanımına sunulmak üzere sıkı bir şekilde cachelenir.

Cache içerisine alınan web sayfasının kaynakları daha sonrasında ilgili sayfaya ziyaret gerçekleştiren Googlebot masaüstü, mobil, news, images gibi botlar tarafından kullanılır. Süreç içerisinde Googlebot tarafından taranan web sayfası alaka durumuna göre dizine kaydedilir.

Googlebotun bir sayfada yer alan linkleri takip edebilmesi için ilgili linklerin href veya src ile kullanılması gereklidir. Sayfada href veya src ile verilen link, Googlebot tarafından taranmak istendiğinde ilgili sayfaya yönelik HTTP isteği sunucuya iletilir. Sayfanın mevcut durumuna göre sunucudan HTTP yanıt kodu alınır ve gelen koda göre sayfanın kaynaklarının taranma süreci gerçekleşir.

Eğer Googlebot tarafından sunucuya gönderilen HTTP isteğine 200 “OK” yanıt kodu alınırsa bu yanıt kodu ile birlikte sayfanın kaynakları (kodları) Googlebota iletilir ve Googlebot ilgili kaynakları tarayarak, sayfayı alaka durumuna göre dizine kaydetmek üzere işleme alır. Googlebot tarafından sunucuya gönderilen istekte user-agent “Googlebot” olarak belirtilir ve gönderilen HTTP isteği sonrası erişim, sunucu tarafından erişim kayıtlarına (Server access log) kaydedilir.

Googlebot Web Sayfalarını Tekrarlı Olarak Ziyaret Eder

Googlebot, özellikle popüler ve otoriter web sayfalarına ilgili sayfaların güncelliğini korumak amacıyla tekrarlı ziyaretler gerçekleştirir. Bu süreçteki temel amaç web sayfasında gerçekleşmiş herhangi bir güncellemenin arama motoru tarafından yakalanabilir olmasını sağlamak ve ilgili sayfanın sahip olduğu içerik ile alakalı sorgu gerçekleştiren kullanıcılara güncel web sayfasını alaka durumuna göre sunabilmektedir.

Popüler bir sayfada gerçekleşecek herhangi bir güncelleme ilgili sayfanın popüler olduğu sorgudaki alaka seviyesini yada farklı sorgularla olan bağlantısını değiştirebileceğinden arama motorları için bir sayfanın güncelliğinin aktif tutulabilmesi önemlidir. Özellikle haberler, anlık olarak değişen konulara bağlı oluşturulan içeriklerin tekrarlı ziyaretler ile aktif tutulması kullanıcı arama niyetine uyumlu arama motoru sonuçlarının sağlanabilmesi adına önemlidir.

Googlebot Site Haritalarını Aktif Olarak Kullanmaktadır

Web siteleri tarafından özellikle siteye ziyaret gerçekleştiren arama motorlarının (web tarayıcılarının) kullanması ve sitedeki URL’leri daha rahat keşfetmesi amacıyla kullanılan site haritaları, Googlebot tarafından aktif olarak kullanılmaktadır. Google Search Console üzerinden Google’a bildirebileceğiniz site haritanız vasıtasıyla sitenizin URL haritasını Google’a iletebilir ve sitenizin Googlebotları tarafından çok daha kolay keşfedilmesini sağlayabilirsiniz.

Özellikle site içi link mimarisi zayıf, iç linkleme yönünden başarısız bir yapıya sahip web siteleri için site haritaları, arama motoru botlarının siteyi keşfetmesi için faydalı bir araçtır. Googlebot site mimarisi iyi yada kötü olması fark etmeksizin bir web sitesinin site haritasını aktif olarak okuyarak (ziyaret gerçekleştirerek) mevcutta dizinde kayıtlı olan bir web sayfasını tekrar tarayabilir yada ilgili site haritasında yer alan ancak daha önce keşfedilmemiş bir linki keşfederek dizine ekleyebilir.

Mevcutta Googlebot tarafından hali hazırda taranıp dizine kaydedilmiş bir web sayfasında gerçekleştirilen güncelleme, site haritasında ilgili URL’in last modified (son düzenlenme tarihinde) yapılacak güncelleme ve gerçekleştirilecek pingleme yolu ile Google’a iletilebilir ve Googlebot siteye ziyaret gerçekleştirerek ilgili URL yada URL’leri tarayabilir.

Googlebot Robots.txt Direktiflerini İşleme Alır

Googlebot, web tarayıcılarına web sitesinin ne şekilde taranacağı ile alakalı direktiflerin sunulduğu robots.txt dosyasında yer alan direktifleri işleme alır ve web siteyi burada yer alan direktiflere uygun olarak tarar ve dizine ekler.

Web sitesinde Googlebot tarafından taranıp dizine eklenmesinin istenmediği bir sayfa, Robots.txt üzerinde disallow: komutu ile engellenebilir. Bir web sitesinde yer alan sayfayı taramak üzere siteye ziyaret gerçekleştiren Googlebot , robots.txt dosyasında yer alan direktifleri kontrol ederek ilgili sayfanın herhangi bir kısıtlamaya tabi tutulup tutulmadığı inceler. Bu noktada ilgili sayfa Disallow: olarak belirtilmiş ise Googlebot ilgili sayfayı taramaz.

Robots.txt dokümanı oluşturulurken Disallow direktiflerinin dikkatlice oluşturulması önemlidir. Çünkü yanlış şekilde oluşturulan hatalı bir robots.txt dosyası bir web sitesinin tüm tarama grafiğini negatif yönde değiştirebilir. Hatalı disallow komutları ile bir web sayfasının JS, CSS gibi statik kaynakları botların taramasına kapatılabilir. Bu gibi durumlarda kaynakları görüntülemeyen Googlebotları sayfayı eksik görüntüler ve sayfa eksik hali ile değerlendirmeye alınır.

Robots.txt üzerinde disallow olarak belirtilen bir web sayfası (URL) Googlebot tarafından taranıp dizine eklenme süreçlerine dahil edilmez ancak site içinden robots.txt ile engellenen URL, dışarıdan bağlantı yolu ile Googlebot’a iletilir ise ilgili URL taranıp dizine kaydedilebilir.

Web sayfasının tam anlamıyla Googlebot tarafından taranıp dizine eklenmesinin engellenebilmesi için meta robots direktiflerinin robots.txt ile birlikte kullanılması önemlidir.

Robots.txt üzerinde Googlebot’un hedeflenebilmesi için User-agent: alanına Googlebot yada Googlebot’un farklı türevlerinin User-agent adreslerinin yazılması gereklidir. Tüm botların user-agent’ı için kullanılan * ifadesinin altında belirtilen tüm direktifler Googlebot içinde geçerli olacaktır.

Googlebot’un masaüstü, mobil, resim, video, reklamlar gibi pek çok farklı görevi üstlenen tipi, robots.txt direktiflerine uyum gösterse de feedfetcher vb bazı Googlebot tipleri, tarama faaliyetleri içerisinde robots.txt direktiflerini dikkate almamaktadır.

Googlebot Tarama ve İndeksleme Süreçlerinde Meta Etiketlerini Kontrol Eder

Googlebot robots.txt üzerinde herhangi bir kısıtlamaya tabi tutulmamış bir linki ziyaret edip tararken ilgili linkin kaynak kodları (HTML’i) içerisinde meta etiketlerini kontrol eder. Meta name=”Googlebot” olarak belirtilen meta etiketlemesinde content= alanı “noindex” olarak belirtilmiş ise Googlebot ilgili içeriği tarar ancak dizine eklemez.

Aynı şekilde robots.txt üzerinde engellenmiş ancak dışarıdan harici yollar ile Googlebot’a işaret edilen web sayfalarının HTML’i içerisinde meta etiketi noindex olarak belirtilmemişse ilgili sayfa Googlebot tarafından dizine eklenebilir. Robots.txt üzerinde engellenen sayfaların, Googlebot tarafından dizine eklenmesi kesin olarak engellenmek isteniyor ise meta işaretlemesine “noindex” eklenmesi gereklidir. Aksi durumda robots.txt üzerinde engellense dahi bir web sayfası harici bağlantılar yolu ile keşfedilerek Googlebot tarafından taranıp dizine eklenebilir.

Googlebot tarama ve indeksleme süreçleri içerisinde HTML dokümanının <head> </head> satırları arasında kullanılan meta etiketlerini okuyarak burada yer alan direktifler dahilinde sayfayı tarar ve dizine kaydeder.

Robots.txt ve Meta Etiketi ile Engellenmiş Sayfaların İndekslenmesi

Robots.txt dosyası içerisinde disallow: direktifi ile taramalara kapatılmış bir URL, dışarıdan harici bir link aldığında sayfanın içerisinde meta=”googlebot” content=”noindex” direktifi yer alsa dahi ilgili içerik Google tarafından indekslenebilir. Çünkü Robots.txt üzerinden disallow edilen bir doküman site içerisinde Googlebot tarafından taranmayacağı için sayfada yer alan meta etiketi Googlebot tarafından görüntülenemeyecektir. Bu durumda meta etiketi sayfada kullanılıyor olsa dahi farklı sitelerden çeşitli yollarla linkleme alan web sayfası Google tarafından indekslenebilir.

Google Search Console üzerinde yer alan kapsam raporlarında robots.txt üzerinde engelli ancak dizine eklendi (Indexed, though blocked by robots.txt) olarak belirtilen bu tarz URL adreslerinin dizine eklenmesinin engellenebilmesi için robots.txt üzerinden sayfaların taramalara açık olması ve noindex etiketlemesinin Googlebot tarafından görünür, taranabilir olması gerekmektedir. Bunun sağlanmak istenmediği yada sağlanamadığı durumda Google tarafından bu şekilde belirtilen URL adreslerinin çıktıları Search Console’dan alınarak ilgili URL’lerin search dizininden silinmesine yönelik URL kaldırma (URL Removal) isteği Search Console’da yer alan URL kaldırma aracından gönderilebilir.

URL kaldırma aracı kullanılarak içeriklerin (URL’lerin) arama sonuçlarından silinmesi kalıcı olmadığından ilgili işlemin tekrarlı olarak gerçekleştirilmesi gerekmektedir.

Googlebot Türleri (Crawlers)

Google’ın çeşitli görevler için özel olarak tarama faaliyetleri gerçekleştirmesi amacıyla geliştirdiği botların tümü ortak isim olarak Googlebot adını alır. Tarama faaliyetleri içerisinde Googlebot’un masaüstü ve mobil versiyonları haricinde spesifik tarama faaliyetlerini yerine getirmek üzere geliştirilen farklı türleri (versiyonları) mevcuttur.

Bunlardan bazıları ;

Google Haberler Botu (Googlebot News)
Google Resimler Botu (Googlebot Images)
Google Video Botu (Googlebot Videos)
Google Feedfetcher (Google’ın Site feedlerini taramakta kullandığı bot – Feedfetcher)
Google Favicon Botu (Google Favicon)
Google ads Botu (Adsbot)
Adsense

Googlebotlarının server erişim kayıtlarında takibinin yapılabilmesi, robots.txt, meta etiketleri gibi alanlarda botlara özel user-agent direktiflerin girilebilmesi adına farklı tür ve görevlerdeki botların user-agent bilgilerini ve botların görev detaylarını öğrenmek için aşağıdaki Google kaynağını ziyaret edebilirsiniz.

Kaynak: https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers?hl=tr

Google tarayıcılarından (botlarından) bazıları robots.txt direktiflerine uymamaktadır. Feedfetcher vb robots.txt direktiflerine uymayan botların neden robots.txt direktiflerine uyum göstermediğini üstte yer alan Google kaynağından inceleyebilirsiniz.

Googlebot’un Siteyi Taraması ve İndekslemesi Nasıl Engellenir ?

Googlebot’un sitenizi taramasını engellemek için uygulayabileceğiniz en temel işlem robots.txt üzerinden sitenizin tümünü Googlebot için taramalara kapatmaktır. Bunun için yapmanız gereken işlem robots.txt dosyanız içerisine aşağıdaki kodu eklemektedir.

Kod:
User-agent: Googlebot
Disallow:/

Robots.txt dosyası içerisinde üstteki kod kullanılarak Googlebot’un siteyi taraması engellenebilir. Ancak üstte yer alan robots.txt ve meta etiketleri bölümünde değindiğimiz gibi robots.txt üzerinden site, Googlebot’un taramasına kapatıldığında ilgili sitenin web sayfalarına dışarıdan bağlantı verilirse Googlebot ilgili linkleri takip ederek web sayfasını keşfedip dizine kaydedebilir.

Bu noktada Googlebot’un sağlıklı ve kesin olarak sitenizi taramasını ve sayfalarınızı dizine eklemesini engellemek için yapmanız gereken meta etiketlerini kullanarak sayfalarınıza no index eklemek veya x-robots-tag http yanıt kodu ile Googlebotlarına sayfayı indekslememesi gerektiğini iletmektir.

İlk olarak meta etiketlerini kullanarak yalnızca Googlebot’un, sitenizin sayfalarını dizine eklemesini istemediğiniz durumda aşağıda yer alan meta kodunu sayfanızın HTML kaynak koduna eklemeniz yeterli olacaktır.

<meta name=”Googlebot” content=”noindex, nofollow”>

Üstte yer alan meta etiketini (kodu) sayfalarınızın HTML kaynak koduna eklediğinizde Googlebot user-agent’i üzerinden sitenizi taramaya gelen botlar sitenizi tarasa dahi dizine eklemeyecektir. Bu sayede robots.txt üzerinden taramalara kapattığınız sitenizi olası hatalı indekslenme süreçlerinden korumuş olursunuz.

Meta etiket kullanımından hariç olarak server tarafında X-Robots-Tag http yanıt kodu uygulaması ile sitenizi ziyaret eden Googlebotlarına sayfalarınızı dizine eklememeleri gerektiğini iletebilirsiniz.

Bunun için server tarafında sitenizin tüm sayfaları için aşağıdaki gibi bir X-Robots-Tag http yanıtı döndüren server konfigürasyonu oluşturabilirsiniz.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Google tarafından paylaşılan bu örnekte görebileceğiniz gibi HTTP isteği sonrası sunucudan gelen yanıtta x-robots-tag ile Googlebot için nofollow ve diğer botlar için hem nofollow hem noindex direktifi iletilmiş durumdadır. Bu örnekteki nofollow a benzer şekilde Googlebot için noindex yanıtı döndürebilir ve botların, robots.txt direktiflerini es geçtiği senaryoda içeriklerinizi dizine eklemesini engelleyebilirsiniz.

Googlebot’un Tarama Sıklığı

Bir web sayfasının Googlebot tarafından taranma, ziyaret edilme sıklığı, pek çok farklı metriğe bağlı olmakla birlikte genellikle ilgili web sayfasının otoritesi, dış ve iç bağlantı sayısı, pagerank skoru gibi temel metriklere bağlıdır. Bir web sayfasının popülerliği, ilgili sayfaya gelen çok sayıda (özellikle dış) bağlantı gibi etmenler sayfanın tarama sıklığını doğrudan etkileyebilir.

Bir web sayfasının tarama sıklığı üstte belirttiğimiz sayfa ile doğrudan bağlantılı olan etmenlere ek olarak sitenin bilgi mimarisi (site kategori ve link ağacı), iç link dağılım mimarisi, taranabilirliği ve temel anlamda tarama bütçesi gibi site seviyesinde etmenlere de bağlıdır.

Web sitesine yönelik tarama isteklerini doğrudan etkileyen site link mimarisi, doğru oluşturulduğunda Googlebot, site içerisindeki linkleri çok daha kolay ve etkili şekilde tarayacaktır. Link mimarisinin yanı sıra web sitesinin sunucu sağlığı (TTFB – Yanıt süresi), istek sonrası herhangi bir çökme sorunu ile karşılaşılmaması gibi etmenler sitenin tarama bütçesini, sayfalara gelen tarama isteği sayısını doğrudan etkileyebilirler.

Googlebot tarafından gönderilen isteklere yanıt vermekte zorlanan yada belirli bir tarama yoğunluğu sonrası çökme, yanıt verememe (HTTP 500) vb sorunlar ile karşılaşılan web sitelerinde Googlebot tarama sıklığını (tarama bütçesini) azaltabilir. Bu noktada Googlebot’un site içindeki kaynakları çok daha fazla ve hızlı şekilde taramasını sağlayabilmek adına site teknik yapısının ve sunucu sağlığının başarılı şekilde sağlanması önemlidir.

Googlebot sunucunun yanıt sürelerine göre otomatik olarak bir tarama sıklığı ve hızı belirlese de web site yöneticileri Google Search Console paneli üzerinden Google’a tarama hızını düşürmeye yönelik istek göndererek tarama sıklığının ve hızının düşürülmesi ile alakalı talepte bulunabilirler. Googlebot’un tarama hızının düşürülmesi ile alakalı işlem gerçekleştirilebilirken tarama istek ve hızının arttırılması ile alakalı herhangi bir talep iletilememektedir.

Googlebot’un tarama sıklığını arttırmak için hayata geçirilebilecek teknik iyileştirmelerin yanı sıra kaliteli içerikler üretmek, içeriklerin aktif güncellemelerini gerçekleştirmek ve mümkün olan en aktif şekilde (sıklıkla) içerik paylaşımı yapmak gibi site üstü içeriksel çalışmalarda Googlebot’un sitenize yönelik tarama sıklığını arttıracaktır. Kaliteli içerikler üreten, sektöründe otoriter web sitelerinin tarama sıklığı içerik kalite ve otoritelerine paralel olarak artış gösterecektir.

Googlebot Nedir? Nasıl Çalışır?

Googlebot Nasıl Çalışır ?

Googlebot Web Sayfalarını Tekrarlı Olarak Ziyaret Eder

Googlebot Site Haritalarını Aktif Olarak Kullanmaktadır

Googlebot Robots.txt Direktiflerini İşleme Alır

Googlebot Tarama ve İndeksleme Süreçlerinde Meta Etiketlerini Kontrol Eder

Robots.txt ve Meta Etiketi ile Engellenmiş Sayfaların İndekslenmesi

Googlebot Türleri (Crawlers)

Googlebot’un Siteyi Taraması ve İndekslemesi Nasıl Engellenir ?

Googlebot’un Tarama Sıklığı

Oskay Günaçar

Bir yanıt yazın Yanıtı iptal et

Googlebot Nasıl Çalışır ?

Googlebot Web Sayfalarını Tekrarlı Olarak Ziyaret Eder

Googlebot Site Haritalarını Aktif Olarak Kullanmaktadır

Googlebot Robots.txt Direktiflerini İşleme Alır

Googlebot Tarama ve İndeksleme Süreçlerinde Meta Etiketlerini Kontrol Eder

Robots.txt ve Meta Etiketi ile Engellenmiş Sayfaların İndekslenmesi

Googlebot Türleri (Crawlers)

Googlebot’un Siteyi Taraması ve İndekslemesi Nasıl Engellenir ?

Googlebot’un Tarama Sıklığı

Oskay Günaçar

İlgili Makaleler

Client-Side Rendering (CSR) Rehberi: Nedir, Nasıl Çalışır?

Server (Sunucu) Nedir? Ne İşe Yarar? Çeşitleri Nelerdir?

Server Side Rendering (SSR) Rehberi: Nedir, Nasıl Çalışır?

Progressive Web Apps (PWA) Nedir?

Bir yanıt yazın Yanıtı iptal et