09-24-2023, 05:11 AM
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Arama motoru botları bir web sitesini ziyaret ettiğinde, tarama ve dizine eklemeyi kontrol etmek için robots.txt dosyasından faydalanılır. Bir diğer ismi robot engelleme standardı olarak bilinen robotst.txt dosyası, arama motoru tarayıcılarının bir web sunucusunda yer alan hangi dosyalara erişmesini ya da hangi dosyalara erişmemesini belirlemektedir. Sadece dosya değil, klasör ve URL’ler ile ilgili yönergeler de oluşturulabilir.
Robots.txt dosyası ve kullanımı hakkında bazen birçok yanlış bilgi duyabilirsiniz. Bu dosya, siteyi taramak ve keşfetmek için ziyaret eden botlara web sitesinde yer alan hangi URL’leri tarayacağını söyleyecektir. Arama motoru botlarının oluşturabileceği istek yoğunluğunu azaltmak ve tarama bütçesi optimizasyonu yapmak için kullanılır.
Bir web sitesinin Google arama motoru sonuç sayfalarından gösterilmesine engel olmak için kullanılabilecek bir yöntem değildir. Bir web sayfasının SERP’te görünürlüğünü engellemek için meta robots etiketi “noindex” kullanmak ya da sayfaya şifre ile erişim koymak içeriğin gösterilmesini engelleyecektir.
Robots.txt Nedir?
Web sitesinde yer alan sayfaları taramak ve keşfetmek için gelen arama motoru botlarına, 200 ‘OK’ HTTP durum koduna sahip sayfalardan hangilerini taramasını ya da hangilerinin taramaması gerektiği hakkında direktiflerin bulunduğu basit metin (txt) dosyasıdır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Bu basit metin dosyası içerisinde yer alan direktiflere arama motoru botları genellikle uymaktadır. Web sitesini ziyaret eden arama motoru botları, taramasına izin verilmeyen sayfaları taramayacaktır. Bazı durumlarda web sitesi içerisinde bu taranmasını istemediğimiz sayfalara, diğer sayfalardan dahili veya sitelerden harici bağlantılar verilmişse, Google bu direktifi göz ardı edip ilgili sayfayı tarayacaktır.
Robots.txt dosyası içerisinde arama motoru botlarına genellikle direktif olarak, izin verildi ya da izin verilmedi komutu kullanılır.
SEO İpucu: Arama motoru botları bir web sitesini ziyaret ettiğinde, robots.txt dosyasını okumak istediğinde eğer ki HTTP 500 Internal Server veya diğer sunucu kaynaklı HTTP durum kodları ile karşılaşırsa, sitede bir hata olduğunu düşünerek taramayı durduracaktır. Bu durum sadece web sitesi için değil, örneğin resimleriniz için bir CDN kullandığınızı düşünürsek, Google ilgili sayfada resim olmadığını düşünecektir.
SEO İçin Robots.txt Dosyası Neden Önemlidir?
Web sitesini taramak ve keşfetmek için gelen arama motoru tarayıcıları, web sitesi içeriğini görüntülemeden önce ilk baktığı ve kontrol ettiği şey robots.txt dosyasıdır. Daha sonrasında site haritasında yer alan URL’leri taramaya başlayacak olan botlar, robots.txt dosyasında yer alan direktifler uygulanacaktır. Bu sebepten dolayı dosya içerisinde yer alan her bir direktifin doğru olduğunu kesinlikle kontrol etmeliyiz.
Robots.txt dosyasında yanlış kullanılan bir direktif, geçici bir fatal hata olarak değerlendirebilir. Yanlışlıkla web sitesini ya da bir kısmını taramaya kapatılmış olması geri dönülemez bir hata olarak değerlendirilmemelidir. Hatanın en kısa sürede fark edilip düzeltilmesi, kötü sonuçlar oluşmasını engelleyecektir.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Örneğin, robots.txt dosyasında web sitesinin herhangi bir kategori sayfasını arama motoru botlarının taramasını engelleyecek bir komut olduğunu düşünelim. Bu hatanın fark edilmemesi kötü sonuçları beraberinde getirebilir. Bu komut yanlışlıkla eklendiğinde, ilgili sayfanın çok fazla bağlantısı yoksa bot muhtemelen taramayacak, fakat bir gün sonrasında yanlış komut kaldırıldığında ya da düzeltiğinde arama motoru botları ilgili sayfayı taramaya başlayacaktır.
SEO İpucu: Googlebot web sitesini ziyaret ettiğinde, robots.txt dosyasını önbelleğe kaydetmektedir. Bu önbelleği 24 saatte bir yenilemektedir. Eğer ki robots.txt dosyasında bir düzenleme yaptıysanız, yapılan düzenlemeler 24 saat sonra geçerli olacaktır.
Farklı bir örnek ise, özellikle e-ticaret web sitelerinde tarama bütçesi optimizasyonu için robots.txt dosyasından faydalanılmalıdır. Arama motoru botlarının bir web sitesini taramak için harcayacağı süre oldukça kısıtlıdır. Bu durumda siteyi ziyaret eden botların, önemli sayfaları daha kolay ve hızlı taraması için web sitesindeki dinamik olan veya önemsiz sayfalar taramaya kapatılabilir.
Robots.txt Dosyası Nerede Bulunur?
Arama botlarının bir web sitesinin robots.txt dosyasını kolayca bulması için her zaman sunucularda web sitesi dosyalarının bulunduğu ana kök dizin altına şifresiz olarak eklenir. Düz metin dosyası olarak oluşturulan bu dosya tüm herkes tarafında okunabilecek ve görüntülenebilecek şekilde yetkilendirme yapılmaldır.
Bir web sitesinin robots.txt dosyasına ulaşmak ve görüntülemek için örneğin, web tarayıcısında adres çubuğuna https://testsite.com/robots.txt yazılması yeterli olacaktır. Tüm tarama botları tarafından evrensel olarak ulaşılabilecek URL yapısı bu olduğundan asla, robots.txt dosyasının yeri değiştirilmemelidir.
Web Sitesi İçin Robots.txt Dosyası Oluşturma
Bir web sitesi için robots.txt dosyası oluşturmak için farklı yöntemler bulunmaktadır. Tercih edilen yöntemlerden biri uygulandığında, oluşturulan robots.txt dosyası, yukarıda bahsettiğimiz gibi kök dizin altına yerleştirilmelidir.
Manuel olarak dosyayı oluşturmak istediğinizde, bilgisayarınızda yüklü olan herhangi bir metin düzenleyicisinden rahatlıkla faydalanabilirsiniz. Yapmanız gereken komutların editöre yazılması ve kaydederken dosya ismine, “robots” verilmeli, uzantısı ise “txt” olmalıdır.
Otomatik olarak oluşturulması için, online bir robots.txt oluşturuculardan faydalanabilir. Oluşturulan dosyayı kök dizin altına yüklemeden önce mutlaka kontrol etmelisiniz.
Manuel Olarak Robots.txt Dosyası Oluşturma
Manuel olarak robots.txt dosyası oluşturma için yukarıda bahsettiğimiz üzere bir editörden faydalanacağız. Sublime Text, notepad, notepad++ vb. uygulamalarında boş bir dosya açtıktan sonra, dosya içerisine şu komut yazılabilir:
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
İlk satırda kullanılan “User-agent:*” komutu, bir sonraki satırlarda yer alan tüm yönergelerin, (ikinci bir “User-agent:” komutu yoksa) siteyi taramaya gelen tüm botlar için geçerli olduğundan bahsetmektedir.
İkinci satırda yer alan “Allow:/” komutu, arama motoru botların sitenin tamamına erişebileceğinden bahsetmektedir.
Üçüncü satırda yer alan “Sitemap:” komutu, arama motoru botlarına web sitesinin site haritası dosyasının yerini ve URL adresini belirtilerek, rahatça ulaşmasını sağlamaktadır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Standart robots.txt komutlarını yazdıktan sonra, kaydetmelisiniz. Kaydet işlemi sırasında karşımıza çıkan pencerede dosya ismi kısmına “robots.txt” yazmanız yeterlidir.
Oluşturduğunuz dosyası, kök dizin altına yerleştirmeniz gerekmektedir. Sitenizi taramaya gelen botlar burada yazan yönergelere uyacaktır.
Robots.txt Dosyasında Kullanılması Tavsiye Edilen Komutlar
Arama motoru botlarının bir siteyi taramaya başlamadan önce ilk olarak kontrol ettiği robots.txt dosyaları, SEO performansınız açısından oldukça önemlidir. Daha önceden de bahsettiğimiz gibi yanlış kullanımı, web sitenizin ya da önemli sayfalarınızın SERP’te (Search Engine Results Page) görünmesini engelleyebilir.
Tavsiye edilen robots.txt komutları:
Bu çok sık kullanılan robots.txt komutlarını ne işe yaradığını öğrenelim.
User-agent,
Allow,
Disallow,
Sitemap,
User-Agent Komutu Nedir?
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Robots.txt dosyasında yer alan “User-Agent” komutu web sitesini ziyaret edecek olan botlardan hangileri için hangi komut geçerli olduğunu belirlemeye yarar. Web sitesini ziyaret edenlerin içeriği görüntülemek için istekte bulunduğu sırada “HTTP Header” başlığı içinde isteği yapan kişi hakkında bilgi aktarır.
HTTP istek başlığında yer alan user-agent bilgisi ayrıca log dosyası analizi yapmak istediğinizde size kullanıcı ile botları rahatlıkla ayırma imkanı sunmaktadır.
İnternet ortamında yüzlerce arama motoru botları yer almaktadır. Arama motoru botları listesi:
Googlebot
Ahrefsbot
AppleBot
Screaming Frog SEO Spider
DuckDuckBot
YandexBot
Yahoo! Slurp
Yeti
Baiduspider
Bingbot
CatchBot
GalaxyBot
MJ12bot
msnbot
SBIder
SandCrawler
Scrubby
SearchSight
Seekbot
sogou spider
Google tarama botlarının listesi:
Googlebot
APIs-Google
AdsBot-Google-Mobile
AdsBot-Google
Mediapartners-Google
AdsBot-Google-Mobile-Apps
FeedFetcher-Google
Google-Read-Aloud
DuplexWeb-Google
googleweblight
Storebot-Google
User-agent direktifleri yazılırken, kullanım sırası oldukça önemlidir.
User-agent ile ilgili bazı senaryolu örnekleri incelersek:
Robot.txt User-Agent Örneği-1:
Web sitesini taramaya gelen Googlebot’un iş başvurusu sayfası altında yer alan teşekkürler adlı sayfamızı taramasını istemezken, diğer kalan tüm botların taramasını istiyoruz.
User-agent: *
Allow: /
User-agent: Googlebot
Disallow: /is-basvurusu/tesekkurler
Yukarıda yer alan komut ile Googlebot, Teşekkürler sayfası hariç diğer tüm sayfaları tarayacaktır. İş başvurusu ve onun altındaki diğer tüm sayfaları tarayacaktır.
Googlebot’un iş başvurusu sayfası altında yer alan tüm sayfaları taranmasını engellemek ve Yandexbot’un iste sadece teşekkürler sayfasını taramasını engellemek istiyorsak.
User-agent: *
Allow: /
User-agent: Googlebot
Disallow: /is-basvurusu/
User-agent: Yandexbot
Disallow: /is-basvurusu/tesekkurler
Allow ve Disallow Komutu Nedir?
Robots.txt dosyasında yer alan “Allow:” komutu arama motoru botlarına hangi sayfaları taramasına izin verildiği hakkında bilgi aktarır. Disallow komutu kullanılmamışsa, arama motoru botları tüm sayfalara tarama izni verildiği şeklinde yorumlamaktadır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Disallow komutu ise, arama motoru botlarına belirtilen URL veya sayfayı taramaması gerektiğini söylemektedir. Bu sayede arama motoru botları için tarama bütçesi optimizasyonu sağlanmış olacaktır.
3 farklı senaryo ile disallow ve allow komutlarının ne işe yaradığını öğrenelim:
Senaryo - 1: Tarama botlarının web sitesinde ki URL veya sayfaların tamamını taramasına izin vermek istiyoruz?
user-agent: *
Allow:/
Senaryo - 2: Tarama botlarının web sitesinde ki URL veya sayfaların tamamını taramasına izin vermek istemiyoruz yani engellemek istiyoruz?
user-agent: *
Disallow:/
Senaryo - 3: Tarama botlarının web sitesinde ki X sayfasını taramamasını fakat X sayfası altında yer alan Y sayfasını taramasını istiyoruz?
user-agent: *
Disallow:/x-sayfasi/
Allow: /x-sayfasi/y-sayfasi
Robots.txt Dosyasını Google Robots.txt Test Aracı ile Test Etme
Oluşturmuş olduğunuz robots.txt komutlarında, Googlebot için yanlış bir engelleme ya da hatalı bir kullanım olup olmadığından emin değilseniz, bu noktada size bir yardımcı araç bulunuyor. Google’un kendi geliştirdiği robots.txt test aracı ile Googlebot’un sitenizde yer alan URL’lere tarama konusunda izin verilip verilmediğini görebilirsiniz.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Bu aracın eksik bir yanı, URL’leri toplu olarak kontrol edemiyor olmanızdır. Bu aracı kullanmak istediğinizde, Google Search Console hesabınızın olması ve kayıtlı olduğunuz e-posta adresi ile erişim sağlamanız gerekmektedir. GSC hesabınızın mail adresi ile erişim yapınız.
Resimde görüldüğü üzere ilgili alanlara, user-agent, allow ve disallow komutlarını uygulayabilirsiniz. Daha sonrasında kontrol etmek istediğiniz URL’i yazarak “Test Et” butonuna tıklayınca size izin verildiğini ya da izin verilmediğini söylemektedir.
Örneğin, tr path’i altında yer alan SEO sayfamıza Googlebot’un taraması için izin verilip verilmediğini kontrol etmek istediğimizde, en altta sitemizin URL sonrası başında / (slash) olmadan “tr/seo” yazıyoruz ve “test et” butonuna tıklıyoruz. Görüldüğü üzere hangi satırda izin verildiği göstermekte ve sağ alt köşede “izin verildi” yazmaktadır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Örneğin, tr path’i altında yer alan çerez politikası sayfamıza Googlebot’un taraması için izin verilip verilmediğini kontrol etmek istediğimizde, en altta sitemizin URL sonrası başında yine / (slash) olmadan “tr/cerez-politikasi” yazıyoruz ve “test et” butonuna tıklıyoruz. Görüldüğü üzere hangi satırda izin verilmediğini göstermekte ve sağ alt köşede “engellendi” yazmaktadır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Google Search Console Robots.txt Hata ve Uyarıları
Web sitesinin Googlebot tarafından tarandığı zaman botun karşılaştığı hata ve durumlar hakkında bilgi aldığımız en faydalı yer Google Search Console hesabınızdır.
GSC hesabına giriş yaptıktan sonra sol tarafta yer alan Index > Coverage (Dizin > Kapsam) tıklamanız gerekiyor. Daha sonrasında sağ tarafta yer alan grafiklerin altında site robots.txt ile ilgili hata ve uyarılardan bahsetmektedir.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Blocked by robots.txt: Taranmak istenen URL’lerin robots.txt tarafından engellendiğini belirtmektedir. Bunun için ek bir aksiyon almanıza gerek yoktur. Sadece kontrol etmeniz gereken, tarama esnasında site haritasında yer alan URL’in robots.txt tarafından engellenip engellenmediğini kontrol etmelisiniz. Sizin için önemli olan sayfaların durumunu kontrol etmelisiniz.
Indexed, though blocked by robots.txt: Bazı URL’lerin robots.txt tarafından engellemiş olmasına rağmen, dizine eklendiği bilgisini vermektedir. Dizine eklenen URL’leri kontrol etmeli ve indexlenmesini engelleyecek şekilde aksiyon alabilirsiniz. Örneğin bağlantı ise, nofollow etiketi eklemek, sayfa ise noindex etiketi eklemek gibi çözümler kullanabilirsiniz.
Robots.txt ile ilgili Dikkat Edilmesi ve Unutulmaması Gerekenler
Web sitesini taramak isteyen botları yönlendirmek için kullandığımız robots.txt dosyası ile ilgili dikkat edilmesi ve unutulmaması gerekenler:
Botlar bir siteyi taramak için geldiğinde ilk önce robots.txt dosyasını kontrol eder ve indirir.
Botların sitenin herhangi bir bölümüne erişmesini istemiyorsanız “disallow:” komutu kullanmalısınız.
Botlara yardımcı olmak için, robots.txt dosyasında site haritasının URL’ini “sitemap:” komutu ile belirtmelisiniz.
Robots.txt dosyası mutlaka kök dizin altında yer almalıdır. siteadi[.]com/robots.txt gibi olmalıdır.
Googlebot robots.txt dosyasını istediğinde eğer ki 429 HTTP durum kodu haricinde, herhangi bir 4XX HTTP durum kodu ile karşılaşırsa sitenin robots.txt dosyası yok gibi davranır. Bu durumda sitenin tüm sayfalarına ve URL’lerini tarayabileceğini belirtir.
429 veya 5XX HTTP durum kodlarından biri ile karşılaştığında örneğin 500 HTTP durum kodu ile karşılaşırsa sitenin taramaya kapalı olduğu şeklinde yorumlar ve taramayı durdurur.
Google web sitelerinin robots.txt dosyasını önbellekte tutar. Son 24 saat içerisinde yaptığınız bir değişikliğin etkili olabilmesi için önbelleğin yenilenmesini beklemek zorundasınız.
UTF-8 formatında ve txt uzantılı olmak zorundadır.
Google, robots.txt dosyalarını maksimum 500KiB’lık bir boyutunu taramaktadır. Bu boyut üzerinde yer alanların, bu sınıra kadar olan satırını dikkate alır sonrasını dikkate almayacaktır.
Robots.txt dosyasında yorum satırı oluşturmak için # kullanmanız gerekmektedir.
Robots.txt dosyasında yer alan URL path’lerinde mutlaka büyük ve küçük yazımına dikkat ediniz.
Sonuç
Web sitesini taramak için gelen botlara hangi sayfaları taramasını, hangi sayfaları taramaması konusunda direktiflerin bulunduğu robots.txt dosyası, SEO çalışmaları için önemlidir.
Robots.txt konusunda yayınladığımız blog içeriğimizi faydalı bulduysanız, diğer insanlarında erişebilmesi için sosyal medya hesaplarınızda paylaşarak bizlere destek olabilirsiniz.
Robots.txt dosyası kullanarak sitenizdeki hangi dosyaların tarayıcıların erişimine açık olacağını belirleyebilirsiniz.
Robots.txt dosyası, sitenizin kök dizininde bulunur. Dolayısıyla robots.txt dosyası, www.example.com sitesinde www.example.com/robots.txt adresindedir. Robots.txt, Robot Hariç Tutma Standardı'na uygun bir düz metin dosyasıdır. Robots.txt dosyası, bir veya daha fazla kuraldan oluşur. Her kural, robots.txt dosyasının barındırıldığı alan adında veya alt alan adında belirtilen bir dosya yoluna tüm tarayıcıların ya da belirli bir tarayıcının erişimine izin verir veya erişimi engeller. Robots.txt dosyanızda aksini belirtmediğiniz sürece tüm dosyaların taranmasına izin verilir.
İki kural içeren basit bir robots.txt dosyasını aşağıda görebilirsiniz:
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Bu örnekteki robots.txt dosyasında şunlar belirtilmiştir:
Googlebot adlı kullanıcı aracısının, https://example.com/nogooglebot/ ile başlayan hiçbir URL'yi taramasına izin verilmez.
Diğer tüm kullanıcı aracılarının sitenin tamamını taramasına izin verilir. Varsayılan davranış, kullanıcı aracılarının sitenin tamamını taramasına izin verilmesi olduğundan bu durum belirtilmese dahi sonuç aynı olacaktır.
Sitenin site haritası dosyası, https://www.example.com/sitemap.xml adresinde bulunmaktadır.
Daha fazla örnek için söz dizimi bölümüne bakın.
Robots.txt dosyası oluşturmak için temel kurallar
Robots.txt dosyası oluşturup dosyanın genel olarak erişilebilir ve faydalı olmasını sağlamak için uygulayacağınız dört adım vardır:
Robots.txt adlı bir dosya oluşturma.
Robots.txt dosyasına kural ekleme.
Robots.txt dosyasını sitenizin kök dizinine yükleme.
Robots.txt dosyasını test etme.
Robots.txt dosyası oluşturma
Bir robots.txt dosyası oluşturmak için neredeyse tüm metin düzenleyicilerini kullanabilirsiniz. Örneğin, Notepad, TextEdit, vi ve emacs, geçerli robots.txt dosyaları oluşturabilir. Kelime işlemci kullanmayın (kelime işlemciler, dosyaları genellikle özel bir biçimde kaydeder ve tarayıcılar için sorunlara neden olabilecek kıvrık tırnak gibi beklenmedik karakterler ekleyebilir). Dosyayı kaydet iletişim kutusunda sorulması halinde dosyayı UTF-8 kodlamasıyla kaydettiğinizden emin olun.
Biçim ve konum kuralları:
Dosya, robots.txt olarak adlandırılmalıdır.
Sitenizde yalnızca bir robots.txt dosyası olabilir.
Robots.txt dosyası, geçerli olacağı web sitesi ana makinesinin kök dizininde bulunmalıdır. Örneğin, https://www.example.com/ altındaki tüm URL'lerde taramayı kontrol etmek için robots.txt dosyası, https://www.example.com/robots.txt konumuna yerleştirilmelidir. Bir alt dizine (örneğin, https://example.com/pages/robots.txt) yerleştirilemez. Web sitenizin kök dizinine nasıl erişeceğinizden emin değilseniz veya bunun için izin almanız gerekiyorsa web barındırma hizmeti sağlayıcınıza başvurun. Web sitenizin kök dizinine erişemiyorsanız meta etiketler gibi alternatif bir engelleme yöntemini kullanın.
Robots.txt dosyası, alt alan adında (örneğin, https://website.example.com/robots.txt) veya standart olmayan bağlantı noktalarında (örneğin, https://example.com:8181/robots.txt) yayınlanabilir.
Robots.txt dosyası yalnızca yayınlandığı protokol, ana makine ve bağlantı noktası içindeki yollarda geçerlidir. Yani, https://example.com/robots.txt içindeki kurallar yalnızca https://example.com/ dosyalarında geçerlidir. https://m.example.com/ gibi alt alan adlarında veya http://example.com/ gibi alternatif protokollerde geçerli değildir.
Robots.txt dosyası, UTF-8 olarak kodlanmış metin dosyası olmalıdır (bu, ASCII karakterleri de içerir). Google, UTF-8 aralığı dışındaki karakterleri yoksayabilir ve bu durumda robots.txt kurallarını geçersiz olarak algılayabilir.
Robots.txt kuralları nasıl yazılır?
Kurallar, tarayıcıların sitenizin hangi bölümlerini tarayabileceğini belirten talimatlardır. Robots.txt dosyanıza kural eklerken aşağıdaki esasları dikkate alın:
Robots.txt dosyası bir veya daha fazla gruptan (kural grubu) oluşur.
Her grup, satır başına bir kural (ayrıca yönerge olarak da adlandırılır) olacak şekilde birden fazla kuraldan oluşur. Her grup, grupların hedefini belirten bir User-agent satırıyla başlar.
Bir grup şu bilgileri verir:
Kuralın kimin için geçerli olacağı (kullanıcı aracısı).
Söz konusu aracının erişebileceği dizinler veya dosyalar.
Söz konusu aracının erişemeyeceği dizinler veya dosyalar.
Tarayıcılar, grupları yukarıdan aşağıya doğru işler. Kullanıcı aracıları yalnızca bir kural grubuyla eşleşebilir. Bu grup, kullanıcı aracısıyla eşleşen ilk ve en ayrıntılı grup olur. Aynı kullanıcı aracısı için birden fazla grup varsa gruplar, işlenmeden önce tek bir grupta birleştirilir.
Bir kullanıcı aracısının kuralıyla engellenmeyen bir sayfayı veya dizini tarayabileceği disallow varsayılan olarak kabul edilir.
Kurallar büyük/küçük harfe duyarlıdır. Örneğin disallow: /file.asp, https://www.example.com/file.asp için geçerlidir, ancak https://www.example.com/FILE.asp için geçerli değildir.
# karakteri, bir yorumun başlangıcını belirler. Yorumlar, işleme sırasında yoksayılır.
Google'ın tarayıcıları, robots.txt dosyalarında aşağıdaki kuralları destekler:
user-agent: [Zorunlu, grup başına bir veya daha fazla] Kural, geçerli olduğu arama motoru tarayıcısı olarak bilinen otomatik istemcinin adını belirtir. Bu, tüm kural gruplarının ilk satırıdır. Google kullanıcı aracısı adları, Google kullanıcı aracısı listesinde yer alır. Yıldız işareti (*), çeşitli AdsBot tarayıcıları dışındaki tüm tarayıcılarla eşleşir. Eşleşmeyen AdsBot tarayıcılarının adlarının açıkça belirtilmesi gerekir. Örneğin:
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /
# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
disallow: [Kural başına en az bir disallow veya allow girişi] Kullanıcı aracısının taramasını istemediğiniz, kök alana göreli olarak belirtilen dizin veya sayfa. Kural, bir sayfaya işaret ediyorsa tam sayfa adını tarayıcıda gösterildiği şekliyle belirtmelidir. / karakteriyle başlamalı ve bir dizine işaret ediyorsa / işaretiyle bitmelidir.
allow: [Kural başına en az bir disallow veya allow girişi] Az önce bahsedilen kullanıcı aracısı tarafından taranabilecek bir dizin veya sayfa; kök alanla göreli olarak belirtilir. Bu parametre, izin verilmeyen bir dizindeki bir alt dizinin veya sayfanın taranmasına izin vermek üzere disallow kuralını geçersiz kılmak için kullanılır. Tek bir sayfa için tam sayfa adını tarayıcıda gösterildiği şekliyle belirtin. / karakteriyle başlamalı ve bir dizine işaret ediyorsa / işaretiyle bitmelidir.
sitemap: [İsteğe bağlı, dosya başına sıfır veya daha fazla] Bu web sitesinin site haritasının konumudur. Site haritası URL'si, tam nitelikli URL olmalıdır; Google, http/https/www.non-www alternatiflerini varsaymaz veya kontrol etmez. Site Haritaları, Google'a tarayabileceği veya tarayamayacağı içeriğe karşılık hangi içeriği taraması gerektiğini bildirmek için iyi bir yoldur. Site haritaları hakkında daha fazla bilgi edinin. Örnek:
Sitemap: https://example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap.xml
sitemap dışındaki tüm kurallar yol öneki, soneki veya dizenin tamamı için * joker karakterini destekler.
Bu yönergelerin hiçbiriyle eşleşmeyen satırlar yoksayılır.
Her bir kuralın kapsamlı açıklamasını Google'ın robots.txt spesifikasyonunu yorumlayışı konulu sayfamızda okuyabilirsiniz.
Robots.txt dosyasını yükleme
Robots.txt dosyanızı bilgisayarınıza kaydettikten sonra, dosyayı arama motoru tarayıcılarının erişimine açabilirsiniz. Robots.txt dosyasını sitenize nasıl yükleyeceğiniz, site ve sunucu mimarinize bağlı olduğundan bunu yapmanıza yardımcı olabilecek tek bir araçtan söz edemeyiz. Barındırma şirketinizle iletişime geçebilir veya barındırma şirketinizin dokümanlarında arama yapabilirsiniz (örneğin, "infomaniak dosya yükleme" araması yapabilirsiniz).
Robots.txt dosyanızı yükledikten sonra, herkese açık ve Google tarafından ayrıştırılabilir olup olmadığını test edin.
Robots.txt işaretlemesini test etme
Yeni yüklediğiniz robots.txt dosyasının herkesin erişimine açık olup olmadığını test etmek için tarayıcınızda bir gizli tarama penceresi (veya tarayıcınızdaki eşdeğeri) açıp robots.txt dosyasının bulunduğu yere gidin. Örneğin: https://example.com/robots.txt Robots.txt dosyanızın içeriğini görüyorsanız işaretlemeyi test etmeye hazırsınız demektir.
Google, robots.txt işaretlemesini test etmek için iki seçenek sunar:
Search Console'daki robots.txt Test Aracı. Bu aracı yalnızca sitenizde halihazırda erişilebilir olan robots.txt dosyaları için kullanabilirsiniz.
Geliştiriciyseniz Google Arama'da da kullanılan Google'ın açık kaynak robots.txt kitaplığına göz atabilir ve ekleme yapabilirsiniz. Bu aracı, robots.txt dosyalarını bilgisayarınızda yerel olarak test etmek için kullanabilirsiniz.
Robots.txt dosyalarını Google'a gönderme
Robots.txt dosyanızı yükleyip test etmenizin ardından, Google'ın tarayıcıları robots.txt dosyanızı otomatik olarak bulup kullanmaya başlar. Herhangi bir işlem yapmanız gerekmez. Robots.txt dosyanızı güncellediyseniz ve Google'ın önbelleğe aldığı kopyayı en kısa sürede yenilemeniz gerekiyorsa, güncellenen robots.txt dosyalarını gönderme hakkında bilgi edinin.
Faydalı robots.txt kuralları
Yaygın olarak uygulanan bazı faydalı robots.txt kuralları aşağıda listelenmiştir:
Faydalı kurallar
Web sitesinin taranmasını tümüyle reddetme
Bazı durumlarda web sitesindeki URL'lerin, taranmamış olsalar bile yine de dizine eklenebileceklerini unutmayın.
Not: Bu kural bazı AdsBot tarayıcılarıyla eşleşmez. Bu tarayıcıların adları açıkça belirtilmelidir.
User-agent: *
Disallow: /
Bir dizin ve içeriğinin taranmasına izin vermeme
Tüm bir dizinin taranmasına izin vermemek için dizin adının sonuna bir öne eğik çizgi ekleyin.
Dikkat: Gizli içeriğe erişimi engellemek için robots.txt dosyasını kullanmayın. Onun yerine uygun kimlik doğrulama yordamı kullanın. Robots.txt dosyasıyla taranmasına izin verilmeyen URL'ler, taranmadan dizine eklenebilir ve robots.txt dosyası başkaları tarafından görüntülenerek gizli içeriğinizin yerinin ortaya çıkmasına neden olabilir.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Tek bir tarayıcının erişimine izin verme
Yalnızca googlebot-news tüm siteyi tarayabilir.
User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
Bir tarayıcı dışında tüm tarayıcıların erişimine izin verme
Unnecessarybot hariç tüm botlar siteyi tarayabilir.
User-agent: Unnecessarybot
Disallow: /
User-agent: *
Allow: /
Tek bir web sayfasının taranmasına izin vermeme
Örneğin, https://example.com/useless_file.html adresinde bulunan useless_file.html sayfasına ve junk dizininde other_useless_file.html sayfasına izin vermeme.
User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html
Alt dizin dışında, sitenin taranmasını tümüyle reddetme
Tarayıcılar yalnızca public alt dizinine erişebilir.
User-agent: *
Disallow: /
Allow: /public/
Google Görseller'den belirli bir görseli engelleme
Örneğin, dogs.jpg görselinin taranmasını reddedebilirsiniz.
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Google Görseller'den sitenizdeki tüm görselleri engelleme
Google, görselleri ve videoları taramadan dizine ekleyemez.
User-agent: Googlebot-Image
Disallow: /
Belirli bir türdeki dosyaların taranmasına izin vermeme
Örneğin, tüm .gif dosyalarının taranmasını reddedebilirsiniz.
User-agent: Googlebot
Disallow: /*.gif$
Sitenin tamamının Mediapartners-Google dışındaki tarayıcılar tarafından taranmasına izin vermeme
Bu uygulama, sayfalarınızı arama sonuçlarından gizler. Ancak Mediapartners-Google web tarayıcısının sitenizde ziyaretçilere hangi reklamların gösterileceğini belirlemek için sayfalarınızı analiz etmesi engellenmez.
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
Belirli bir dizeyle biten URL'leri eşleştirmek için * ve $ joker karakterleri kullanın
Örneğin, tüm .xls dosyalarının taranmasını engelleyebilirsiniz.
User-agent: Googlebot
Disallow: /*.xls$
Robots.txt SEO İçin Önemi
Robots.txt dosyası, tüm arama motorları tarafından ortak olarak kontrol edilen, bir sitenin hangi kısımlarının indekslenip, hangi kısımlarının indekslenmemesini gösteren metin dosyasıdır. Web sitesi sahibinin sitesinin indekslenmemesini isteme sebepleri değişebilir. Bunlara örnek olarak, şifreli alanlar, özel videolar ve fotoğraflar, yapım aşamasındaki sayfalar, değiştirilecek olan site bölümleri gibi nedenlerle web sitenizin bir kısmının indekslenmesini istemeyebilirsiniz.
robots-dosyasi-olusturma
Robots.txt dosyası bunun yanında arama motoru optimizasyonu için de çeşitli avantajlar sağlar. Sağladığı SEO avantajlarından bir tanesi, tekrarlanan içerikleri engellemesidir. Web sitenizin bölümlerini net olarak belirler ve tekrar eden dosyaları bu arama botlarına göstermez. Aynı şekilde bu dosya, subdomain veya subfolder gibi belirli bölümleri de arama motoru botlarından gizler.
Robots.txt Dosyası Nasıl Oluşturulur
Robots.txt dosyası oluşturmanın en temelde iki yöntemi vardır. Bunlardan birisi otomatik olarak dosyayı oluşturabileceğiniz programlardır. Diğer yöntem ise, robots.txt dosya oluşturma işlemini kendiniz yaparak kök dizinine eklemenizdir. Bu konularda bilgi ve pratik olarak kendinizi eksik görüyorsanız internet üzerinde bulunan robots.txt generator gibi hazır dizinlerden yardım alabilirsiniz.
robots-nasil-olusturulur
Eğer web sitesi sahibi kendisi bir robots dosyası oluşturmak isterse, bazı noktalara dikkat etmelidir. Öncelikle yeni bir metin belgesi açılarak ismi robots.txt olarak değiştirilmelidir. Bu dosyalarda User-agent ve Disallow değişkenleri yer alır. User-agent arama motorunun adını belirlerken, Disallow bu arama botlarının izin durumlarını belirlemek için kullanılan komut satırıdır.
Bu dosyayı oluştururken bazı standartlara uymanız gerekmektedir. Bunlardan en önemlisi bu dosyanın site kök dizinine eklenmedir. Bir diğer önemli nokta bu dosya ile web sitesinin URL formatlarının aynı olmasıdır. Son olarak ise Robots.txt dosyası UTF-8 türünde kodlamaya uygun şekilde hazırlanmış olmalıdır. Bu dosya için kullanılan alan adı uzantısı, web sitenize erişim için kullanılan alan adı ile aynı şekilde düzenlenmelidir.
robots-dosyasi-yapma
Yanlış Kullanım: https://testsite.com/main.robots.txt
Doğru Kullanım: https://testsite.com/robots.txt
Robots Dosyası Sayfa Engelleme
Robots.txt dosyası oluşturmak için üç çeşit komut etkeni vardır. Bu komut çeşitleri grup içi komutlar, grup dışı komutlar ve notlar olarak karşınıza çıkar. Grup içi komutlar, kesin komutları ele alır. Grup dışı komutlar ise site haritasının oluşturulmasında görev alır. Notlar ise dosyanızın içine eklediğiniz komutlar için not ve yorum yazabilmeniz için oluşturulmaktadır.
Sayfa engelleme veya izin verme komutları, robots,txt dosyasının grup içi komut çeşitleri ile yapılmaktadır. Web sitenizin belirli bir bölümünün veya bölümlerinin taranmasını istemiyorsanız, komut satırınızı buna göre oluşturmanız gerekir. Böylelikle indekslenmeyen sayfalarınızı geliştirmeye, ileri zamanlı değiştirmeye ve yayınlamaya devam edebilirsiniz.
robot-dosyasi-yapma
Bu noktada allow ya da disallow komutları sayesinde web sitenizin belirli bölümlerine erişim izni veya yasağı verebilirsiniz. Unutmamanız gereken şey ise bu noktada yaptığınız değişiklikler arama motoruna özeldir. Kullanıcılarınız erişime devam edebilir. Örneğin;
User-agent: *
Disallow: /ozel-belgeler.html/
Bu komut sayesinde arama motoru botu tarafından, yalnızca https://ornek.com/ozel-belgeler.html adresinde yer alan içeriğin taranması ve dizine eklenmesi engellenecektir. Siteniz üzerinde erişilmesini ve indekslenmesini istemediğiniz noktalar için bu komutu dosyanıza işlemeniz gerekmektedir. Dizin ve URL arasındaki ilişkiyi doğru şekilde işlemeniz bu noktada oldukça önemlidir.
Robots Dosyası Kodları
Robots dosyası bir metin belgesi açılarak hazırlanabilir. Belge içerisindeki User-agent ve Disallow/allow kısımları ise doğru şekilde kodlanmalıdır. Bu kısımlarda yaptığınız yanlışlar robots dosyanızın gerektiği gibi çalışmamasına sebep olabilir. Amacınıza ve ihtiyacınıza uygun hizmet edebilecek komut türü seçilerek, doğru şekilde yazılmalı ve kök dizine eklenmelidir. Bu komutlar şu şekilde örneklendirilebilir.
robot-txt-dosyasi-kodlari
Örnek 1:
User-agent: *
Allow: /
Bu şekilde yazılan robots.txt dosyalarında, arama motorlarının tüm web sitesini tarayarak indekslemesine izin verilir. Burada User-agent kısmına yazılan “*” işareti bu komutun tüm arama motoru botları tarafından algılanmasını sağlar.
Örnek 2:
User-agent: DeepCrawl
Disallow: /private/
DeepCrawl yazılan komut satırı, bu komutun sadece Google tarafından gönderilen ve belirli aralıklarla web sitenizi ziyaret eden bota özel olduğunu gösterir. Alt satırda bulunan “private” komutu ise bu dosyanın, ilgili bot tarafından indekslenmemesini istediğinizi gösterir.
robots-dosyasi-ne-ise-yarar
Örnek 3:
User-agent: *
Disallow: /
Bu şablon ile oluşturulan dosyalarda, ilk komut satırında tüm arama motorlarına izin verilir. İkinci satırdaki komuttan itibaren ise “disallow /” komutu ile robot txt folder dissallow emiri verilir. Web sitesindeki bu kısımda belirtilen dosyalara erişim kısıtlanır ve indekslenemez. Bununla beraber “disallow /” satırları uzadıkça arama motoru botları bu satırlarda belirtilen dosyaların hiçbirinde indeksleme yapamaz.
Örnek 4:
User-agent: *
Disallow: /directory/dosya.html
Bu komut şablonu ile oluşturduğunuz robots dosyaları sayesinde, arama motoru botları web sitesini indekslerken, directory dizininde bulunmakta olan dosya.html konumunu tarayamaz ve indeksleme yapamaz. Bu şekilde indekslenmesini istemediğiniz dosyaları dışarıda bırakarak daha sonra rahat bir şekilde değiştirebilirsiniz.
robot-dosyasi-ne-ise-yarar
Örnek 5:
User-agent: *
Allow: /dosya1/site.html
Disallow: /dosya1/
Bu robots.txt komut şablonu ile arama motoru botlarına, dosya1 dizini içerisinde bulunan site.html dosyası hariç diğer dosyalara tarama ve indeksleme yasağı koymuş olursunuz. Arama botlarına bu komutlar ile robot txt nofollow ve noindex komutu verdiğiniz için belirtilen sayfa ve dosya için tarama yapamazlar. Bu şekilde indeksleme istenilmeyen sayfalarda şu şekilde komut yazılır.
<meta name=”ROBOTS” content=”NOINDEX,NOFOLLOW”
İhtiyacınıza cevap verebilen, bir robots dosyası oluşturarak web sitenizin root yani kök dizinine bu dosyayı yüklemeniz gereklidir. Bu işlemleri yapmazsanız dosyanız istediğiniz şekilde çalışmayacaktır. WordPress tabanlı bir web siteniz varsa ve robot txt wordpress komutları ile oluşturmak istiyorsanız, size hazır şablonlar sunan “robots.txt rewrite” eklentisi işinize yarayabilir.
Arama motoru botları bir web sitesini ziyaret ettiğinde, tarama ve dizine eklemeyi kontrol etmek için robots.txt dosyasından faydalanılır. Bir diğer ismi robot engelleme standardı olarak bilinen robotst.txt dosyası, arama motoru tarayıcılarının bir web sunucusunda yer alan hangi dosyalara erişmesini ya da hangi dosyalara erişmemesini belirlemektedir. Sadece dosya değil, klasör ve URL’ler ile ilgili yönergeler de oluşturulabilir.
Robots.txt dosyası ve kullanımı hakkında bazen birçok yanlış bilgi duyabilirsiniz. Bu dosya, siteyi taramak ve keşfetmek için ziyaret eden botlara web sitesinde yer alan hangi URL’leri tarayacağını söyleyecektir. Arama motoru botlarının oluşturabileceği istek yoğunluğunu azaltmak ve tarama bütçesi optimizasyonu yapmak için kullanılır.
Bir web sitesinin Google arama motoru sonuç sayfalarından gösterilmesine engel olmak için kullanılabilecek bir yöntem değildir. Bir web sayfasının SERP’te görünürlüğünü engellemek için meta robots etiketi “noindex” kullanmak ya da sayfaya şifre ile erişim koymak içeriğin gösterilmesini engelleyecektir.
Robots.txt Nedir?
Web sitesinde yer alan sayfaları taramak ve keşfetmek için gelen arama motoru botlarına, 200 ‘OK’ HTTP durum koduna sahip sayfalardan hangilerini taramasını ya da hangilerinin taramaması gerektiği hakkında direktiflerin bulunduğu basit metin (txt) dosyasıdır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Bu basit metin dosyası içerisinde yer alan direktiflere arama motoru botları genellikle uymaktadır. Web sitesini ziyaret eden arama motoru botları, taramasına izin verilmeyen sayfaları taramayacaktır. Bazı durumlarda web sitesi içerisinde bu taranmasını istemediğimiz sayfalara, diğer sayfalardan dahili veya sitelerden harici bağlantılar verilmişse, Google bu direktifi göz ardı edip ilgili sayfayı tarayacaktır.
Robots.txt dosyası içerisinde arama motoru botlarına genellikle direktif olarak, izin verildi ya da izin verilmedi komutu kullanılır.
SEO İpucu: Arama motoru botları bir web sitesini ziyaret ettiğinde, robots.txt dosyasını okumak istediğinde eğer ki HTTP 500 Internal Server veya diğer sunucu kaynaklı HTTP durum kodları ile karşılaşırsa, sitede bir hata olduğunu düşünerek taramayı durduracaktır. Bu durum sadece web sitesi için değil, örneğin resimleriniz için bir CDN kullandığınızı düşünürsek, Google ilgili sayfada resim olmadığını düşünecektir.
SEO İçin Robots.txt Dosyası Neden Önemlidir?
Web sitesini taramak ve keşfetmek için gelen arama motoru tarayıcıları, web sitesi içeriğini görüntülemeden önce ilk baktığı ve kontrol ettiği şey robots.txt dosyasıdır. Daha sonrasında site haritasında yer alan URL’leri taramaya başlayacak olan botlar, robots.txt dosyasında yer alan direktifler uygulanacaktır. Bu sebepten dolayı dosya içerisinde yer alan her bir direktifin doğru olduğunu kesinlikle kontrol etmeliyiz.
Robots.txt dosyasında yanlış kullanılan bir direktif, geçici bir fatal hata olarak değerlendirebilir. Yanlışlıkla web sitesini ya da bir kısmını taramaya kapatılmış olması geri dönülemez bir hata olarak değerlendirilmemelidir. Hatanın en kısa sürede fark edilip düzeltilmesi, kötü sonuçlar oluşmasını engelleyecektir.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Örneğin, robots.txt dosyasında web sitesinin herhangi bir kategori sayfasını arama motoru botlarının taramasını engelleyecek bir komut olduğunu düşünelim. Bu hatanın fark edilmemesi kötü sonuçları beraberinde getirebilir. Bu komut yanlışlıkla eklendiğinde, ilgili sayfanın çok fazla bağlantısı yoksa bot muhtemelen taramayacak, fakat bir gün sonrasında yanlış komut kaldırıldığında ya da düzeltiğinde arama motoru botları ilgili sayfayı taramaya başlayacaktır.
SEO İpucu: Googlebot web sitesini ziyaret ettiğinde, robots.txt dosyasını önbelleğe kaydetmektedir. Bu önbelleği 24 saatte bir yenilemektedir. Eğer ki robots.txt dosyasında bir düzenleme yaptıysanız, yapılan düzenlemeler 24 saat sonra geçerli olacaktır.
Farklı bir örnek ise, özellikle e-ticaret web sitelerinde tarama bütçesi optimizasyonu için robots.txt dosyasından faydalanılmalıdır. Arama motoru botlarının bir web sitesini taramak için harcayacağı süre oldukça kısıtlıdır. Bu durumda siteyi ziyaret eden botların, önemli sayfaları daha kolay ve hızlı taraması için web sitesindeki dinamik olan veya önemsiz sayfalar taramaya kapatılabilir.
Robots.txt Dosyası Nerede Bulunur?
Arama botlarının bir web sitesinin robots.txt dosyasını kolayca bulması için her zaman sunucularda web sitesi dosyalarının bulunduğu ana kök dizin altına şifresiz olarak eklenir. Düz metin dosyası olarak oluşturulan bu dosya tüm herkes tarafında okunabilecek ve görüntülenebilecek şekilde yetkilendirme yapılmaldır.
Bir web sitesinin robots.txt dosyasına ulaşmak ve görüntülemek için örneğin, web tarayıcısında adres çubuğuna https://testsite.com/robots.txt yazılması yeterli olacaktır. Tüm tarama botları tarafından evrensel olarak ulaşılabilecek URL yapısı bu olduğundan asla, robots.txt dosyasının yeri değiştirilmemelidir.
Web Sitesi İçin Robots.txt Dosyası Oluşturma
Bir web sitesi için robots.txt dosyası oluşturmak için farklı yöntemler bulunmaktadır. Tercih edilen yöntemlerden biri uygulandığında, oluşturulan robots.txt dosyası, yukarıda bahsettiğimiz gibi kök dizin altına yerleştirilmelidir.
Manuel olarak dosyayı oluşturmak istediğinizde, bilgisayarınızda yüklü olan herhangi bir metin düzenleyicisinden rahatlıkla faydalanabilirsiniz. Yapmanız gereken komutların editöre yazılması ve kaydederken dosya ismine, “robots” verilmeli, uzantısı ise “txt” olmalıdır.
Otomatik olarak oluşturulması için, online bir robots.txt oluşturuculardan faydalanabilir. Oluşturulan dosyayı kök dizin altına yüklemeden önce mutlaka kontrol etmelisiniz.
Manuel Olarak Robots.txt Dosyası Oluşturma
Manuel olarak robots.txt dosyası oluşturma için yukarıda bahsettiğimiz üzere bir editörden faydalanacağız. Sublime Text, notepad, notepad++ vb. uygulamalarında boş bir dosya açtıktan sonra, dosya içerisine şu komut yazılabilir:
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
İlk satırda kullanılan “User-agent:*” komutu, bir sonraki satırlarda yer alan tüm yönergelerin, (ikinci bir “User-agent:” komutu yoksa) siteyi taramaya gelen tüm botlar için geçerli olduğundan bahsetmektedir.
İkinci satırda yer alan “Allow:/” komutu, arama motoru botların sitenin tamamına erişebileceğinden bahsetmektedir.
Üçüncü satırda yer alan “Sitemap:” komutu, arama motoru botlarına web sitesinin site haritası dosyasının yerini ve URL adresini belirtilerek, rahatça ulaşmasını sağlamaktadır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Standart robots.txt komutlarını yazdıktan sonra, kaydetmelisiniz. Kaydet işlemi sırasında karşımıza çıkan pencerede dosya ismi kısmına “robots.txt” yazmanız yeterlidir.
Oluşturduğunuz dosyası, kök dizin altına yerleştirmeniz gerekmektedir. Sitenizi taramaya gelen botlar burada yazan yönergelere uyacaktır.
Robots.txt Dosyasında Kullanılması Tavsiye Edilen Komutlar
Arama motoru botlarının bir siteyi taramaya başlamadan önce ilk olarak kontrol ettiği robots.txt dosyaları, SEO performansınız açısından oldukça önemlidir. Daha önceden de bahsettiğimiz gibi yanlış kullanımı, web sitenizin ya da önemli sayfalarınızın SERP’te (Search Engine Results Page) görünmesini engelleyebilir.
Tavsiye edilen robots.txt komutları:
Bu çok sık kullanılan robots.txt komutlarını ne işe yaradığını öğrenelim.
User-agent,
Allow,
Disallow,
Sitemap,
User-Agent Komutu Nedir?
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Robots.txt dosyasında yer alan “User-Agent” komutu web sitesini ziyaret edecek olan botlardan hangileri için hangi komut geçerli olduğunu belirlemeye yarar. Web sitesini ziyaret edenlerin içeriği görüntülemek için istekte bulunduğu sırada “HTTP Header” başlığı içinde isteği yapan kişi hakkında bilgi aktarır.
HTTP istek başlığında yer alan user-agent bilgisi ayrıca log dosyası analizi yapmak istediğinizde size kullanıcı ile botları rahatlıkla ayırma imkanı sunmaktadır.
İnternet ortamında yüzlerce arama motoru botları yer almaktadır. Arama motoru botları listesi:
Googlebot
Ahrefsbot
AppleBot
Screaming Frog SEO Spider
DuckDuckBot
YandexBot
Yahoo! Slurp
Yeti
Baiduspider
Bingbot
CatchBot
GalaxyBot
MJ12bot
msnbot
SBIder
SandCrawler
Scrubby
SearchSight
Seekbot
sogou spider
Google tarama botlarının listesi:
Googlebot
APIs-Google
AdsBot-Google-Mobile
AdsBot-Google
Mediapartners-Google
AdsBot-Google-Mobile-Apps
FeedFetcher-Google
Google-Read-Aloud
DuplexWeb-Google
googleweblight
Storebot-Google
User-agent direktifleri yazılırken, kullanım sırası oldukça önemlidir.
User-agent ile ilgili bazı senaryolu örnekleri incelersek:
Robot.txt User-Agent Örneği-1:
Web sitesini taramaya gelen Googlebot’un iş başvurusu sayfası altında yer alan teşekkürler adlı sayfamızı taramasını istemezken, diğer kalan tüm botların taramasını istiyoruz.
User-agent: *
Allow: /
User-agent: Googlebot
Disallow: /is-basvurusu/tesekkurler
Yukarıda yer alan komut ile Googlebot, Teşekkürler sayfası hariç diğer tüm sayfaları tarayacaktır. İş başvurusu ve onun altındaki diğer tüm sayfaları tarayacaktır.
Googlebot’un iş başvurusu sayfası altında yer alan tüm sayfaları taranmasını engellemek ve Yandexbot’un iste sadece teşekkürler sayfasını taramasını engellemek istiyorsak.
User-agent: *
Allow: /
User-agent: Googlebot
Disallow: /is-basvurusu/
User-agent: Yandexbot
Disallow: /is-basvurusu/tesekkurler
Allow ve Disallow Komutu Nedir?
Robots.txt dosyasında yer alan “Allow:” komutu arama motoru botlarına hangi sayfaları taramasına izin verildiği hakkında bilgi aktarır. Disallow komutu kullanılmamışsa, arama motoru botları tüm sayfalara tarama izni verildiği şeklinde yorumlamaktadır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Disallow komutu ise, arama motoru botlarına belirtilen URL veya sayfayı taramaması gerektiğini söylemektedir. Bu sayede arama motoru botları için tarama bütçesi optimizasyonu sağlanmış olacaktır.
3 farklı senaryo ile disallow ve allow komutlarının ne işe yaradığını öğrenelim:
Senaryo - 1: Tarama botlarının web sitesinde ki URL veya sayfaların tamamını taramasına izin vermek istiyoruz?
user-agent: *
Allow:/
Senaryo - 2: Tarama botlarının web sitesinde ki URL veya sayfaların tamamını taramasına izin vermek istemiyoruz yani engellemek istiyoruz?
user-agent: *
Disallow:/
Senaryo - 3: Tarama botlarının web sitesinde ki X sayfasını taramamasını fakat X sayfası altında yer alan Y sayfasını taramasını istiyoruz?
user-agent: *
Disallow:/x-sayfasi/
Allow: /x-sayfasi/y-sayfasi
Robots.txt Dosyasını Google Robots.txt Test Aracı ile Test Etme
Oluşturmuş olduğunuz robots.txt komutlarında, Googlebot için yanlış bir engelleme ya da hatalı bir kullanım olup olmadığından emin değilseniz, bu noktada size bir yardımcı araç bulunuyor. Google’un kendi geliştirdiği robots.txt test aracı ile Googlebot’un sitenizde yer alan URL’lere tarama konusunda izin verilip verilmediğini görebilirsiniz.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Bu aracın eksik bir yanı, URL’leri toplu olarak kontrol edemiyor olmanızdır. Bu aracı kullanmak istediğinizde, Google Search Console hesabınızın olması ve kayıtlı olduğunuz e-posta adresi ile erişim sağlamanız gerekmektedir. GSC hesabınızın mail adresi ile erişim yapınız.
Resimde görüldüğü üzere ilgili alanlara, user-agent, allow ve disallow komutlarını uygulayabilirsiniz. Daha sonrasında kontrol etmek istediğiniz URL’i yazarak “Test Et” butonuna tıklayınca size izin verildiğini ya da izin verilmediğini söylemektedir.
Örneğin, tr path’i altında yer alan SEO sayfamıza Googlebot’un taraması için izin verilip verilmediğini kontrol etmek istediğimizde, en altta sitemizin URL sonrası başında / (slash) olmadan “tr/seo” yazıyoruz ve “test et” butonuna tıklıyoruz. Görüldüğü üzere hangi satırda izin verildiği göstermekte ve sağ alt köşede “izin verildi” yazmaktadır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Örneğin, tr path’i altında yer alan çerez politikası sayfamıza Googlebot’un taraması için izin verilip verilmediğini kontrol etmek istediğimizde, en altta sitemizin URL sonrası başında yine / (slash) olmadan “tr/cerez-politikasi” yazıyoruz ve “test et” butonuna tıklıyoruz. Görüldüğü üzere hangi satırda izin verilmediğini göstermekte ve sağ alt köşede “engellendi” yazmaktadır.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Google Search Console Robots.txt Hata ve Uyarıları
Web sitesinin Googlebot tarafından tarandığı zaman botun karşılaştığı hata ve durumlar hakkında bilgi aldığımız en faydalı yer Google Search Console hesabınızdır.
GSC hesabına giriş yaptıktan sonra sol tarafta yer alan Index > Coverage (Dizin > Kapsam) tıklamanız gerekiyor. Daha sonrasında sağ tarafta yer alan grafiklerin altında site robots.txt ile ilgili hata ve uyarılardan bahsetmektedir.
Robots.txt Nedir? Nasıl Oluşturulur ve Kullanılır?
Blocked by robots.txt: Taranmak istenen URL’lerin robots.txt tarafından engellendiğini belirtmektedir. Bunun için ek bir aksiyon almanıza gerek yoktur. Sadece kontrol etmeniz gereken, tarama esnasında site haritasında yer alan URL’in robots.txt tarafından engellenip engellenmediğini kontrol etmelisiniz. Sizin için önemli olan sayfaların durumunu kontrol etmelisiniz.
Indexed, though blocked by robots.txt: Bazı URL’lerin robots.txt tarafından engellemiş olmasına rağmen, dizine eklendiği bilgisini vermektedir. Dizine eklenen URL’leri kontrol etmeli ve indexlenmesini engelleyecek şekilde aksiyon alabilirsiniz. Örneğin bağlantı ise, nofollow etiketi eklemek, sayfa ise noindex etiketi eklemek gibi çözümler kullanabilirsiniz.
Robots.txt ile ilgili Dikkat Edilmesi ve Unutulmaması Gerekenler
Web sitesini taramak isteyen botları yönlendirmek için kullandığımız robots.txt dosyası ile ilgili dikkat edilmesi ve unutulmaması gerekenler:
Botlar bir siteyi taramak için geldiğinde ilk önce robots.txt dosyasını kontrol eder ve indirir.
Botların sitenin herhangi bir bölümüne erişmesini istemiyorsanız “disallow:” komutu kullanmalısınız.
Botlara yardımcı olmak için, robots.txt dosyasında site haritasının URL’ini “sitemap:” komutu ile belirtmelisiniz.
Robots.txt dosyası mutlaka kök dizin altında yer almalıdır. siteadi[.]com/robots.txt gibi olmalıdır.
Googlebot robots.txt dosyasını istediğinde eğer ki 429 HTTP durum kodu haricinde, herhangi bir 4XX HTTP durum kodu ile karşılaşırsa sitenin robots.txt dosyası yok gibi davranır. Bu durumda sitenin tüm sayfalarına ve URL’lerini tarayabileceğini belirtir.
429 veya 5XX HTTP durum kodlarından biri ile karşılaştığında örneğin 500 HTTP durum kodu ile karşılaşırsa sitenin taramaya kapalı olduğu şeklinde yorumlar ve taramayı durdurur.
Google web sitelerinin robots.txt dosyasını önbellekte tutar. Son 24 saat içerisinde yaptığınız bir değişikliğin etkili olabilmesi için önbelleğin yenilenmesini beklemek zorundasınız.
UTF-8 formatında ve txt uzantılı olmak zorundadır.
Google, robots.txt dosyalarını maksimum 500KiB’lık bir boyutunu taramaktadır. Bu boyut üzerinde yer alanların, bu sınıra kadar olan satırını dikkate alır sonrasını dikkate almayacaktır.
Robots.txt dosyasında yorum satırı oluşturmak için # kullanmanız gerekmektedir.
Robots.txt dosyasında yer alan URL path’lerinde mutlaka büyük ve küçük yazımına dikkat ediniz.
Sonuç
Web sitesini taramak için gelen botlara hangi sayfaları taramasını, hangi sayfaları taramaması konusunda direktiflerin bulunduğu robots.txt dosyası, SEO çalışmaları için önemlidir.
Robots.txt konusunda yayınladığımız blog içeriğimizi faydalı bulduysanız, diğer insanlarında erişebilmesi için sosyal medya hesaplarınızda paylaşarak bizlere destek olabilirsiniz.
Robots.txt dosyası kullanarak sitenizdeki hangi dosyaların tarayıcıların erişimine açık olacağını belirleyebilirsiniz.
Robots.txt dosyası, sitenizin kök dizininde bulunur. Dolayısıyla robots.txt dosyası, www.example.com sitesinde www.example.com/robots.txt adresindedir. Robots.txt, Robot Hariç Tutma Standardı'na uygun bir düz metin dosyasıdır. Robots.txt dosyası, bir veya daha fazla kuraldan oluşur. Her kural, robots.txt dosyasının barındırıldığı alan adında veya alt alan adında belirtilen bir dosya yoluna tüm tarayıcıların ya da belirli bir tarayıcının erişimine izin verir veya erişimi engeller. Robots.txt dosyanızda aksini belirtmediğiniz sürece tüm dosyaların taranmasına izin verilir.
İki kural içeren basit bir robots.txt dosyasını aşağıda görebilirsiniz:
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Bu örnekteki robots.txt dosyasında şunlar belirtilmiştir:
Googlebot adlı kullanıcı aracısının, https://example.com/nogooglebot/ ile başlayan hiçbir URL'yi taramasına izin verilmez.
Diğer tüm kullanıcı aracılarının sitenin tamamını taramasına izin verilir. Varsayılan davranış, kullanıcı aracılarının sitenin tamamını taramasına izin verilmesi olduğundan bu durum belirtilmese dahi sonuç aynı olacaktır.
Sitenin site haritası dosyası, https://www.example.com/sitemap.xml adresinde bulunmaktadır.
Daha fazla örnek için söz dizimi bölümüne bakın.
Robots.txt dosyası oluşturmak için temel kurallar
Robots.txt dosyası oluşturup dosyanın genel olarak erişilebilir ve faydalı olmasını sağlamak için uygulayacağınız dört adım vardır:
Robots.txt adlı bir dosya oluşturma.
Robots.txt dosyasına kural ekleme.
Robots.txt dosyasını sitenizin kök dizinine yükleme.
Robots.txt dosyasını test etme.
Robots.txt dosyası oluşturma
Bir robots.txt dosyası oluşturmak için neredeyse tüm metin düzenleyicilerini kullanabilirsiniz. Örneğin, Notepad, TextEdit, vi ve emacs, geçerli robots.txt dosyaları oluşturabilir. Kelime işlemci kullanmayın (kelime işlemciler, dosyaları genellikle özel bir biçimde kaydeder ve tarayıcılar için sorunlara neden olabilecek kıvrık tırnak gibi beklenmedik karakterler ekleyebilir). Dosyayı kaydet iletişim kutusunda sorulması halinde dosyayı UTF-8 kodlamasıyla kaydettiğinizden emin olun.
Biçim ve konum kuralları:
Dosya, robots.txt olarak adlandırılmalıdır.
Sitenizde yalnızca bir robots.txt dosyası olabilir.
Robots.txt dosyası, geçerli olacağı web sitesi ana makinesinin kök dizininde bulunmalıdır. Örneğin, https://www.example.com/ altındaki tüm URL'lerde taramayı kontrol etmek için robots.txt dosyası, https://www.example.com/robots.txt konumuna yerleştirilmelidir. Bir alt dizine (örneğin, https://example.com/pages/robots.txt) yerleştirilemez. Web sitenizin kök dizinine nasıl erişeceğinizden emin değilseniz veya bunun için izin almanız gerekiyorsa web barındırma hizmeti sağlayıcınıza başvurun. Web sitenizin kök dizinine erişemiyorsanız meta etiketler gibi alternatif bir engelleme yöntemini kullanın.
Robots.txt dosyası, alt alan adında (örneğin, https://website.example.com/robots.txt) veya standart olmayan bağlantı noktalarında (örneğin, https://example.com:8181/robots.txt) yayınlanabilir.
Robots.txt dosyası yalnızca yayınlandığı protokol, ana makine ve bağlantı noktası içindeki yollarda geçerlidir. Yani, https://example.com/robots.txt içindeki kurallar yalnızca https://example.com/ dosyalarında geçerlidir. https://m.example.com/ gibi alt alan adlarında veya http://example.com/ gibi alternatif protokollerde geçerli değildir.
Robots.txt dosyası, UTF-8 olarak kodlanmış metin dosyası olmalıdır (bu, ASCII karakterleri de içerir). Google, UTF-8 aralığı dışındaki karakterleri yoksayabilir ve bu durumda robots.txt kurallarını geçersiz olarak algılayabilir.
Robots.txt kuralları nasıl yazılır?
Kurallar, tarayıcıların sitenizin hangi bölümlerini tarayabileceğini belirten talimatlardır. Robots.txt dosyanıza kural eklerken aşağıdaki esasları dikkate alın:
Robots.txt dosyası bir veya daha fazla gruptan (kural grubu) oluşur.
Her grup, satır başına bir kural (ayrıca yönerge olarak da adlandırılır) olacak şekilde birden fazla kuraldan oluşur. Her grup, grupların hedefini belirten bir User-agent satırıyla başlar.
Bir grup şu bilgileri verir:
Kuralın kimin için geçerli olacağı (kullanıcı aracısı).
Söz konusu aracının erişebileceği dizinler veya dosyalar.
Söz konusu aracının erişemeyeceği dizinler veya dosyalar.
Tarayıcılar, grupları yukarıdan aşağıya doğru işler. Kullanıcı aracıları yalnızca bir kural grubuyla eşleşebilir. Bu grup, kullanıcı aracısıyla eşleşen ilk ve en ayrıntılı grup olur. Aynı kullanıcı aracısı için birden fazla grup varsa gruplar, işlenmeden önce tek bir grupta birleştirilir.
Bir kullanıcı aracısının kuralıyla engellenmeyen bir sayfayı veya dizini tarayabileceği disallow varsayılan olarak kabul edilir.
Kurallar büyük/küçük harfe duyarlıdır. Örneğin disallow: /file.asp, https://www.example.com/file.asp için geçerlidir, ancak https://www.example.com/FILE.asp için geçerli değildir.
# karakteri, bir yorumun başlangıcını belirler. Yorumlar, işleme sırasında yoksayılır.
Google'ın tarayıcıları, robots.txt dosyalarında aşağıdaki kuralları destekler:
user-agent: [Zorunlu, grup başına bir veya daha fazla] Kural, geçerli olduğu arama motoru tarayıcısı olarak bilinen otomatik istemcinin adını belirtir. Bu, tüm kural gruplarının ilk satırıdır. Google kullanıcı aracısı adları, Google kullanıcı aracısı listesinde yer alır. Yıldız işareti (*), çeşitli AdsBot tarayıcıları dışındaki tüm tarayıcılarla eşleşir. Eşleşmeyen AdsBot tarayıcılarının adlarının açıkça belirtilmesi gerekir. Örneğin:
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /
# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
disallow: [Kural başına en az bir disallow veya allow girişi] Kullanıcı aracısının taramasını istemediğiniz, kök alana göreli olarak belirtilen dizin veya sayfa. Kural, bir sayfaya işaret ediyorsa tam sayfa adını tarayıcıda gösterildiği şekliyle belirtmelidir. / karakteriyle başlamalı ve bir dizine işaret ediyorsa / işaretiyle bitmelidir.
allow: [Kural başına en az bir disallow veya allow girişi] Az önce bahsedilen kullanıcı aracısı tarafından taranabilecek bir dizin veya sayfa; kök alanla göreli olarak belirtilir. Bu parametre, izin verilmeyen bir dizindeki bir alt dizinin veya sayfanın taranmasına izin vermek üzere disallow kuralını geçersiz kılmak için kullanılır. Tek bir sayfa için tam sayfa adını tarayıcıda gösterildiği şekliyle belirtin. / karakteriyle başlamalı ve bir dizine işaret ediyorsa / işaretiyle bitmelidir.
sitemap: [İsteğe bağlı, dosya başına sıfır veya daha fazla] Bu web sitesinin site haritasının konumudur. Site haritası URL'si, tam nitelikli URL olmalıdır; Google, http/https/www.non-www alternatiflerini varsaymaz veya kontrol etmez. Site Haritaları, Google'a tarayabileceği veya tarayamayacağı içeriğe karşılık hangi içeriği taraması gerektiğini bildirmek için iyi bir yoldur. Site haritaları hakkında daha fazla bilgi edinin. Örnek:
Sitemap: https://example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap.xml
sitemap dışındaki tüm kurallar yol öneki, soneki veya dizenin tamamı için * joker karakterini destekler.
Bu yönergelerin hiçbiriyle eşleşmeyen satırlar yoksayılır.
Her bir kuralın kapsamlı açıklamasını Google'ın robots.txt spesifikasyonunu yorumlayışı konulu sayfamızda okuyabilirsiniz.
Robots.txt dosyasını yükleme
Robots.txt dosyanızı bilgisayarınıza kaydettikten sonra, dosyayı arama motoru tarayıcılarının erişimine açabilirsiniz. Robots.txt dosyasını sitenize nasıl yükleyeceğiniz, site ve sunucu mimarinize bağlı olduğundan bunu yapmanıza yardımcı olabilecek tek bir araçtan söz edemeyiz. Barındırma şirketinizle iletişime geçebilir veya barındırma şirketinizin dokümanlarında arama yapabilirsiniz (örneğin, "infomaniak dosya yükleme" araması yapabilirsiniz).
Robots.txt dosyanızı yükledikten sonra, herkese açık ve Google tarafından ayrıştırılabilir olup olmadığını test edin.
Robots.txt işaretlemesini test etme
Yeni yüklediğiniz robots.txt dosyasının herkesin erişimine açık olup olmadığını test etmek için tarayıcınızda bir gizli tarama penceresi (veya tarayıcınızdaki eşdeğeri) açıp robots.txt dosyasının bulunduğu yere gidin. Örneğin: https://example.com/robots.txt Robots.txt dosyanızın içeriğini görüyorsanız işaretlemeyi test etmeye hazırsınız demektir.
Google, robots.txt işaretlemesini test etmek için iki seçenek sunar:
Search Console'daki robots.txt Test Aracı. Bu aracı yalnızca sitenizde halihazırda erişilebilir olan robots.txt dosyaları için kullanabilirsiniz.
Geliştiriciyseniz Google Arama'da da kullanılan Google'ın açık kaynak robots.txt kitaplığına göz atabilir ve ekleme yapabilirsiniz. Bu aracı, robots.txt dosyalarını bilgisayarınızda yerel olarak test etmek için kullanabilirsiniz.
Robots.txt dosyalarını Google'a gönderme
Robots.txt dosyanızı yükleyip test etmenizin ardından, Google'ın tarayıcıları robots.txt dosyanızı otomatik olarak bulup kullanmaya başlar. Herhangi bir işlem yapmanız gerekmez. Robots.txt dosyanızı güncellediyseniz ve Google'ın önbelleğe aldığı kopyayı en kısa sürede yenilemeniz gerekiyorsa, güncellenen robots.txt dosyalarını gönderme hakkında bilgi edinin.
Faydalı robots.txt kuralları
Yaygın olarak uygulanan bazı faydalı robots.txt kuralları aşağıda listelenmiştir:
Faydalı kurallar
Web sitesinin taranmasını tümüyle reddetme
Bazı durumlarda web sitesindeki URL'lerin, taranmamış olsalar bile yine de dizine eklenebileceklerini unutmayın.
Not: Bu kural bazı AdsBot tarayıcılarıyla eşleşmez. Bu tarayıcıların adları açıkça belirtilmelidir.
User-agent: *
Disallow: /
Bir dizin ve içeriğinin taranmasına izin vermeme
Tüm bir dizinin taranmasına izin vermemek için dizin adının sonuna bir öne eğik çizgi ekleyin.
Dikkat: Gizli içeriğe erişimi engellemek için robots.txt dosyasını kullanmayın. Onun yerine uygun kimlik doğrulama yordamı kullanın. Robots.txt dosyasıyla taranmasına izin verilmeyen URL'ler, taranmadan dizine eklenebilir ve robots.txt dosyası başkaları tarafından görüntülenerek gizli içeriğinizin yerinin ortaya çıkmasına neden olabilir.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Tek bir tarayıcının erişimine izin verme
Yalnızca googlebot-news tüm siteyi tarayabilir.
User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
Bir tarayıcı dışında tüm tarayıcıların erişimine izin verme
Unnecessarybot hariç tüm botlar siteyi tarayabilir.
User-agent: Unnecessarybot
Disallow: /
User-agent: *
Allow: /
Tek bir web sayfasının taranmasına izin vermeme
Örneğin, https://example.com/useless_file.html adresinde bulunan useless_file.html sayfasına ve junk dizininde other_useless_file.html sayfasına izin vermeme.
User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html
Alt dizin dışında, sitenin taranmasını tümüyle reddetme
Tarayıcılar yalnızca public alt dizinine erişebilir.
User-agent: *
Disallow: /
Allow: /public/
Google Görseller'den belirli bir görseli engelleme
Örneğin, dogs.jpg görselinin taranmasını reddedebilirsiniz.
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Google Görseller'den sitenizdeki tüm görselleri engelleme
Google, görselleri ve videoları taramadan dizine ekleyemez.
User-agent: Googlebot-Image
Disallow: /
Belirli bir türdeki dosyaların taranmasına izin vermeme
Örneğin, tüm .gif dosyalarının taranmasını reddedebilirsiniz.
User-agent: Googlebot
Disallow: /*.gif$
Sitenin tamamının Mediapartners-Google dışındaki tarayıcılar tarafından taranmasına izin vermeme
Bu uygulama, sayfalarınızı arama sonuçlarından gizler. Ancak Mediapartners-Google web tarayıcısının sitenizde ziyaretçilere hangi reklamların gösterileceğini belirlemek için sayfalarınızı analiz etmesi engellenmez.
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
Belirli bir dizeyle biten URL'leri eşleştirmek için * ve $ joker karakterleri kullanın
Örneğin, tüm .xls dosyalarının taranmasını engelleyebilirsiniz.
User-agent: Googlebot
Disallow: /*.xls$
Robots.txt SEO İçin Önemi
Robots.txt dosyası, tüm arama motorları tarafından ortak olarak kontrol edilen, bir sitenin hangi kısımlarının indekslenip, hangi kısımlarının indekslenmemesini gösteren metin dosyasıdır. Web sitesi sahibinin sitesinin indekslenmemesini isteme sebepleri değişebilir. Bunlara örnek olarak, şifreli alanlar, özel videolar ve fotoğraflar, yapım aşamasındaki sayfalar, değiştirilecek olan site bölümleri gibi nedenlerle web sitenizin bir kısmının indekslenmesini istemeyebilirsiniz.
robots-dosyasi-olusturma
Robots.txt dosyası bunun yanında arama motoru optimizasyonu için de çeşitli avantajlar sağlar. Sağladığı SEO avantajlarından bir tanesi, tekrarlanan içerikleri engellemesidir. Web sitenizin bölümlerini net olarak belirler ve tekrar eden dosyaları bu arama botlarına göstermez. Aynı şekilde bu dosya, subdomain veya subfolder gibi belirli bölümleri de arama motoru botlarından gizler.
Robots.txt Dosyası Nasıl Oluşturulur
Robots.txt dosyası oluşturmanın en temelde iki yöntemi vardır. Bunlardan birisi otomatik olarak dosyayı oluşturabileceğiniz programlardır. Diğer yöntem ise, robots.txt dosya oluşturma işlemini kendiniz yaparak kök dizinine eklemenizdir. Bu konularda bilgi ve pratik olarak kendinizi eksik görüyorsanız internet üzerinde bulunan robots.txt generator gibi hazır dizinlerden yardım alabilirsiniz.
robots-nasil-olusturulur
Eğer web sitesi sahibi kendisi bir robots dosyası oluşturmak isterse, bazı noktalara dikkat etmelidir. Öncelikle yeni bir metin belgesi açılarak ismi robots.txt olarak değiştirilmelidir. Bu dosyalarda User-agent ve Disallow değişkenleri yer alır. User-agent arama motorunun adını belirlerken, Disallow bu arama botlarının izin durumlarını belirlemek için kullanılan komut satırıdır.
Bu dosyayı oluştururken bazı standartlara uymanız gerekmektedir. Bunlardan en önemlisi bu dosyanın site kök dizinine eklenmedir. Bir diğer önemli nokta bu dosya ile web sitesinin URL formatlarının aynı olmasıdır. Son olarak ise Robots.txt dosyası UTF-8 türünde kodlamaya uygun şekilde hazırlanmış olmalıdır. Bu dosya için kullanılan alan adı uzantısı, web sitenize erişim için kullanılan alan adı ile aynı şekilde düzenlenmelidir.
robots-dosyasi-yapma
Yanlış Kullanım: https://testsite.com/main.robots.txt
Doğru Kullanım: https://testsite.com/robots.txt
Robots Dosyası Sayfa Engelleme
Robots.txt dosyası oluşturmak için üç çeşit komut etkeni vardır. Bu komut çeşitleri grup içi komutlar, grup dışı komutlar ve notlar olarak karşınıza çıkar. Grup içi komutlar, kesin komutları ele alır. Grup dışı komutlar ise site haritasının oluşturulmasında görev alır. Notlar ise dosyanızın içine eklediğiniz komutlar için not ve yorum yazabilmeniz için oluşturulmaktadır.
Sayfa engelleme veya izin verme komutları, robots,txt dosyasının grup içi komut çeşitleri ile yapılmaktadır. Web sitenizin belirli bir bölümünün veya bölümlerinin taranmasını istemiyorsanız, komut satırınızı buna göre oluşturmanız gerekir. Böylelikle indekslenmeyen sayfalarınızı geliştirmeye, ileri zamanlı değiştirmeye ve yayınlamaya devam edebilirsiniz.
robot-dosyasi-yapma
Bu noktada allow ya da disallow komutları sayesinde web sitenizin belirli bölümlerine erişim izni veya yasağı verebilirsiniz. Unutmamanız gereken şey ise bu noktada yaptığınız değişiklikler arama motoruna özeldir. Kullanıcılarınız erişime devam edebilir. Örneğin;
User-agent: *
Disallow: /ozel-belgeler.html/
Bu komut sayesinde arama motoru botu tarafından, yalnızca https://ornek.com/ozel-belgeler.html adresinde yer alan içeriğin taranması ve dizine eklenmesi engellenecektir. Siteniz üzerinde erişilmesini ve indekslenmesini istemediğiniz noktalar için bu komutu dosyanıza işlemeniz gerekmektedir. Dizin ve URL arasındaki ilişkiyi doğru şekilde işlemeniz bu noktada oldukça önemlidir.
Robots Dosyası Kodları
Robots dosyası bir metin belgesi açılarak hazırlanabilir. Belge içerisindeki User-agent ve Disallow/allow kısımları ise doğru şekilde kodlanmalıdır. Bu kısımlarda yaptığınız yanlışlar robots dosyanızın gerektiği gibi çalışmamasına sebep olabilir. Amacınıza ve ihtiyacınıza uygun hizmet edebilecek komut türü seçilerek, doğru şekilde yazılmalı ve kök dizine eklenmelidir. Bu komutlar şu şekilde örneklendirilebilir.
robot-txt-dosyasi-kodlari
Örnek 1:
User-agent: *
Allow: /
Bu şekilde yazılan robots.txt dosyalarında, arama motorlarının tüm web sitesini tarayarak indekslemesine izin verilir. Burada User-agent kısmına yazılan “*” işareti bu komutun tüm arama motoru botları tarafından algılanmasını sağlar.
Örnek 2:
User-agent: DeepCrawl
Disallow: /private/
DeepCrawl yazılan komut satırı, bu komutun sadece Google tarafından gönderilen ve belirli aralıklarla web sitenizi ziyaret eden bota özel olduğunu gösterir. Alt satırda bulunan “private” komutu ise bu dosyanın, ilgili bot tarafından indekslenmemesini istediğinizi gösterir.
robots-dosyasi-ne-ise-yarar
Örnek 3:
User-agent: *
Disallow: /
Bu şablon ile oluşturulan dosyalarda, ilk komut satırında tüm arama motorlarına izin verilir. İkinci satırdaki komuttan itibaren ise “disallow /” komutu ile robot txt folder dissallow emiri verilir. Web sitesindeki bu kısımda belirtilen dosyalara erişim kısıtlanır ve indekslenemez. Bununla beraber “disallow /” satırları uzadıkça arama motoru botları bu satırlarda belirtilen dosyaların hiçbirinde indeksleme yapamaz.
Örnek 4:
User-agent: *
Disallow: /directory/dosya.html
Bu komut şablonu ile oluşturduğunuz robots dosyaları sayesinde, arama motoru botları web sitesini indekslerken, directory dizininde bulunmakta olan dosya.html konumunu tarayamaz ve indeksleme yapamaz. Bu şekilde indekslenmesini istemediğiniz dosyaları dışarıda bırakarak daha sonra rahat bir şekilde değiştirebilirsiniz.
robot-dosyasi-ne-ise-yarar
Örnek 5:
User-agent: *
Allow: /dosya1/site.html
Disallow: /dosya1/
Bu robots.txt komut şablonu ile arama motoru botlarına, dosya1 dizini içerisinde bulunan site.html dosyası hariç diğer dosyalara tarama ve indeksleme yasağı koymuş olursunuz. Arama botlarına bu komutlar ile robot txt nofollow ve noindex komutu verdiğiniz için belirtilen sayfa ve dosya için tarama yapamazlar. Bu şekilde indeksleme istenilmeyen sayfalarda şu şekilde komut yazılır.
<meta name=”ROBOTS” content=”NOINDEX,NOFOLLOW”
İhtiyacınıza cevap verebilen, bir robots dosyası oluşturarak web sitenizin root yani kök dizinine bu dosyayı yüklemeniz gereklidir. Bu işlemleri yapmazsanız dosyanız istediğiniz şekilde çalışmayacaktır. WordPress tabanlı bir web siteniz varsa ve robot txt wordpress komutları ile oluşturmak istiyorsanız, size hazır şablonlar sunan “robots.txt rewrite” eklentisi işinize yarayabilir.
Kar©glan Başağaçlı Raşit Tunca