Ana içeriğe geç

Robots.txt Nedir? Arama Motorları İçin Trafik Polisi

Robots.txt Nedir - Arama Motorları İçin Trafik Polisi

Sitenizin bazı sayfaları Google'da görünmüyor olabilir. Ya da tam tersi — gizli kalması gereken admin paneliniz arama sonuçlarında çıkıyor olabilir. Sebebi genellikle aynı: robots.txt dosyası ya eksik ya da yanlış yapılandırılmış.

Peki ne bu robots.txt? Sitenizin kök dizininde duran küçük bir metin dosyası. Arama motoru botlarına hangi sayfaları tarayabileceğini, hangilerini atlayacağını söyler. Küçük ama etkisi büyük — yanlış bir satır, tüm sitenizi Google'dan silebilir.

Robots.txt nedir?

1994'ten beri kullanılan, tüm büyük arama motorlarının desteklediği bir standart. Teknik olarak karmaşık bir şey değil — web sitenizin kök dizininde duran düz bir metin dosyasından ibaret.

Googlebot, Bingbot, Yandex gibi botlar sitenize geldiğinde ilk iş https://siteniz.com/robots.txt adresine bakar. Hangi sayfalara girebileceğini, hangilerinden uzak durması gerektiğini bu dosyadan öğrenir. Dosya yoksa? Bot tüm sayfaları taramaya çalışır — bu da her zaman istediğiniz şey olmayabilir.

Basit bir örnek

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.seodenetim.com/sitemap.xml

Burada User-agent: * satırı tüm botları hedefliyor. Admin paneli kapalı ama WordPress'in AJAX dosyasına izin var — bazı ön yüz işlevleri buna bağlı. En altta sitemap konumu belirtilmiş, Google'ın sitenizi daha hızlı keşfetmesi için faydalı bir detay.

Neden önemli?

Crawl budget optimizasyonu

Google'ın sitenize ayırdığı tarama kapasitesi sınırlı. Buna crawl budget deniyor. 50 sayfalık bir blogda pek hissetmezsiniz ama binlerce ürün sayfası olan bir e-ticaret sitesinde bu kapasitenin nereye harcandığı hayati önem taşır.

WordPress sitelerinde /wp-includes/ ve /wp-content/plugins/ gibi klasörlerde SEO değeri taşıyan sayfa yok. Google bu dizinleri tarayarak vakit kaybetmesin — asıl içeriklerinize, blog yazılarınıza, ürün sayfalarınıza odaklansın. Robots.txt ile gereksiz alanları kapatarak botu doğru yönlendirirsiniz.

Hassas sayfaları gizleme

Admin paneli, üye giriş sayfası, sepet, ödeme akışı... Bunların arama sonuçlarında görünmesini istemezsiniz. Robots.txt ile bu alanları botların radarından çıkarabilirsiniz.

Ama dikkat — robots.txt bir güvenlik aracı değil. Dosyanızı herkes görebilir, tarayıcıya /robots.txt yazması yeterli. Yani hassas dizinlerinizi burada listelemek, aslında onları ilan etmek gibi bir şey. Gerçek güvenlik istiyorsanız şifre koruması veya sunucu tarafında erişim kısıtlaması şart.

Duplicate content önleme

E-ticaret sitelerinde sıkça karşılaşılan bir durum: Aynı ürün sayfası ?filtre=renk-kirmizi, ?siralama=fiyat, ?sayfa=2 gibi parametrelerle onlarca farklı URL'de görünür. Google bunların her birini ayrı sayfa olarak algılar ve duplicate content sorunu ortaya çıkar.

Çözüm basit. Filtre ve sıralama parametrelerini robots.txt ile engelleyin, sorun büyük ölçüde ortadan kalkar.

Nasıl oluşturulur?

Notepad, VS Code, Sublime Text — herhangi bir düz metin editörü işinizi görür. Word veya Google Docs kullanmayın; gizli format karakterleri eklerler ve botlar dosyayı okuyamaz.

Temel syntax şöyle:

User-agent: [bot-adı]
Disallow: [engellenecek-path]
Allow: [izin-verilecek-path]
Sitemap: [sitemap-url]

Dosya adı tam olarak robots.txt olmalı. Büyük harf, farklı uzantı — hiçbiri kabul edilmez. FTP veya dosya yöneticinizle kök dizine yükleyin.

Konum meselesi çok önemli. https://siteniz.com/robots.txt şeklinde erişilebilir olmalı. /blog/robots.txt veya /public/robots.txt gibi alt dizinlere koyduğunuzda botlar dosyayı bulamaz, yok sayar. Kendiniz yazmak istemezseniz hazır şablonlarla da oluşturabilirsiniz.

Hangi sayfaları engellemelisiniz?

Site yapınıza göre değişir ama yaygın senaryolar belli. İki örneğe bakalım.

WordPress siteleri

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/

Sitemap: https://siteniz.com/sitemap.xml

Neden /uploads/ açık? Çünkü görselleriniz orada ve Google Images trafiği istiyorsanız botun oraya erişmesi gerekiyor. AJAX dosyası da bazı ön yüz işlevleri için şart. Geri kalan altyapı klasörlerinin indekslenmesine gerek yok.

E-ticaret siteleri

Sepet, ödeme, hesap sayfaları — bunların indekslenmesinin kimseye faydası yok. Asıl sinsi olan kısım filtre parametreleri:

User-agent: *
Disallow: /sepet/
Disallow: /odeme/
Disallow: /hesabim/
Disallow: /*?filtre=
Disallow: /*?siralama=

Ürün sayfalarını ve blog yazılarını sakın engellemeyin. Organik trafiğinizin kaynağı onlar.

Yaygın hatalar

Yanlış konum

Klasik hata. Robots.txt dosyasını /public/ veya /html/ gibi bir alt dizine yüklemişsiniz ama botlar sadece kök dizine bakar. Orada değilse dosya yok demek.

Syntax hatası

User agent: *  (tire eksik, yanlış)
Disalow: /admin/  (yazım hatası)

Küçücük bir yazım hatası tüm dosyayı geçersiz kılar. User-agent ile User agent arasındaki tek tire farkı — bot kurallarınızı tamamen görmezden gelir.

Tüm siteyi engelleme

User-agent: *
Disallow: /

Sitenizin tamamını arama motorlarından gizleyen iki satır. Geliştirme ortamında mantıklı, canlı sitede felaket. Sıkça olan şu: test ortamından canlıya geçerken bu kuralı kaldırmayı unutuyorsunuz. Site günlerce indeksten düşer, siz de nedenini anlayamazsınız.

Sitemap eklememek

Robots.txt'e sitemap URL'nizi eklemeyi atlayan çok site var. Google sitemap'inizi Search Console'dan da bulabilir ama robots.txt'e yazmak ek bir keşif sinyali. Henüz sitemap'iniz yoksa önce onu oluşturun.

Robots.txt'i nasıl test edersiniz?

Google Search Console'daki robots.txt tester aracı tam bunun için var. Dosyanızı yükleyin, test etmek istediğiniz URL'yi girin — araç o URL'nin engellenip engellenmediğini anında gösterir.

Her değişiklikten sonra test edin. Ciddiyim. Büyük bir düzenlemeden sonra farkında olmadan önemli bir sayfayı engellemiş olabilirsiniz. Search Console'daki "Kapsam" raporunda "Robots.txt tarafından engellendi" uyarısı görürseniz hemen dosyanızı kontrol edin.

Robots.txt küçük bir dosya ama sitenizin Google'daki görünürlüğünü doğrudan etkiler. Doğru yapılandırıldığında crawl budget'ınız verimli kullanılır, gereksiz sayfalar indeksten uzak kalır. WordPress veya e-ticaret sitelerinde etkisi daha da belirgin.

Henüz yoksa bir metin editörü açın, kurallarınızı yazın, kök dizine yükleyin, Search Console'da test edin. Beş dakika sürer. Karşılığında uzun vadeli SEO katkısı ciddi.