class DarkRaha extends com { // разработка приложений
            String a="Главная" b="Контакты" c="О сайте"
};

введение
robots.txt
карта сайта
ранг страницы
верстка страницы
запрет индексации

Справочник по SEO

Файл robots.txt

Для уменьшения трафика и нагрузки на сайт во время обработки роботом можно создать файл robots.txt, содержащий список имен файлов и директорий запрещенных к индексированию. Например, нет нужды просматривать директорию содержащую лишь скрипты. Если некоторый файл xxx.htm не содержит пока ничего содержательного, то его тоже можно пропустить.

Во-вторых, все нормальные поисковики давно уже в первую очередь ищут этот файл. Поэтому его отсутствие ведет к засорению лога сообщением о недоступности файла robots.txt.

Сам файл и его структура не являются частью какого-либо официального стандарта, а лишь соглашение между разработчиками поисковиков и других заинтересованных лиц. Это означает, что некоторые роботы могут игнорировать этот файл.

расположение robots.txt

Файл должен находиться только в корневой директории сайта, остальные места будут игнорироваться. Все буквы в названии файла должны быть маленькими.

формат файла robots.txt

Файл содержит набор директив (правил). Каждое правило на отдельной строке. Современные роботы вроде понимают различные способы перевода на новую строку, рекомендуемым способом является стиль юникса.

стандартные директивы

Регистр символов в именах директив значения не имеет.

расширения

примеры

Робот сканирует файл в поисках своего имени, а затем обрабатывает указанные инструкции до достижения пустой строки или конца файла. Если для него специально user-agent не указан, то используется user-agent: *.


# запретить всем индексацию сайта
user-agent: * 
disallow: / 

# запретить всем индексацию сайта
user-agent: * 
allow:  

# разрешить всем индексацию сайта
user-agent: * 
disallow:  

# разрешить всем индексацию сайта
user-agent: * 
allow: /  

# запрещаем DragonBot индесировать
# файлы в папке rus
user-agent: DragonBot 
disallow: /rus/ 

# запрещаем гуглу индексировать страницу
# /rus/ajax/test.php 
# но исключены будут все файлы с данным префиксом
user-agent: Googlebot
disallow: /rus/ajax/test.php

# запрещаем гуглу индексировать страницу
# /frontpage (а не все файлы в папке frontpage) 
user-agent: Googlebot
disallow: /frontpage$ 

# поместим в конец файла
# карта состоит из двух файлов
Sitemap: http://anysite.com/anypath/sitemap1.xml
Sitemap: http://anysite.com/anypath/sitemap2.xml

#пример host из документации Yandex
#Если www.glavnoye-zerkalo.ru главное зеркало сайта, то  
#robots.txt для всех сайтов из группы зеркал выглядит так 
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

имена роботов

Кроме поисковых движков, агентами могут быть различные программы, например скачивалки сайта. Список популярных роботов:

Дополнительно по именам роботов см. следующие ссылки:


Рейтинг@Mail.ru