Понедельник, 2024-04-15, 6:58 PM
Новости от stopmp3.ru это всё для вас можно скачать беспл...Главная

Регистрация

Вход
Приветствую Вас Гость | RSS
Меню сайта
  • Главная страница
  • Информация о сайте
  • Статьи
  • Форум
  • Фотоальбом
  • Гостевая книга
  • Каталог файлов
  • Бесплатный каталог сайтов
  • Дневник
  • Онлайн игры
  • Тесты
  • Доска объявлений
  • Видео
  • Самые лучшие sms
  • ..::Гороскоп::..
  • ДОСТУП "PDA"
    Категории раздела
    Мои статьи [173]
    Форма входа
    Статистика
    Статы pr-cy:
    CY & PR
    LiveInternet:

    Онлайн всего: 2
    Гостей: 2
    Пользователей: 0
    Главная » Статьи » Мои статьи

    Ошибки, часто встречающиеся в файле robots.txt

    Непосредственно ошибки

    Перепутанные инструкции

    Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:

    User-agent: /
    Disallow: Yandex

    Правильно писать вот так:

    User-agent: Yandex
    Disallow: /

    Указание нескольких каталогов в одной инструкции Disallow

    Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.

    Disallow: /css/ /cgi-bin/ /images/

    Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.

    Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:

    Disallow: /css/
    Disallow: /cgi-bin/
    Disallow: /images/

    Имя файла содержит заглавные буквы

    Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.

    Использование файла robot.txt вместо robots.txt

    Еще раз – файл должен называться robots.txt.

    Пустая строка в User-agent

    Так неправильно:

    User-agent:
    Disallow:

    Так правильно:

    User-agent: *
    Disallow:

    Url в директиве Host

    Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /

    Неправильно:

    User-agent: Yandex
    Disallow: /cgi-bin
    Host: http://www.site.ru/

    Правильно:

    User-agent: Yandex
    Disallow: /cgi-bin
    Host: www.site.ru

    Директива host Является корректной только для робота Яндекса

    Использование в Disallow символов подстановки

    Иногда хочется написать что-то вроде:

    User-agent: *
    Disallow: file*.html

    для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).

    Плохой стиль

    Комментарии на одной строке с инструкциями

    По стандарту, такая запись вполне возможна:

    Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin

    В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.

    Редирект на страницу 404-й ошибки:

    Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robots.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.

    Заглавные буквы – это плохой стиль

    USER-AGENT: GOOGLEBOT
    DISALLOW:

    Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.

    User-agent: googlebot
    Disallow:

    Перечисление всех файлов

    Еще одной ошибкой является перечисление каждого файла в директории:

    User-agent: *
    Disallow: /AL/Alabama.html
    Disallow: /AL/AR.html
    Disallow: /Az/AZ.html
    Disallow: /Az/bali.html
    Disallow: /Az/bed-breakfast.html

    Вместо этого можно просто закрыть от индексации директорию целиком:

    User-agent: *
    Disallow: /AL/
    Disallow: /Az/

    Инструкции Allow не существует! [перевод устаревший]

    Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетcя и Гуглом, и Яндексом. Уточняйте по использованию для других роботов.

    Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

    Отдельные роботы (например googlebot) понимают директиву Allow

    Так неправильно:

    User-agent: Yandex
    Disallow: /john/
    Allow: /jane/

    А вот так – правильно:

    User-agent: Yandex
    Disallow: /john/
    Disallow:

    Использование дополнительных директив в секции *

    Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
    То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».

    Так неправильно:

    User-agent: *
    Disallow: /css/
    Host: www.example.com

    А вот так – правильно:

    User-agent: *
    Disallow: /css/

    User-agent: Yandex
    Disallow: /css/
    Host: www.example.com

    Отсутствие инструкции Disallow

    Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».

    Так неправильно:

    User-agent: Yandex
    Host: www.example.com

    Так правильно:

    User-agent: Yandex
    Disallow:
    Host: www.example.com

    Обсуждение этого вопроса на Searchengines.ru

    Отсутствие слешей при указании директории

    Как в этом случае поступит робот?

    User-agent: Yandex
    Disallow: john

    По стандарту, он не будет индексировать файл с именем "john” и директорию с именем "john”. Для указания только директории надо писать так:

    User-agent: Yandex
    Disallow: /john/

    Неправильный http-заголовок

    Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

    Категория: Мои статьи | Добавил: admin (2011-09-24) W
    Просмотров: 531 | Теги: часто встречающиеся в файле robots., Ошибки | Рейтинг: 0.0/0
    Всего комментариев: 0
    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]
    Фотки
    Друзья сайта
  • Партнеры
  • Партнеры
  • Поиск
    ПРО НАС
  • Сообщество :)
    • У нас лучший сайт потому что мы ценим наших посетителей и стараемся угодить вам прежде всего! Ведь именно благодаря вам существует сайт! Большое спасибо тем кто участвует в жизни сайта и помогает материалами и спонсирует на разные мелочи! Вы наверное спросите чем же наш сайт new лучше других? А я вам отвечу тем что он прост как в оформление так и по Низкому количеству рекламы! Мы не бомбим спамом и массовой рекламой что бы заработать на вас хотя бы цент за посещение) У нас всё просто фото альбом он и в Африке фото (Фотографий: 3706) как понимаете (масса картинок позитивных смешных ну самых разных как поняли подборка для всех), новости тут у нас несколько разделов если заметили ( игры, кино, музыка, новости, картинки, сфот ) тут так же всё просто без каких то либо скрытых реклам и прочего! В общем посещая наш сайт гарантируем хорошие настроение и много нужной и полезной информации обновляемая каждый день! Кстати посетите наш каталог статей и форум) У нас нет обязательного условия на регистрацию вас принудительно скрывая ссылки на скачки! + размер информации на нашем сайте уже превысил 986 Mb а это значит что явно и для вас найдется что- то интересное, полезное и занимательное! Да и вообще администрация пойдёт навстречу к вам если у вас будут пожелания по сайту изменить, добавить, удалить и прочее пишите на форуме сделаем всё для вас! Всем кому понравился наш сайт добавляйте нас в закладки соц. сети и блоги, на наших страницах есть кнопка (ПОДЕЛИТЬСЯ) будем вам благодарны!
    Copyright MyCorp stopmp3.ru "софт, игры, кино, фото, новости, музыка, +форум" © 2006 - 2024