» » Правильный robots.txt для DLE



Правильный robots.txt для DLE

Автор: dleshablony

19 сентября 2012

Советы по DLE
Правильный robots.txt для Datalife Engine / DLE

Уверен, что и на вашем сайте очень остро стоит проблема дублирования контента. Попытаюсь вам максимально помочь в решении этой проблемы. Давайте представим правильную иерархию страниц сайта на DataLife Engine в индексе поисковой системе, это:

- главная страница;
- категории;
- новости;
- статические страницы.

С главной страницей и статическими страницами все ясно, а вот с категориями и новостями возникают проблемы. Контент повторяется в календаре, каталоге (/catalog/), последних новостях (/lastnews/), новых новостях (/newposts/), облаке тегов (/tags/), в профилях пользователей (/user/) и на страницах сайта вида /page/ с разным уровнем вложенности. И это только с ЧПУ, но этот же наш контент доступен по другим адресам и без использования ЧПУ, а еще есть куча технических страниц, о существовании которых поисковикам лучше не знать.

Ниже я предлагаю Вам мой вариант robots.txt для DataLife Engine, в котором учтены все выше описанные мною замечания:

User-agent: *
Disallow: /*print
Disallow: /user/
Disallow: /backup/
Disallow: /engine/
Disallow: /favorites/
Disallow: /newposts/
Disallow: /lastnews/
Disallow: /catalog/
Disallow: /language/
Disallow: /tags/
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=pm
Disallow: /*do=search
Disallow: /*group=*
Disallow: /addnews.html
Disallow: /search.html
Disallow: /rules.html
Disallow: /2012/
Disallow: /2013/
Disallow: /2014/
Disallow: /2015/

Также для пущей защиты от дублей можно добавить следующие строки:

Disallow: /*.php*
Disallow: /*/page/
Disallow: /tags/*/page/

- Первая строчка запрещает индексирование всех php файлов на сайте (например, отправить личное сообщение, обратная связь и все прочее).
- Вторая строчка запрещает индексацию пейджевых страниц в рубриках.
- Третья строчка запрещает индексирование пейджевых страниц в тегах, Но сама страница тега будет индексироваться, это делается для того, чтобы поисковики давали трафик на эти страницы. Например, по запросу автомобильные шаблоны для DLE этот сайт выходит в выдаче, а если теги были запрещены полностью, то трафика сайт таким образом не получил бы.

Ну а в конце robots.txt, как рекомендует Яндекс, можно прописать строки далее. Только не забудьте прописать название Вашего сайта.

Host: вашсайт.ру
Sitemap: http://вашсайт.ру/sitemap.xml

Просмотры: 16754 Комментарии (0)
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.