Запрос Правильный и актуальный robots.txt

vova

Проверенный
Сообщения
43
Симпатии
10
Баллы
3
#1
Создаю тему так как в интернете нет адекватного описания robots.txt для xenforo
Прошу Админов ресурса xenforotest.ru уделить внимание данному вопросу.
Предлагаю создать тему с правильным и актуальным примером robots.txt
На одном из ресурсов посвященному другому движку есть тема про robots.txt
в которой все расписано до мелочей, посещаемость темы очень большая.
Вот мой файл:
#XenForum
Disallow: */index.php?tags*
Disallow: /xenforum/tags/
Disallow: /xenforum/admin.php
Disallow: /xenforum/members/
Disallow: /xenforum/online/
Disallow: /xenforum/posts/
Disallow: /xenforum/help/
Disallow: /xenforum/login/
Disallow: /xenforum/find-new/
Disallow: /xenforum/search/
Disallow: /xenforum/search.php
Disallow: /xenforum/lost-password/
Disallow: /xenforum/register.html
Disallow: /xenforum/register
Disallow: /xenforum/attachments/
Disallow: /xenforum/birthdays/
Disallow: /xenforum/conversations/
Disallow: /xenforum/misc/
Disallow: /xenforum/recent-activity/

Я знаю что в нем не хватает некоторых запретов по этому прошу опытных, составить правильный файл для форумов на основе xenforo

Хорошим примером будет следующий код
Код составлен для другого движка и для xenforo не применим

Запрет / разрешение для гугла.
User-agent: Googlebot
Allow: /forum/*sitemap # разрешает индексирование карты сайта / форума
Allow: /forum/*arcade
Allow: /forum/*rss
Allow: /forum/*action=forum
Allow: /forum/*type=rss
Allow: /forum/Themes/*.css
Allow: /forum/Themes/*.js
Allow: /forum/Themes/*png
Allow: /forum/Themes/*gif
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /*PHPSESSID
Disallow: /forum/*go.php

Запрет / разрешение для яндекса.
User-agent: Yandex
Allow: /forum/*sitemap
Allow: /forum/*arcade # пример открытия для индексации установленной модификации
Allow: /forum/*rss
Allow: /forum/*action=forum # для тех у кого портал
Allow: /forum/*type=rss
Allow: /forum/Themes/*.css
Allow: /forum/Themes/*.js
Allow: /forum/Themes/*png
Allow: /forum/Themes/*gif
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /*PHPSESSID
Disallow: /forum/*go.php
Disallow: /index.php$ # можно удалить в принципе, закрывает дубль главной, поисковик сам со временем поклеет
 

Sergey Miroshnichenko

Проверенный
Сообщения
21
Симпатии
12
Баллы
3
#2
Предлагаю создать тему с правильным и актуальным примером robots.txt
У каждого свои цели и задачи. Свой набор плагинов и свой конфиг настроек. Наверно поэтому до сих пор нет универсального robots.txt, который бы идеально подошёл под все форумы.
А чем плох вариант

Пожалуйста, Войдите или Зарегистрируйтесь для просмотра скрытого текста.

.. Его если только чем-то и дополнять, то только какими-то запретами... Но смысл что-то кроме того, что там вписано ещё закрывать?.. Не знаю, мне кажется не стоит настолько с этим заморачиваться...
 

vova

Проверенный
Сообщения
43
Симпатии
10
Баллы
3
#3
У каждого свои цели и задачи. Свой набор плагинов и свой конфиг настроек. Наверно поэтому до сих пор нет универсального robots.txt, который бы идеально подошёл под все форумы.
А чем плох вариант

Пожалуйста, Войдите или Зарегистрируйтесь для просмотра скрытого текста.

.. Его если только чем-то и дополнять, то только какими-то запретами... Но смысл что-то кроме того, что там вписано ещё закрывать?.. Не знаю, мне кажется не стоит настолько с этим заморачиваться...
Представленный вариант не подходит, и к сожалению не нравиться он не мне а поисковым системам.
Создать универсальный файл нельзя, но можно создать файл в котором будет исключено то что нужно исключить по любому.
Например страницу логина,
страницу с метками,
страницу с авторизацией
и т д...
 

Lenchi

Местный
Сообщения
230
Симпатии
262
Баллы
63
#4
А чем плох вариант

Пожалуйста, Войдите или Зарегистрируйтесь для просмотра скрытого текста.

..
Подобные ресурсы могут не заморачиваться настройкой индексации - в силу авторитетности и уникальности информации с точки зрения поисковых систем.
 

Sergey Miroshnichenko

Проверенный
Сообщения
21
Симпатии
12
Баллы
3
#5
Представленный вариант не подходит, и к сожалению не нравиться он не мне а поисковым системам.
Подобные ресурсы могут не заморачиваться настройкой индексации - в силу авторитетности и уникальности информации с точки зрения поисковых систем.
Я вас понял, спасибо. Тогда мне бы тоже хотелось разобраться в вопросе. Давайте составим robots для чистого Xenforo хотя бы.
А User-agent: * ?.. Или на другие поисковики плевать?.. И зачем разделять, нельзя просто для всех роботов прописать правила?.. Отличий вроде нет...
 

vova

Проверенный
Сообщения
43
Симпатии
10
Баллы
3
#6
Я вас понял, спасибо. Тогда мне бы тоже хотелось разобраться в вопросе. Давайте составим robots для чистого Xenforo хотя бы.


А User-agent: * ?.. Или на другие поисковики плевать?.. И зачем разделять, нельзя просто для всех роботов прописать правила?.. Отличий вроде нет...
Есть небольшие отличия для гугла и яндекса,
Я всегда исхожу из принципа "Если делать, то делать сразу правильно и хорошо"
 

hugo

Забаненный
Сообщения
135
Симпатии
51
Баллы
28
#7
адекватного описания robots.txt для xenforo
Робот он и в Африке будет роботом, какая разница, хоть ХреньФоро или СловесныйПресс и даже Битрикс. есть команда, элой т.е. пустить и дизэлой — отказать. Робот не человек — не пустили он не обидится и больше не зайдет пока его не заЭлоить вновь.:cool:
принципа "Если делать, то делать сразу правильно и хорошо"
:D Хороший принцип, — а зачем тогда утруждать себя, создавать метки?! :Geek:
 

Lenchi

Местный
Сообщения
230
Симпатии
262
Баллы
63
#8
Робот не человек — не пустили он не обидится и больше не зайдет пока его не заЭлоить вновь.:cool:
Вообще-то robots.txt - это не запрет, а рекомендация индексации. Бот может полностью его игнорировать. Например бот MegaIndex.ru отправляется перманентный бан из-за своего агрессивного поведения и игнорирования файла robots.txt.
 

vova

Проверенный
Сообщения
43
Симпатии
10
Баллы
3
#9
Робот он и в Африке будет роботом, какая разница, хоть ХреньФоро или СловесныйПресс и даже Битрикс. есть команда, элой т.е. пустить и дизэлой — отказать. Робот не человек — не пустили он не обидится и больше не зайдет пока его не заЭлоить вновь.:cool:


:D Хороший принцип, — а зачем тогда утруждать себя, создавать метки?! :Geek:
Вот видите а Вы не в курсе что Disallow: /xenforum/tags/ закрывает доступ поисковикам не к меткам а в раздел поиска меток, так как по выбору метки форум создает страницу без кейвордса и дескрипшена, яндекс и гугл не любит такие страницы, по факту это результат поиска.
 

vova

Проверенный
Сообщения
43
Симпатии
10
Баллы
3
#10
То что встречается чаще всего
HTML:
Disallow: /register.html
Disallow: /forum/account/
Disallow: /forum/attachments/
Disallow: /forum/birthdays/
Disallow: /forum/conversations/
Disallow: /forum/find-new/
Disallow: /forum/forums/*/?direction
Disallow: /forum/forums/*/?order
Disallow: /forum/forums/*/mark-read?date
Disallow: /forum/forums/*/page-*?order
Disallow: /forum/help/
Disallow: /forum/login/
Disallow: /forum/lost-password/
Disallow: /forum/members/
Disallow: /forum/misc/
Disallow: /forum/online/
Disallow: /forum/pages/privacy/
Disallow: /forum/posts/
Disallow: /forum/recent-activity/
Disallow: /forum/register
Disallow: /forum/resources/?order
Disallow: /forum/resources/*/download?version
Disallow: /forum/resources/*/history
Disallow: /forum/resources/*/update?resource_update_id
Disallow: /forum/resources/authors/
Disallow: /forum/resources/categories/*/?order
Disallow: /forum/search
Disallow: /forum/search.php
Disallow: /forum/threads/*/poll
Disallow: /forum/WhoHasVisited/
 

SOUL

АдминкА
Администратор
Сообщения
6.548
Симпатии
9.810
Баллы
266
#11
next вообще удалил robots.txt, а я, например, добавила Disallow: /cdn-cgi/ из-за ситуации, описанной здесь Заметка - Яндекс выкинул из индекса почти все страницы форума
Теперь наш роботс выглядит так:
Код:
User-agent: *
Disallow: /cdn-cgi/
Disallow: /find-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /posts/
Disallow: /login/
Disallow: /admin.php
Allow: /

Sitemap: http://xenforotest.ru/sitemap.php
Думаю, его составление всё-таки должно быть индивидуальным, в зависимости от установленных плагинов и пр.
 

X-Oleg

Местный
Сообщения
588
Симпатии
618
Баллы
93
#12
host ещё нужно прописать для Яндекса:

Пожалуйста, Войдите или Зарегистрируйтесь для просмотра скрытого текста.



А так можно и без Disallow обойтись, тогда индексация просто дольше будет, я например отключаю индексацию профилей, поиска и т.д. ! :)
 

X-Oleg

Местный
Сообщения
588
Симпатии
618
Баллы
93
#14
Вот если кому интересно результат правильного робота и правильной карты сайта
Согласен, основные инструменты для меня это роботс, сайтмап + монеторинг доступа ботов в вебмастере...:)

Всё остальное это реклама, ну либо статьи на профильных сайтах, если сайт не дерьмо = профит в виде пользователей и хорошая посещалка ! ;)
 

GERAsimov

Проверенный
Сообщения
39
Симпатии
24
Баллы
3
#15
Роботс не запрещает индексировать. Он рекомендует не показывать в выдаче. Но на это поисковикам часто плевать.
Вот например:
offtop e1c3477635.png


X-Oleg, Как рекомендация к выдаче влияет на скорость индексации? Посмотрите логи сервера. Перестал ли робот ходить по вашим Disallow разделам?

Про разделение правил для разных ПС много написано советов, но на практике не видел от этого пользы. Особенно, когда правила абсолютно одинаковы!

Все изображения надо загружать на наш форум!
 
Последнее редактирование модератором:

SOUL

АдминкА
Администратор
Сообщения
6.548
Симпатии
9.810
Баллы
266
#16
Роботс не запрещает индексировать. Он рекомендует не показывать в выдаче. Но на это поисковикам часто плевать.
Для XenForo есть ещё такое решение Плагин - Robots , в описании которого разработчик отметил, что 99 % всех роботов игнорируют файл robots.txt.
 

X-Oleg

Местный
Сообщения
588
Симпатии
618
Баллы
93
#17
Роботс не запрещает индексировать. Он рекомендует не показывать в выдаче. Но на это поисковикам часто плевать.
О каких роботах идет речь ?

Если яндекс, то там явно в правилах сказанно, что директива Disallow это требование запретить индексировать, не рекомендация, а именно требование, у гугла тоже самое.

Иначе зачем тогда в вообще роботс ?

Что там с другими роботами, я незнаю.

И еще яндекс глючный стал, приходится постоянно общаться с тп.

Как пример, у меня в начале яндекс принял за главное зеркало нетот сайт и удалил половину выдачи, после переписки вроде выдачу восстановили, но в выдачи теперь два домена одного сайта, после переписки, оказалось что у них какой-то там сбой, вот часть переписки:

Здравствуйте!

Благодарим Вас за ожидание. К сожалению, в данном случае расклейка сайтов произошла из-за временных технических неполадок на нашей стороне. От Вас никаких действий по исправлению данной ситуации не требуется, сайты автоматически склеятся в группу зеркал согласно текущим указаниям примерно через 3 недели. Приносим свои искренние извинения за возможные неудобства и надеемся на понимание.


Может и в вашем случаеичто-то похожее, но индексировать не должны, если речь про яндекс/гугл !
 

inv.trick

Пользователь
Сообщения
9
Симпатии
2
Баллы
3
#18
next вообще удалил robots.txt, а я, например, добавила Disallow: /cdn-cgi/ из-за ситуации, описанной здесь Заметка - Яндекс выкинул из индекса почти все страницы форума
Теперь наш роботс выглядит так:
Код:
User-agent: *
Disallow: /cdn-cgi/
Disallow: /find-new/
Disallow: /account/
Disallow: /attachments/
Disallow: /goto/
Disallow: /posts/
Disallow: /login/
Disallow: /admin.php
Allow: /

Sitemap: http://xenforotest.ru/sitemap.php
Думаю, его составление всё-таки должно быть индивидуальным, в зависимости от установленных плагинов и пр.
А можно небольшую справочку зачем блокировать эти разделы для индексации?
По странице входа в админку и cdn-cgi понятно. По остальному не понятно.
У топик стартера вообще сумасшедший список. Действительно ли это всё имеет смысл и нужно заморачиваться?
 

X-Oleg

Местный
Сообщения
588
Симпатии
618
Баллы
93
#19
Первая запись связана с клоудфларе, где-то была тема где это обсуждалось;

Вторая запись, поиск постов, зачем его индексировать?

Третья-четвертая запись мемберы и аттачи, тут тоже ненужна индексация.

Пятая-шестая запись это отображение новых постов, но точно не помню, так-то тоже не особо нужно их в индекс добовлять.

Седьмая запись форма регистрации !

Можно не заморачиваться с этим, а прописать хост и путь к сайтмапу и все, по следующим причинам:

1)Это влияет в основном на скорость индексации, т.е. при правильно составленном роботс, просто скоорость индексации будет быстрее, НО если не уверены в себе, можно сделать только хуже;

2)У ксени из коробки в новых версиях уже много чего есть, например запрет индексации подписей и т.д., в общем роботс необязателен, как я сказал достаточно прописать хостс и сайтмап.
 

GERAsimov

Проверенный
Сообщения
39
Симпатии
24
Баллы
3
#20
КАК вы ассоциируете скорость индексации с правилами роботса???
Поставьте дизалов для теста на какой-то раздел.
Откройте логи спустя неделю.
И удивитесь... Робот ВСЕ равно ходит по всем вашим страницам!

Давным давно проверено, что роботс не гарантия...

Гораздо лучше (меньше попадания в выдачу)meta тэг noindex, nofollow
<meta name="robots" content="noindex, nofollow">
Но иногда на данных страницах не показывается адсенс)

Я к тому, что роботс не снимает нагрузку с сайта. Правильнее делать реврайтами вебсервера. Есть в нете готовые примеры запрета доступа различных роботов. А так де НАСТОЯЩИЙ таймаут для доступа к сайтам.
НО! Скорость доступа паука к странице участвует в ранжировании сайта.
Имхо, лучше правильный кэш, а не заморачивания с роботсом.
 
Вверх Снизу