Господа Апачевцы.
Здравствуйте.
У меня практическое предложение или призыв -- назовите как хотите,
касающийся русского апача и файла robots.txt. Наболело давно, но собрался
написать только сейчас -- после очередной переписки с вебмастером.
Вкратце суть проблемы:
Русский Апач содержит механизм выдачи одного и того же документа в разных
кодировках под разным URL. Это приводит к следующему бреду:
Все роботы сканируя сетку, перегружают её в несколько раз. А именно, во
столько раз, сколько установлено кодировок. При этом русские искалки знают
про эту проблему и должны мучать алгоритмы автоматического определения
кодировок, чтобы на выдаче слить всю эту бяку в один документ. Замечу
попутно, что принятая у Вас система попарных перекодирующих таблиц,
редактируемых пользователем, приводит к нестандартным, волюнтаристским и
некорректным символам в теле документов. Это часто приводит к тому что
документы формально отличаются в большей степени, чем позволяет алгоритм
сливания, и, таким образом, остаются неслитыми.
Что касается несчастных западных роботов, ни один из которых не умеет
сливать кодировки, то они сейчас покрывают 5-10% русского web-а и потому для
поиска по русским словам не актуальны.
ПРЕДЛОЖЕНИЕ:
Хорошо бы русский apache раздавался с предопределенным robots.txt или с
рекомендациями по его написанию с таким смыслом:
-- В robots.txt на сайтах с русским апачем должны быть запрещены для роботов
все кодировки кроме основной. --
Рекомендация (а может быть кусочек будущей документации или readme):
---------- начало рекомендации -----------------
Если кодировки по портам (или серверам), то надо выдавать на разных портах
(серверах)
РАЗНЫЙ robots.txt. Это значит, во всех файлах robots.txt для всех
портов/серверов, кроме основного, должно быть написано
disallow: /
Если кодировки по директориям, то надо написать один robots.txt, в котором
должны быть строчки
disallow: /alt
disallow: /mac
disallow: /koi
и т.д.
Если все-таки Вам необходимо быть найденным при запросе на западной искалке
по русскому слову в неродной для Вас кодировке (например iso-8859-5), то в
поле user-agent нужно указать yandex aport и rambler.
user-agent: yandex
disallow: ...
user-agent: rambler
disallow: ...
user-agent: aport
disallow: ...
---------------- конец рекомендации --------------------
Илья Сегалович.
iseg@comptek.ru
www.yandex.ru
P.S.
Я позволю себе процитировать письмо от вебмастера, вызвавшее к жизни данное
обращение.
----- Original Message -----
From: Andrey Brindeew <abr_soft@mtu-net.ru>
To: <webadmin@yandex.ru>
Sent: 13 декабря 1999 г. 12:41
Subject: Re[2]: Проблемы с поиском собственного сайта.
> Спасибо за разъяснения, одновременно с Вашим письмом пришла подписка,
> в которой сообщалось, что проиндексировано еще 18 документов.
> ( http://www.yandex.ru/subscribe/view.pl?doc=5157945049103 ) Проблема
> в том, что были проиндексированы все доступные на нашем сайте
> кодировки.
> Кодировка задается не каталогом и даже не именем хоста, а портом на
> сервере. Не подскажете, как запретить роботу индексировать все
> кодировки, кроме одной, например windows-1251, которая расположена по
> адресу http://www.sat.com.ru:801/url-of-the-page. или KOI8-R, которая
> расположена на 802 порту.
> Приятно удивило то, что Яndex удачно распознал, что это всего лишь
> различные кодировки одного и того же файла и сгруппировал их по файлам
> в результатах поиска.
>
> P.S. Не подскажете, можно ли каким-либо способом удалить информацию из
> индекса? Я имею в виду проиндексированный на нашем сайте транслит.
>
> With the best regards, Andrey Brindeew AKA BK_man
=============================================================================
= Apache-Rus@lists.lexa.ru mailing list =
Mail "unsubscribe apache-rus" to majordomo@lists.lexa.ru if you want to quit.
= Archive avaliable at http://www.lexa.ru/mail-archive =
"Russian Apache" includes software developed
by the Apache Group for use in the Apache HTTP server project
(http://www.apache.org/) See
Apache LICENSE.
Copyright (C) 1995-2001 The Apache Group. All rights reserved.
Copyright (C) 1996 Dm. Kryukov; Copyright (C)
1997-2009 Alex Tutubalin. Design (C) 1998 Max Smolev.