Russian Apache Switch to English
Switch to Russian koi8-r
windows=1251
cp-866
iso8859-5
Russian Apache Как это работает Рекоммендации Где взять Как установить Как настроить Статус и поддержка
Краткий обзор FAQ Список рассылки Благодарности Поиск по серверу Powered by Russian Apache
Russian Apache mailing list archive (apache-rus@lists.lexa.ru)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[apache-rus] robots.txt



Господа Апачевцы.

Здравствуйте.

У меня практическое предложение или призыв -- назовите как хотите,
касающийся русского апача и файла robots.txt. Наболело давно, но собрался
написать только сейчас -- после очередной переписки с вебмастером.

Вкратце суть проблемы:
Русский Апач содержит механизм выдачи одного и того же документа в разных
кодировках под разным URL. Это приводит к следующему бреду:

Все роботы сканируя сетку, перегружают её в несколько раз. А именно, во
столько раз, сколько установлено кодировок. При этом русские искалки знают
про эту проблему и должны мучать алгоритмы автоматического определения
кодировок, чтобы на выдаче слить всю эту бяку в один документ. Замечу
попутно, что принятая у Вас система попарных перекодирующих таблиц,
редактируемых пользователем, приводит к нестандартным, волюнтаристским и
некорректным символам в теле документов. Это часто приводит к тому что
документы формально отличаются в большей степени, чем позволяет алгоритм
сливания, и, таким образом, остаются неслитыми.

Что касается несчастных западных роботов, ни один из которых не умеет
сливать кодировки, то они сейчас покрывают 5-10% русского web-а и потому для
поиска по русским словам не актуальны.

ПРЕДЛОЖЕНИЕ:
Хорошо бы русский apache раздавался с предопределенным robots.txt или с
рекомендациями по его написанию с таким смыслом:

-- В robots.txt на сайтах с русским апачем должны быть запрещены для роботов
все кодировки кроме основной. --

Рекомендация (а может быть кусочек будущей документации или readme):

---------- начало рекомендации -----------------

Если кодировки по портам (или серверам), то надо выдавать на разных портах
(серверах)
РАЗНЫЙ robots.txt. Это значит, во всех файлах robots.txt для всех
портов/серверов, кроме основного, должно быть написано
disallow: /

Если кодировки по директориям, то надо написать один robots.txt, в котором
должны быть строчки

disallow: /alt
disallow: /mac
disallow: /koi
и т.д.

Если все-таки Вам необходимо быть найденным при запросе на западной искалке
по русскому слову в неродной для Вас кодировке (например iso-8859-5), то в
поле user-agent нужно указать yandex aport и rambler.

user-agent: yandex
disallow: ...

user-agent: rambler
disallow: ...

user-agent: aport
disallow: ...

---------------- конец рекомендации --------------------

Илья Сегалович.
iseg@comptek.ru
www.yandex.ru

P.S.
Я позволю себе процитировать письмо от вебмастера, вызвавшее к жизни данное
обращение.

----- Original Message -----
From: Andrey Brindeew <abr_soft@mtu-net.ru>
To: <webadmin@yandex.ru>
Sent: 13 декабря 1999 г. 12:41
Subject: Re[2]: Проблемы с поиском собственного сайта.

> Спасибо  за разъяснения, одновременно с Вашим письмом пришла подписка,
> в  которой  сообщалось,  что  проиндексировано  еще  18  документов.
> ( http://www.yandex.ru/subscribe/view.pl?doc=5157945049103 ) Проблема
> в том, что были проиндексированы все доступные на нашем сайте
> кодировки.
> Кодировка  задается  не  каталогом и даже не именем хоста, а портом на
> сервере.   Не  подскажете,  как  запретить  роботу  индексировать  все
> кодировки,  кроме одной, например windows-1251, которая расположена по
> адресу  http://www.sat.com.ru:801/url-of-the-page. или KOI8-R, которая
> расположена на 802 порту.
> Приятно  удивило  то,  что  Яndex удачно распознал, что это всего лишь
> различные кодировки одного и того же файла и сгруппировал их по файлам
> в результатах поиска.
>
> P.S. Не подскажете, можно ли каким-либо способом удалить информацию из
> индекса? Я имею в виду проиндексированный на нашем сайте транслит.
>
> With the best regards, Andrey Brindeew AKA BK_man



=============================================================================
=               Apache-Rus@lists.lexa.ru mailing list                       =
Mail "unsubscribe apache-rus" to majordomo@lists.lexa.ru if you want to quit.
=       Archive avaliable at http://www.lexa.ru/mail-archive                =






Спонсоры сайта:

[ Russian Apache ] [ Как это работает ] [ Рекомендации ] [ Где взять ] [ Как установить ] [ Как настроить ] [ Статус и поддержка ] [ Краткий обзор ] [ FAQ ] [ Список рассылки ] [ Благодарности ] [ Поиск по серверу ] [ Powered by Russian Apache ] [ Apache-talk archive ]

"Russian Apache" includes software developed by the Apache Group for use in the Apache HTTP server project (http://www.apache.org/) See Apache LICENSE.
Copyright (C) 1995-2001 The Apache Group. All rights reserved.
Copyright (C) 1996 Dm. Kryukov; Copyright (C) 1997-2009 Alex Tutubalin. Design (C) 1998 Max Smolev.