On Tue, Dec 14, 1999 at 03:37:55PM +0300, Ilya Segalovich wrote:
>
> Все роботы сканируя сетку, перегружают её в несколько раз. А именно, во
> столько раз, сколько установлено кодировок. При этом русские искалки знают
> про эту проблему и должны мучать алгоритмы автоматического определения
> кодировок, чтобы на выдаче слить всю эту бяку в один документ.
1. Мучать алгоритмы не надо, информация о заголовке выдается в
заголовке Content-Type.
2. Допустим мы даже договорились, что искалок мы пускаем на одну
кодировку. Вопрос - на какую ?
>Замечу
> попутно, что принятая у Вас система попарных перекодирующих таблиц,
> редактируемых пользователем, приводит к нестандартным, волюнтаристским и
> некорректным символам в теле документов. Это часто приводит к тому что
> документы формально отличаются в большей степени, чем позволяет алгоритм
> сливания, и, таким образом, остаются неслитыми.
Если бы Russian Apache был действительно русским, то можно было бы
зашить туда некий стандартный набор таблиц (хотя я и против этого решения
ибо не считаю себя вправе определять стандарты перекодировок).
Однако этот программный продукт используется еще и с чешским и украинским
языками, следовательно механизм установки собственных таблиц выкинуть нельзя.
Ну и по большому счету - какие таблицы ставить - дело хозяина сайта, в
очередной раз хочу напомнить сообществу, что я делаю tool, а не готовое
монолитное решение.
>
> Что касается несчастных западных роботов, ни один из которых не умеет
> сливать кодировки, то они сейчас покрывают 5-10% русского web-а и потому для
> поиска по русским словам не актуальны.
Неправда однако.
У меня на www.lexa.ru и на apache.lexa.ru c большим отрывом идет альтависта
(от следующего реферера отрыв в разы). Из поисковиков - следующий рамблер,
потом excite и yandex примерно поровну каждого
>
> ПРЕДЛОЖЕНИЕ:
> Хорошо бы русский apache раздавался с предопределенным robots.txt или с
> рекомендациями по его написанию с таким смыслом:
Я сделаю ссылку на эти рекомендации (на архив рассылки) из FAQ.
Боюсь, что это максимум того, что можно сделать.
Штука в том, что навязывать какие-то идеи (если они не описаны в стандартах)
- неправильно. Можно делать какие-то рекомендации, но не более того
Alex
p.s. В процессе прикручивания Yandex.Site к apache.lexa.ru я столкнулся
с забавной проблемой - если приделать кнопочку "Искать на Яндексе",
то есть неплохой шанс запихать их на www.yandex.ru в неправильной кодировке.
Как бы это правильно пофиксить ?
=============================================================================
= Apache-Rus@lists.lexa.ru mailing list =
Mail "unsubscribe apache-rus" to majordomo@lists.lexa.ru if you want to quit.
= Archive avaliable at http://www.lexa.ru/mail-archive =
"Russian Apache" includes software developed
by the Apache Group for use in the Apache HTTP server project
(http://www.apache.org/) See
Apache LICENSE.
Copyright (C) 1995-2001 The Apache Group. All rights reserved.
Copyright (C) 1996 Dm. Kryukov; Copyright (C)
1997-2009 Alex Tutubalin. Design (C) 1998 Max Smolev.