Russian Apache Switch to English
Switch to Russian koi8-r
windows=1251
cp-866
iso8859-5
Russian Apache Как это работает Рекоммендации Где взять Как установить Как настроить Статус и поддержка
Краткий обзор FAQ Список рассылки Благодарности Поиск по серверу Powered by Russian Apache
Russian Apache mailing list archive (apache-rus@lists.lexa.ru)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [apache-rus] robots.txt




----- Original Message -----
From: Alex Tutubalin <lexa@lexa.ru>
Sent: 14 декабря 1999 г. 17:08


> On Tue, Dec 14, 1999 at 03:37:55PM +0300, Ilya Segalovich wrote:
> >
> > При этом русские искалки знают
> > про эту проблему и должны мучать алгоритмы автоматического определения
> > кодировок, чтобы на выдаче слить всю эту бяку в один документ.
> 1. Мучать алгоритмы не надо, информация о заголовке выдается в
>    заголовке Content-Type.

К большому сожалению, ни заголовок Content-Type, ни прописанные в теле
документа
<meta http-equiv="content-type" content="text/html; charset=...">
во многих случаях не соответствуют реальной кодировке документа. Именно
поэтому приходится запускать автоопределитель всегда. Так делают ВСЕ русские
искалки.
(Если я ошибаюсь, пусть меня поправят  :-)).

Типичный пример -- провайдер требует размещения персональных страниц в
кодировке "koi8-r", а пользователь, ничтоже сумняшеся, кладет туда
"windows-1251". Второй типичный пример -- www-board-ы с неконтролируемой
смесью кодировок.

> 2. Допустим мы даже договорились, что искалок мы пускаем на одну
>    кодировку. Вопрос - на какую ?

На любую. Какую удобнее мастеру.

>
> >Замечу
> > попутно, что принятая у Вас система попарных перекодирующих таблиц,
> > редактируемых пользователем, приводит к нестандартным, волюнтаристским и
> > некорректным символам в теле документов. Это часто приводит к тому что
> > документы формально отличаются в большей степени, чем позволяет алгоритм
> > сливания, и, таким образом, остаются неслитыми.
> Если бы Russian Apache был действительно русским, то можно было бы
> зашить туда некий стандартный набор таблиц (хотя я и против этого решения
> ибо не считаю себя вправе определять стандарты перекодировок).
> Однако этот программный продукт используется еще и с чешским и украинским
> языками, следовательно механизм установки собственных таблиц выкинуть
нельзя.

А почему бы не разрешить задавать табличку из 128 кодов unicode на каждую
новую кодировку, скрыв все остальное от пользователя. В частности, скрыв
механизм попарных перекодировок (каковые делать все через тот же unicode,
м.б. даже без возможности конфигурирования).

Я прошу прощения, если это уже многократно обсуждалось здесь, я недавно
читаю Ваш list, но мне кажется, такой подход несколько сократит "бардак",
при этом, если все правильно сделать, производительность не пострадает.

>
> Ну и по большому счету - какие таблицы ставить - дело хозяина сайта, в
> очередной раз хочу напомнить сообществу, что я делаю tool, а не готовое
> монолитное решение.

Совершенно верно. Я только констатировал факт "пользовательского произвола и
бардака", прекрасно понимая, что он иногда необходим (когда?).

> >
> > Что касается несчастных западных роботов, ни один из которых не умеет
> > сливать кодировки, то они сейчас покрывают 5-10% русского web-а и потому
для
> > поиска по русским словам не актуальны.
> Неправда однако.
> У меня на www.lexa.ru и на apache.lexa.ru c большим отрывом идет
альтависта
> (от следующего реферера отрыв в разы). Из поисковиков - следующий рамблер,
> потом excite и yandex примерно поровну каждого

Я говорил не про посещаемость, а про охват. Достаточно поискать "русский
апач" на всех этих искалках и посмотреть, сколько находится. А посещаемость
с запада не пострадает, если написать user-agent.

> Я сделаю ссылку на эти рекомендации (на архив рассылки) из FAQ.
> Боюсь, что это максимум того, что можно сделать.
>
> Штука в том, что навязывать какие-то идеи (если они не описаны в
стандартах)
>  - неправильно. Можно делать какие-то рекомендации, но не более того

Спасибо. Согласен. Я как раз про рекомендации и писал.

>
>  Alex
>  p.s. В процессе прикручивания Yandex.Site к apache.lexa.ru я столкнулся
>  с забавной проблемой - если приделать кнопочку "Искать на Яндексе",
>  то есть неплохой шанс запихать их на www.yandex.ru в неправильной
кодировке.
>  Как бы это правильно пофиксить ?
>
============================================================================
=

Напишите, пожалуйста, поподробней по адресу lsurn@comptek.ru Лене Сурниной.
А так ответить информации чуть-чуть не хватает.

Илья


=============================================================================
=               Apache-Rus@lists.lexa.ru mailing list                       =
Mail "unsubscribe apache-rus" to majordomo@lists.lexa.ru if you want to quit.
=       Archive avaliable at http://www.lexa.ru/mail-archive                =






Спонсоры сайта:

[ Russian Apache ] [ Как это работает ] [ Рекомендации ] [ Где взять ] [ Как установить ] [ Как настроить ] [ Статус и поддержка ] [ Краткий обзор ] [ FAQ ] [ Список рассылки ] [ Благодарности ] [ Поиск по серверу ] [ Powered by Russian Apache ] [ Apache-talk archive ]

"Russian Apache" includes software developed by the Apache Group for use in the Apache HTTP server project (http://www.apache.org/) See Apache LICENSE.
Copyright (C) 1995-2001 The Apache Group. All rights reserved.
Copyright (C) 1996 Dm. Kryukov; Copyright (C) 1997-2009 Alex Tutubalin. Design (C) 1998 Max Smolev.