----- Original Message -----
From: Alex Tutubalin <lexa@lexa.ru>
Sent: 14 декабря 1999 г. 17:08
> On Tue, Dec 14, 1999 at 03:37:55PM +0300, Ilya Segalovich wrote:
> >
> > При этом русские искалки знают
> > про эту проблему и должны мучать алгоритмы автоматического определения
> > кодировок, чтобы на выдаче слить всю эту бяку в один документ.
> 1. Мучать алгоритмы не надо, информация о заголовке выдается в
> заголовке Content-Type.
К большому сожалению, ни заголовок Content-Type, ни прописанные в теле
документа
<meta http-equiv="content-type" content="text/html; charset=...">
во многих случаях не соответствуют реальной кодировке документа. Именно
поэтому приходится запускать автоопределитель всегда. Так делают ВСЕ русские
искалки.
(Если я ошибаюсь, пусть меня поправят :-)).
Типичный пример -- провайдер требует размещения персональных страниц в
кодировке "koi8-r", а пользователь, ничтоже сумняшеся, кладет туда
"windows-1251". Второй типичный пример -- www-board-ы с неконтролируемой
смесью кодировок.
> 2. Допустим мы даже договорились, что искалок мы пускаем на одну
> кодировку. Вопрос - на какую ?
На любую. Какую удобнее мастеру.
>
> >Замечу
> > попутно, что принятая у Вас система попарных перекодирующих таблиц,
> > редактируемых пользователем, приводит к нестандартным, волюнтаристским и
> > некорректным символам в теле документов. Это часто приводит к тому что
> > документы формально отличаются в большей степени, чем позволяет алгоритм
> > сливания, и, таким образом, остаются неслитыми.
> Если бы Russian Apache был действительно русским, то можно было бы
> зашить туда некий стандартный набор таблиц (хотя я и против этого решения
> ибо не считаю себя вправе определять стандарты перекодировок).
> Однако этот программный продукт используется еще и с чешским и украинским
> языками, следовательно механизм установки собственных таблиц выкинуть
нельзя.
А почему бы не разрешить задавать табличку из 128 кодов unicode на каждую
новую кодировку, скрыв все остальное от пользователя. В частности, скрыв
механизм попарных перекодировок (каковые делать все через тот же unicode,
м.б. даже без возможности конфигурирования).
Я прошу прощения, если это уже многократно обсуждалось здесь, я недавно
читаю Ваш list, но мне кажется, такой подход несколько сократит "бардак",
при этом, если все правильно сделать, производительность не пострадает.
>
> Ну и по большому счету - какие таблицы ставить - дело хозяина сайта, в
> очередной раз хочу напомнить сообществу, что я делаю tool, а не готовое
> монолитное решение.
Совершенно верно. Я только констатировал факт "пользовательского произвола и
бардака", прекрасно понимая, что он иногда необходим (когда?).
> >
> > Что касается несчастных западных роботов, ни один из которых не умеет
> > сливать кодировки, то они сейчас покрывают 5-10% русского web-а и потому
для
> > поиска по русским словам не актуальны.
> Неправда однако.
> У меня на www.lexa.ru и на apache.lexa.ru c большим отрывом идет
альтависта
> (от следующего реферера отрыв в разы). Из поисковиков - следующий рамблер,
> потом excite и yandex примерно поровну каждого
Я говорил не про посещаемость, а про охват. Достаточно поискать "русский
апач" на всех этих искалках и посмотреть, сколько находится. А посещаемость
с запада не пострадает, если написать user-agent.
> Я сделаю ссылку на эти рекомендации (на архив рассылки) из FAQ.
> Боюсь, что это максимум того, что можно сделать.
>
> Штука в том, что навязывать какие-то идеи (если они не описаны в
стандартах)
> - неправильно. Можно делать какие-то рекомендации, но не более того
Спасибо. Согласен. Я как раз про рекомендации и писал.
>
> Alex
> p.s. В процессе прикручивания Yandex.Site к apache.lexa.ru я столкнулся
> с забавной проблемой - если приделать кнопочку "Искать на Яндексе",
> то есть неплохой шанс запихать их на www.yandex.ru в неправильной
кодировке.
> Как бы это правильно пофиксить ?
>
============================================================================
=
Напишите, пожалуйста, поподробней по адресу lsurn@comptek.ru Лене Сурниной.
А так ответить информации чуть-чуть не хватает.
Илья
=============================================================================
= Apache-Rus@lists.lexa.ru mailing list =
Mail "unsubscribe apache-rus" to majordomo@lists.lexa.ru if you want to quit.
= Archive avaliable at http://www.lexa.ru/mail-archive =
"Russian Apache" includes software developed
by the Apache Group for use in the Apache HTTP server project
(http://www.apache.org/) See
Apache LICENSE.
Copyright (C) 1995-2001 The Apache Group. All rights reserved.
Copyright (C) 1996 Dm. Kryukov; Copyright (C)
1997-2009 Alex Tutubalin. Design (C) 1998 Max Smolev.