Victor Wagner wrote:
>
> > > не справляется. Из-за обилия в нем всяческих <xml>.
> > А что, на <xml> натравить XML-процессор не пробовал?
>
> А нафига? Мне же нужно содержание документа, а не то, что Word думает о
> его внешнем виде.
М-м-м, а при чем тут внешний вид? (я не совсем в курсе,чего там Ворд в
XML хранить задумал, но вообще-то XML - не для внешнего вида). Проверить
к сожалению не на чем.
> s!<xml>.*?</xml>!!is на него натравить надо.
Так это и делается при помощи 5 строк на XSL + упомянутый процессор.
> Содержанием с моей точки являются
> 1. текст
> 2. низкоуровневые шрифтовые выделения <b><u><i><em>
> 3. Списки
> 4. Разбиение по параграфам и заголовки <h[1-6]>. Последних в html из-под
> Word почти не бывает, так как большинство пользователей ворда не
> подозревают о существовании стилей.
Угу. Поубивал бы...
> 5. Гиперссылки
> 6. Таблицы. Включая выравнивание внутри ячеек, но исключая bgcolor.
=============================================================================
= Apache-Talk@xxxxxxxxxxxxx mailing list =
Mail "unsubscribe apache-talk" to majordomo@xxxxxxxxxxxxx if you want to quit.
= Archive avaliable at http://www.lexa.ru/apache-talk =
"Russian Apache" includes software developed
by the Apache Group for use in the Apache HTTP server project
(http://www.apache.org/) See
Apache LICENSE.
Copyright (C) 1995-2001 The Apache Group. All rights reserved.
Copyright (C) 1996 Dm. Kryukov; Copyright (C)
1997-2009 Alex Tutubalin. Design (C) 1998 Max Smolev.