Qt4: распарсить html

Программирование

Robotex - 8 Апрель, 2011 - 08:34

Мне нужно средствами Qt вырвать кусок текста (со всеми тегами внутри) из страницы. Сейчас я делаю это регулярными выражениями, но это не очень хорошо. XML распарсить удается хорошо встроенными парсерами, но html посложнее будет. Так как это можно сделать?

ktchv - 8 Апрель, 2011 - 09:01

можно конечно использовать webkit. но регэкспами проще и быстрее.

ответить

Eugene - 8 Апрель, 2011 - 09:13

XML распарсить удается хорошо встроенными парсерами, но html посложнее будет
HTML ни чуть не сложнее XML! Просто нужно привести HTML код к так называемому "строгому виду". И дальше уже работать с ним как с XML... В репах даже есть специальный пакет для этого (Увы название не помню).

ответить

Robotex - 8 Апрель, 2011 - 10:32

Т.е. придется использовать стороннее приложение?

ответить

Eugene - 8 Апрель, 2011 - 10:44

Совершенно верно. Пакет называется Tidy. Это валидатор-корректор HTML.
Вот пример использования в парсере Yandex Market: http://tpoxa.com/2008/09/09/marketyandexru-parser/

ответить

Отправить комментарий

Qt4: распарсить html

Отправить комментарий

Вход в систему

Сейчас на сайте