Qt4: распарсить html

Мне нужно средствами Qt вырвать кусок текста (со всеми тегами внутри) из страницы. Сейчас я делаю это регулярными выражениями, но это не очень хорошо. XML распарсить удается хорошо встроенными парсерами, но html посложнее будет. Так как это можно сделать?

0
ktchv - 8 Апрель, 2011 - 09:01
Изображение пользователя ktchv.

можно конечно использовать webkit. но регэкспами проще и быстрее.

0
Eugene - 8 Апрель, 2011 - 09:13
Изображение пользователя Eugene.

XML распарсить удается хорошо встроенными парсерами, но html посложнее будет
HTML ни чуть не сложнее XML! Просто нужно привести HTML код к так называемому "строгому виду". И дальше уже работать с ним как с XML... В репах даже есть специальный пакет для этого (Увы название не помню).

0
Robotex - 8 Апрель, 2011 - 10:32

Т.е. придется использовать стороннее приложение?

0
Eugene - 8 Апрель, 2011 - 10:44
Изображение пользователя Eugene.

Совершенно верно. Пакет называется Tidy. Это валидатор-корректор HTML.
Вот пример использования в парсере Yandex Market: http://tpoxa.com/2008/09/09/marketyandexru-parser/

Отправить комментарий

CAPTCHA на основе изображений
Введите цифры