Мне нужно средствами Qt вырвать кусок текста (со всеми тегами внутри) из страницы. Сейчас я делаю это регулярными выражениями, но это не очень хорошо. XML распарсить удается хорошо встроенными парсерами, но html посложнее будет. Так как это можно сделать?
можно конечно использовать webkit. но регэкспами проще и быстрее.
HTML ни чуть не сложнее XML! Просто нужно привести HTML код к так называемому "строгому виду". И дальше уже работать с ним как с XML... В репах даже есть специальный пакет для этого (Увы название не помню).
Т.е. придется использовать стороннее приложение?
Совершенно верно. Пакет называется Tidy. Это валидатор-корректор HTML.
Вот пример использования в парсере Yandex Market: http://tpoxa.com/2008/09/09/marketyandexru-parser/
Отправить комментарий