При парсинге страницы зачастую попадаются очень интересные задачи. В основном когда блоки расположены один за другим и у них отсутствуют какие-либо признаки в виде классов и атрибутов, но они формируются разными тегами, например чередование тега p и h1. Основным решением при возникновении такой ситуации является перебор всех блоков и определение имен их тегов.
Вроде бы простое решение и все ок! Но Не работает tagName в phpquery ? >
Архив рубрики ‘phpquery’
Не работает tagName в phpquery ?
Вторник, 16 марта 2010CP1252 в UTF-8, как преобразовать кодировку
Пятница, 25 сентября 2009Взял недавно заказ на сбор информации из открытых источников, в просторечии, парсинг сайта. Использовал phpQuery как базу для написания граббера. Клиенту нужен был результат конечный, сам граббер не нужен. Сайтов было несколько, и в общей сложности собрал базу на 20 тысяч записей. Но речь не об этом. При грабе одного из сайтов столкнулся с небольшой проблемой.
CP1252 в UTF-8, как преобразовать кодировку >
QueryTemplates — шаблонизатор с использованием phpQuery
Четверг, 28 мая 2009Порт jQuery в PHP phpQuery, очень удобная вещь для работы со структурой html документа, как для парсинга так и просто формирования или изменения ее. Именно на изменении структуры и сконцентрирован проект QueryTemplates, представляющий собой щаблонизатор базируемый на phpQuery.
QueryTemplates — шаблонизатор с использованием phpQuery >
phpQuery шпоргалка
Четверг, 30 апреля 2009Запишу элементарные вещи по phpQuery, своего рода мини справка
phpQuery шпоргалка >
Парсинг контента. Нет ничего проще (phpquery)
Пятница, 24 апреля 2009Довольно часто попадаются заказы на сбор контента и упаковку его в базу, т.е. парсинг сайтов.
Для решения таких проблем подходят стандартные средства php для парсинга xml-файлов (html является подвидом xml как ни крути, меня вот поправили маленькая поправка: html – не подвид xml, это производная sgml (RFC1866), xml – упрошенный подвид sgml, xhtml – приложение xml и как результат подвид sgml) совместно с регулярными выражениями.
Кода получается много, и после длительного времени разобраться в них становится несовсем просто.
Недавно наткнулся на довольно интереcный порт jQuery в php, на библиотеку под названием phpQuery (http://code.google.com/p/phpquery/).
Парсинг контента. Нет ничего проще (phpquery) >
