Архив рубрики ‘phpquery’

Не работает tagName в phpquery ?

Вторник, 16 марта 2010

При парсинге страницы зачастую попадаются очень интересные задачи. В основном когда блоки расположены один за другим и у них отсутствуют какие-либо признаки в виде классов и атрибутов, но они формируются разными тегами, например чередование тега p и h1. Основным решением при возникновении такой ситуации является перебор всех блоков и определение имен их тегов.
Вроде бы простое решение и все ок! Но Не работает tagName в phpquery ? >

CP1252 в UTF-8, как преобразовать кодировку

Пятница, 25 сентября 2009

i-will-not-assume-untrusted-data-is-valid-utf-8_0

Взял недавно заказ на сбор информации из открытых источников, в просторечии, парсинг сайта. Использовал phpQuery как базу для написания граббера. Клиенту нужен был результат конечный, сам граббер не нужен. Сайтов было несколько, и в общей сложности собрал базу на 20 тысяч записей. Но речь не об этом. При грабе одного из сайтов столкнулся с небольшой проблемой.
CP1252 в UTF-8, как преобразовать кодировку >

QueryTemplates — шаблонизатор с использованием phpQuery

Четверг, 28 мая 2009

Порт jQuery в PHP phpQuery, очень удобная вещь для работы со структурой html документа, как для парсинга так и просто формирования или изменения ее. Именно на изменении структуры и сконцентрирован проект QueryTemplates, представляющий собой щаблонизатор базируемый на phpQuery.
QueryTemplates — шаблонизатор с использованием phpQuery >

phpQuery шпоргалка

Четверг, 30 апреля 2009

Запишу элементарные вещи по phpQuery, своего рода мини справка
phpQuery шпоргалка >

Парсинг контента. Нет ничего проще (phpquery)

Пятница, 24 апреля 2009

Довольно часто попадаются заказы на сбор контента и упаковку его в базу, т.е. парсинг сайтов.

Для решения таких проблем подходят стандартные средства php для парсинга xml-файлов (html является подвидом xml как ни крути, меня вот поправили маленькая поправка: html – не подвид xml, это производная sgml (RFC1866), xml – упрошенный подвид sgml, xhtml – приложение xml и как результат подвид sgml) совместно с регулярными выражениями.
Кода получается много, и после длительного времени разобраться в них становится несовсем просто.

Недавно наткнулся на довольно интереcный порт jQuery в php, на библиотеку под названием phpQuery (http://code.google.com/p/phpquery/).
Парсинг контента. Нет ничего проще (phpquery) >