Парсер объявлений недвижимости сайта http://aviso.ua
Назначение программы-парсера
Программа предназначена для заливки объявлений недвижимости сайта http://aviso.ua на какой-либо информационный ресурс, например на сайт, содержащий объявления по недвижимости, либо в базу данных какого либо CRM.
Помните:
"Использование материалов, публикуемых в газетах и на сайте Aviso®, другими изданиями, сайтами или как источник данных для каких-либо программных средств, кроме веб-браузеров, запрещено!"
Технические требования
Пограмма-парсер написана на языке PHP, версии 4.0.2 и выше с использованием библиотеки CURL.
Содержимое программы-парсера
Парсер состоит из восьми файлов, находящихся в одной директории:
- .htaccess — файл с настройками для директории
- aviso_rubrics.php — файл содержащий девять массивов связывающих идентификаторы рубрик на сайте с их описанием.
- parser_aviso_friday.php — файл парсер объявлений изданий "Aviso-Киев", "Aviso-Черкассы"
- parser_aviso_monday.php — файл парсер объявлений изданий "Aviso-Одесса", "Aviso-Житомир"
- parser_aviso_thursday.php — файл парсер объявлений изданий "Aviso-Киев - синий выпуск", "Aviso-Ровно"
- parser_aviso_tuesday.php — файл парсер объявлений изданий "Aviso-Киев", "Aviso-Днепропетровск"
- parser_aviso_wednesday.php — файл парсер объявлений издания "Львівські оголошення-Львов"
- parser_aviso_sunday.php — файл парсер объявлений издания "Aviso-Харьков"
Рубрики изданий Авизо
- «Aviso-Киев» - рубрики Aviso-Киев
- «Aviso-Киев - синий выпуск» - рубрики Aviso-Киев - синий выпуск
- «Aviso-Днепропетровск» - рубрики Aviso-Днепропетровск
- «Aviso-Житомир» - рубрики Aviso-Житомир
- «Львівські оголошення-Львов» - рубрики Львівські оголошення-Львов
- «Aviso-Одесса» - рубрики Aviso-Одесса
- «Aviso-Ровно» - рубрики Aviso-Ровно
- «Aviso-Харьков» - рубрики Aviso-Харьков
- «Aviso-Черкассы» - рубрики Aviso-Черкассы
Краткое описание работы
На сайте http://aviso.ua содержатся объявления печатных номеров газет и соответствущие их рубрикам объявления. Всего имеется девять печатных номеров:
- Aviso-Киев, дни выхода — вторник, пятница
- Aviso-Киев - синий выпуск, день выхода — чеиверг
- Aviso-Днепропетровск, день выхода — вторник
- Aviso-Житомир, день выхода — понедельник
- Львівські оголошення-Львов, день выхода — среда
- Aviso-Одесса, день выхода — понедельник
- Aviso-Ровно, день выхода — четверг
- Aviso-Харьков, день выхода — воскресенье
- Aviso-Черкассы, день выхода — пятница (хотя на сайте написано "понедельник")
С технической точки зрения, каждый файл (всего шесть основных файлов) можно запускать в любой день недели. Но, если Вы хотите получать объявления сразу после появления их на сайте aviso.ua, то каждый файл необходимо запускать в соответствующий ему день недели: parser_aviso_monday.php — в понедельник, parser_aviso_tuesday.php — во вторник, parser_aviso_wednesday.php — в среду, parser_aviso_thursday.php — в четверг, parser_aviso_friday.php — в пятницу, parser_aviso_sunday.php — в воскресенье.
Каждый из перечисленых файлов создает временный XML файл — aviso_realty.xml, следующей структуры:
<adverts issue="-2147467479">
<advert>
<rubric>15804</rubric>
<date>2010-07-20</date>
<url>http://aviso.ua/a/cn.aspx?r=15804&i=-2147467479&pg=4</url>
<text>Комсомольская ул., р-н Ленина ул., 4/9-эт. кирп. дома, 33/18/7.5 кв.м, хорошее состояние, 45000 у.е. </text>
<phones>(56) 7883591, (66) 5603061</phones>
</advert>
<advert>
<rubric>15804</rubric>
<date>2010-07-20</date>
<url>http://aviso.ua/a/cn.aspx?r=15804&i=-2147467479&pg=4</url>
<text>Комсомольская ул 1/3-эт. дома, 33 кв.м, подъезд на Комсомольскую ул., окна металлопластиковые, ролеты, новая электропроводка, батареи, сантехника, гипсокартон, полы, отделка под покупателя, своя. </text>
<phones>(98) 6840518</phones>
<photo>http://aviso.ua/a/photo/2010/7/-2147467479/-2073786616.jpg</photo>
</advert>
<advert>
<rubric>15804</rubric>
<date>2010-07-20</date>
<url>http://aviso.ua/a/cn.aspx?r=15804&i=-2147467479&pg=4</url>
<text>Комсомольская ул 33/22/0 кв.м, высотка, новый евро ремонт, 1 комнатная переделана в 2 комн, кухня студия 7886147, 45000у.е. </text>
<phones>(50) 9418414</phones>
</advert>
<advert>
<rubric>15804</rubric>
<date>2010-07-20</date>
<url>http://aviso.ua/a/cn.aspx?r=15804&i=-2147467479&pg=4</url>
<text>Короленко ул., 1 этаж, комната 17 кв.м, под офис, недорого. </text>
<phones>(67) 7068348</phones>
</advert>
...
</adverts>
Описание формата XML файла
Все данные файла заключены в тэг adverts. Данные о каждом объявлениии находятся в тэге advert. Тэг advert в свою очередь содержит такие теги: rubric, date, url, text (обязательные — всегда присутствуют), phones, email, web, address, photo, photoagency (дополнительные — теги могут отсутствовать).
Тэг rubric содержит идентификатор рубрики объявления. Все идентификаторы с описанием рубрик находятся в файле aviso_rubrics.php. Также можете просмотреть описания рубрик на сайте: рубрики Aviso-Киев, рубрики Aviso-Киев - синий выпуск, рубрики Aviso-Днепропетровск, рубрики Aviso-Житомир, рубрики Львівські оголошення-Львов, рубрики Aviso-Одесса, рубрики Aviso-Ровно, рубрики Aviso-Харьков, рубрики Aviso-Черкассы.
Тэг date содержит дату выхода издания, содержащего объявление. Дата записывается в формате типа SQL DATE — YYYY-mm-dd.
Тэг url содержит ссылку на страницу сайта aviso.ua, содержащую объявление.
Тэг text содержит основную информацию объявления.
Тэг phones содержит список телефонов контактного лица, возможно с дополнительной информацией.
Тэг email содержит E-mail адрес контактного лица.
Тэг web содержит адрес Веб-страницы контактного лица.
Тэг address содержит физический адрес контактного лица.
Тэг photo содержит ссылку на изображение к объявлению — схему объекта недвижимости либо фотографию.
Тэг photoagency содержит ссылку на рекламное изображение, как правило для объявлений услуг рекламных агенств.
Тэги добавленые в версии 1.1 (все теги могут отсутствовать)
price - цена
currency - валюта
priceFor - цена за (за объект, за квадратный метр и т.д.)
floor - этаж (для квартир)
floors - этажность
sqTotal - общая площадь, значение указано в кв.м
sqLiving - жилая площадь, значение указано в кв.м
sqKitchen - площадь кухни, значение указано в кв.м
sqLand - площадь участка в сотках
street - название улици с рубрикатором
Сохранение данных
После создания XML файла необходимо сохраненить объявления. Для этого необходимо создать файл-импорт. Этот файл универсальным быть не может. Для его создания воспользуйтесь файлом aviso_rubrics.php, содержащим описательную информацию о рубриках. В XML файле каждое объявление содержит идентификатор рубрики (в тэге rubric). В файле aviso_rubrics.php содержится информация о каждой рубрике в удобном для программиста формате.
Приобретение парсера (350 грн.)
По вопросам приобретения и настройки программы парсера обращаться:
- Тел.: (095)590-49-91, Александр
- E-mail: evrth2me@gmail.com
