Описание: |
Приветствую.
Нужно сделать crawler\poster для cms datalife engine
Суть такая:
Парсить meta данные со страницы с последующим автопостингом
Скрипт собирает страницы для парсинга с указанной страницы донора
собирает ссылки по указателю class or xpath.
проверяет все ли ссылки соответствуют домену донора, если нет удаляются такие ссылки.
далее проходим по всем ссылкам и собираем мету title, description, keywords, og:, twitter:, analytics: итд - все что касается титла, описания, рубрик и категорий, тэгов и кейвордов, ссылок на источник, дат добавления публикации.
дату нужно преобразовать в обычный вид типа 2022-10-20 19:38:03
при постинге проверяем есть ли такая новость по title.
если нет, добавляем новость, определенные данные (выборка из меты) заводим в базу cms.
если ссылки закончились повторяем процедуру сбора и постинга.
по плану поставить скрипт на крон. |