Парсить на вордпресс все статью из rss. Бесплатный парсер контента — AftParser. Парсит данные по ссылкам

Парсер для WordPress — это настройка Datacol, предназначенная для сбора контента (новости, статьи, обзоры и т.п.) с дальнейшим экспортом в CMS WordPress.

В этом примере экспорт полученного контента осуществляется в . Результаты по каждому посту сохраняются в отдельный файл, название которого генерируется на базе названия поста, а содержимое — на базе спарсенной информации. Также можно настроить прямой экспорт в ваш блог на WordPress. Как это сделать показано на видео.

Проверить работу парсера для WordPress можно бесплатно в демо-версии программы.
Основные преимущества парсера для WordPress на базе Datacol это:

  • Возможность донастройки парсинга для WordPress конкретно под ваши нужды (вами либо ).
  • Возможность , дополнительно обработать собранные данные с помощью плагинов а также загружать их в .
  • Возможность цикличного запуска кампаний. Когда результаты выполнения первой задачи парсинга будут входными данными для второй задачи по сбору данных. Подробнее .

Как используется парсер для WordPress?

Если вы создали блог, то спустя какое-то время вам становится ясно, что для его продвижения постоянно нужен новый уникальный контент. А самостоятельно писать статьи и наполнять сайт вручную становится лень. Но где же взять новый контент? Рано или поздно приходит время, когда хочется прибегнуть к автоблоггингу. Проще говоря, использовать парсер, который будет публиковать нужную нам информацию самостоятельно. Справиться с этой задачей нам поможет парсер контента для WordPress.

Все сайты когда-либо создавались с нуля. Но если целью вашего сайта является предоставление информации, он станет интересным только тогда, когда объем информации превысит определенное количество. Парсер блогов WordPress – это прекрасное решение для подобной задачи. С его помощью вы сможете за короткое время догнать конкурентов, существенно расширив каталог информации сайта. Парсер WordPress может быть реализован в виде граббера для WordPress с конкретного сайта.

Парсер для блога WordPress может помочь в решении множества задач, вот некоторые из них:
— первичное наполнение ресурса (парсер сайтов для WordPress позволит в кратчайшие сроки провести наполнение блога информацией с нуля до необходимого объема);
— создание автонаполняемого блога (парсер WordPress сможет обеспечить регулярное автообновление содержимого сайта)
— публикация контента “по расписанию” (вы можете запланировать время добавления постов на ваш сайт)

Массовый постинг в WordPress

Парсер для WordPress, представленный в Datacol является наглядным примером применения парсера для массового постинга. Он позволяет автоматически получать контент и публиковать его на своем блоге. Процесс парсинга WordPress можно разделить на несколько этапов:

1) Процесс сбора контента. Парсер для Вордпресс собирает необходимую информацию по каждому посту блога: заголовок, контент (загружается с картинками, которые сохраняются на ваш компьютер для дальнейшей загрузки по FTP на ваш сервер), категория, автор и ссылка, с которой происходил сбор данных (URL).

2) Сохранение информации, собранной парсером для WordPress. После парсинга собранная информация сохраняется TXT файлы (каждый пост сохраняется в отдельный текстовый файл), имена которых генерируются в соответствии с названием поста.

3) Экспорт WordPress. Также есть возможность прямого экспорта спарсенной информации в ваш блог на WordPress. Это делает процесс наполнения очень быстрым и исключает возможность ошибок, связанных с человеческим фактором. Возможность экспорта в Вордпресс предусмотрена в базовом функционале программы. Вам нужно указать в настройках программы параметры подключения к своему блогу и задать данные для экспорта (заголовок, контент, категорию и т. д.)

4) Обработка информации. При желании собранную в процессе парсинга WordPress информацию можно обрабатывать (например, подвергать автоматическому переводу или синонимизации). Эти возможности реализуются при помощи плагинов.

Чем спарсить сайт на Вордпресс?

Вы можете не только публиковать спарсенную информацию в WordPress, но и можете парсить с него. Задача использования чужих WordPress блогов, как источника контента для своих блогов, возникает довольно часто. Для ее решения вам поможет парсер сайтов на WordPress. Алгоритм работы парсера сайтов на WordPress аналогичен вышеописанному.

Преимущества парсера сайтов WordPress

Вы уже наверняка убедились в том, что парсер блогов WordPress поможет вам не тратить много времени и сил на ручное наполнение своего блога. Благодаря нему вы сможете не только автоматизировать свою работу, но и повысите ее эффективность. Скачать парсер для WordPress, реализованный в рамках Datacol можно по

Тестирование парсера блога

Чтобы протестировать работу парсера блога:

Шаг 2. В дереве кампаний присутствует кампания content-parsers/kolchaka-net.par. Выберите ее и нажмите кнопку Запуск (Play). Перед запуском вы можете отредактировать Входные данные. Так вы сможете задать ссылку на блог или на страницы блога, с которых будете парсить контент.

Шаг 3. Дождитесь появления результатов работы парсера блогов. После появления результатов можно принудительно остановить парсинг (нажав кнопку Стоп).

кликните на изображении для увеличения

Шаг 4. После окончания/принудительной остановки парсера в папке Мои документы можно найти текстовые файлы (каждый пост сохраняется в отдельный файл), названия которых генерируются на базе названий постов:

кликните на изображении для увеличения

Cфер деятельности, где может применяться парсер, довольно много, но в основном это сбор различной информацию. Быстро собрать картинки и ссылки можно только программно. Применение парсера для поиска информации позволяет автоматизировать это процесс, значительно экономя время. Если у вас есть сайт на wordpress, то вы легко сможете его сделать автонаполняемым с помощью AftParser парсера.

— это бесплатный, универсальный парсер для WordPress. позволяет собирать контент с одного или разных источников, обрабатывая его под нужный формат на языке PHP. Парсер сделан в виде плагина для WordPress. После обычной установки плагина в консоли wordpress появится меню парсера, как на картинке.

В парсере реализовано два основных инструмента: парсер сайтов wordpress и rss парсер wordpress.

Парсер для WordPress умеет:

1.Парсит данные по ссылкам

Надо лишь указать ссылки на источник. Если нет ссылок их можно собрать парсером. Укажите путь до карты сайта и граббер соберет все ссылки. Или можно собрать ссылки с любой html страницы. Ссылки можно отфильтровывать по нужным критериям. Присутствует два фильтра ссылок с помощью которых можно менять условия парсинга. Опытные пользователи могут сами составлять макросы для парсинга, что делает парсер очень гибким под свои нужды.

2.Парсит данные RSS лент

Здесь все просто, вводите нужный URL ленты и нажимаете начать парсинг.
Одно из возможных применений парсера для wordpress, это наполнение новостных колонок у себя на сайте, используя такие источники информации, как блоги, rss ленты, страницы вконтакте и тд. Конкуренты - WP-O-Matic, FeedWordPress, CyberSyn.

Представляю вам универсальный WordPress граббер WP UniParser . Данный плагин является универсальным настраиваемым парсером . При создании постов плагин может осуществлять перевод контента через сервис Google Translate, используя любые языковые пары.

Отзывы покупателей

Тема на серче, где было около 6-7 отзывов, была удалена модераторами (мол продукт не удовлетворяет правилам форума). Тем не менее один отзыв можно почитать на форуме мульнета и армаде . Также есть отзывы от блоггеров: вот и вот . Совсем недавно еще случайно наткнулся на отзыв .

Основная функциональность

Созданный мною плагин WP UniParser умеет делать следующее:
вытягивать контент из сайтов на любых движках (парсер настраивается с помощью регулярных выражений и строк ограничений, настройка очень проста, я все объясню и покажу, кроме того, к нему есть );
вырезать из контента скрипты, комментарии, ссылки, формы, рисунки, спаны, объекты, а также любые заданные вами фрагменты.
планировать публикацию постов;
ложить распарсенные материалы в определенную вами категорию (или случайно распределять по категориям);
осуществлять автоматический перевод (в любою сторону) на любых языках, которые поддерживает Google Translate.

С набором функций плагина можно подробнее ознакомиться на скриншоте его админки:

Также для полного понимания работы универсального граббера стоит .

Достаточно мощный универсальный парсер для WordPress. Позволяет собирать контент с одного или нескольких источников и обрабатывать его, подгоняя под требуемый формат используя все возможности языка PHP. Присутствует возможность отложенного парсинга. Лучший бесплатный парсер для wordpress на этот момент — AftParser всегда к вашим услугам!

Краткое описание функционала:

Парсер состоит из 4х страниц: Главной страницы, Страницы парсера ссылок, Страницы парсера RSS лент и страницы настроек. Вот как все это будет выглядеть после установки:

Внимание: Как настроить AftParser можно прочитать .

Начнем с главной страницы. На ней отображается список парсеров, запущенных в данный момент.

На каждой странице в блоках указаны пояснения. Вся документация поставляется из коробки, достаточно внимательно почитать, чтобы все стало ясно.

Парсер сайтов:

Страница парсера сайтов позволяет парсить данные как с одного, так и с нескольких источников. Необходимо лишь указать ссылки на материалы.

Что? Лень копаться по сети и в ручную собирать материалы? Не отчаивайтесь — все автоматизировано.

Есть два инструмента, которые позволяют наполнять список ссылок в автоматичском режиме.

— своеобразная эмуляция поисковой системы. Робот будет сам ходить по страницам переданного в него сайта и собирать с них все внутренние ссылки.

Естественно, список ссылок, наполненный автоматическими алгоритмами будет сильно засорен ненужными данными. И тут вам на помощ приходят фильтры.

— самый что ни на есть простой и быстрый способ фильтрации. Вы вбиваете условия и фильтр сам выполняет обработку.

Продвинутый фильтр ссылок — фильтр ссылок, позволяющий менять их содержимое и делать еще кучу самых разных вещей. Только для опытных пользователей. Советую выучить php, перед тем, как там то-либо делать.

Если вы выполнили сбор ссылок, то следующим шагом будет — добавление границ контента.

С помощью этих границ парсер будет определять участки, которые необходимо обрабатывать.

Подсветка синтаксиса реализована средствами javascript редактора ACE. Вся документация и все доступные функции приводятся на странице плагина. Список очень внушителен и привести его тут я не могу, так как этот материал и так получается очень длинным. Просто установите плагин и прочитайте, вы будете впечатлены, я гарантирую это.

Примерно так-же выглядит и страница парсера rss лент , с той лишь разницей, что там не требуется приводить списки ссылок.

Иногда нет смысла тратить время на самостоятельное написание текста для сайта WordPress. Этот случай не касается блогов и инфосайтов, так как доход на них формируется как раз благодаря размещенным постам.

А речь идет об интернет-магазинах, сайтах компаний и новостных порталах, не рассчитанных на органический трафик. Вот для таких ресурсов уникальные материалы – это не так важно, как их постоянное обновление.

Чтобы сделать автонаполняемый сайт, вам понадобится настроить парсер новостей для вашего проекта. Для начала необходимо найти подходящие площадки, с которых вы будете парсить. Они должны соответствовать тематике вашего проекта, иначе нет смысла дублировать с них информацию. Если это так, тогда необходимо приступить ко второй части решения вопроса парсинга – это каким образом вы будете клонировать текст с другого сайта. Самый примитивный и неудобный способ – это ручное копирование. Но куда разумнее воспользоваться одним из приведенных в данной статье плагином, чтобы активировать удачный парсер новостей и контента.

WP-O-Matic

Весьма популярный модуль для WordPress, который позволит вам настроить функциональный парсер новостей с других площадок. Устанавливается инструмент самым простым способом: либо через загрузку напрямую в папку на хостинге, либо через вкладку “Плагины”.

Далее вам предстоит настроить работу плагину, если хотите обеспечить парсинг контента. Для этого достаточно четыре раза нажать “Next” и в конце “Submit”. Таким образом, вы подтвердите согласие с правилами пользования данным модулем WordPress. В частности, согласитесь с тем, что только вы несете ответственность за кражу чужих материалов, содержания других сайтов и т. д.

Если кроме текстовой составляющей вас еще интересуют картинки, тогда необходимо создать в папке с плагином директорию под названием Cache. Установите особые права доступа к этой папке. Далее вам предстоит вернуться в админку WordPress. Зайдите в настройки плагина и внимательно посмотрите, нет ли галочки около пункта Unix cron. Вам необходимо утвердительно отметить пункт Cache Image, чтобы парсер новостей также копировал и картинки к вам на ресурс.

Модуль WP-O-Matic хорош тем, что работает на любой странице сайта. Вы сможете добавить отдельную рубрику, если хотите, чтобы список новостей и контента, который предоставил парсер, отображался именно там. Для этого предварительно создайте необходимую рубрику. Затем в адмике WordPress в настройках инструмента WP-O-Matic нажмите Add Campaign. В строке Categories отметьте галочкой созданную вами специальную рубрику. А в форме Feeds пропишите RSS ленты, которую вы собрались парсить. Вы сможете прописать сразу несколько URL для лент, чтобы парсер текста собирал информацию сразу с трех или даже четырех ресурсов.

И еще один огромный плюс в сторону плагина WP-O-Matic – это автоматическая публикация материала. Вам не придется ежечасно заходить в админку WordPress, чтобы менять статус постов на “Опубликованный”. Модуль сделает это самостоятельно. И если пожелаете, он может уникализировать текст через специальный механизм синонимизации. В этом ключевое отличие данного инструмент от его конкурента – плагина FeedWordPress.

Datacol

Это функциональный граббер, который подходит не только для движка WordPress. Это не просто парсер текста страниц сайта – это умное приложение, которое позволяет фильтровать копируемый материал. К примеру, вы сможете размещать только статьи, в которых есть определенные ключевые слова. Сможете дублировать новости прямо из Яндекса. Клонированные материалы будут экспортироваться в одном из 15 доступных форматов. Сервис соберет не только текст, но и заголовки, фотографии, дату публикации, ссылки и прочие важные данные.

Но Datacol распространяется на платной основе. Однако, он куда дешевле, чем если бы вы заказывали материал на сайт через биржи. Стоит приложение меньше 500 рублей и его можно использовать практически для любого движка. Есть демо-версия.

FDE Grabber

Еще один платный парсер с большим числом функций. Это уже из разряда дорогих грабберов, так как обойдется он примерно в 90 долларов. Но использовать его можно будет сразу на 10 серверах, то есть в теории разные вебмастера могут скинуться по 9 долларов, удешевив таким образом покупку.

FDE Grabber – это не совсем плагин для WordPress. Разработчики называют свое творение автономной системой, которая работает независимо от типа CMS, установленной на сайте. Основные возможности этой системы парсинга:

  • выкачка полномасштабных новостей или отдельных фрагметов;
  • можно планировать публикации;
  • если хотите уникализировать дублируемый материал, есть встроенная функция синонимайза;
  • можно работать через прокси-серверы;
  • парсинг способен обходить редиректы, которые для других плагинов могут стать проблемой;
  • можно автоматически скачать все содержимое с сайта и переместить на вашу площадку (если дело касается не новостных порталов);

Вы сможете настроить парсинг полностью по собственному усмотрению, так как у программы есть возможность внедрения микропрограмм для коррекции работы. К примеру, так можно настроить особенности выравнивания и оформления копируемого материала. Также вы сможете добавить параметры noindex и nofollow для всех ссылок, которые будут в тексте страницы. Парсер даже позволяет копировать и автоматически переводить статьи с иностранных ресурсов. Это отличный способ создать постоянный поток контента на ваши страницы, который со временем начнет привлекать посетителей!