Парсер title, keywords, description сайтов КМС и РСЯ

Спарсить собрать мета-теги сайтаСпарсить собрать мета-теги сайта

Интернет-маркетологи, директологи, SEO и другие web-специалисты часто сталкивались с задачей парсинга заголовков страниц сайта. Несложно получить заголовки, описания, title, keywords, description и другие мета данные со своего сайта.

Но как эти данные получить с чужих сайтов? Данные с почти любого сайта можно различными инструментами, например:

  • Вручную. Самый бесплатным, честным и всем доступным инструментом является — сбор данных вручную. Шутка;) Но вы можете найти исполнителя, который согласится этим неблагодарным трудом.
  • Десткопная бесплатная программа. Второй метод — это различные программы, Множество различных программ предлагается скачать на компьютер для парсинга. Опасность в том, что все они сомнительные и мы бы не рекомендовали скачивать на свой компьютер неизвестно какой exe-шник с неизвестных ресурсов.
  • Платные программы-парсеры. Третий и четвертый в нашем списке- это платные инструменты и готовые программы. Пожалуй, это самый надежный способ, но он стоит денег и не всегда приемлем для нас.
  • Разработка парсера на заказ. Парсеры заказываются у программистов под конкретные задачи, площадки. Сегодня парсер работает корректно, завтра может перестать работать.
  • Бесплатный онлайн парсер. Мало кто знает, но существует простой способ спарсить заголовки с помощью… внимание — Google Docs! Да, это действительно возможно!

Спарсить и собрать мета-теги сайта в Google Docs

Чтобы спарсить Title нужно прописать формулу

=importxml(A2;«//title») — получаем значение Titles

Чтобы спарсить все Description нужно прописать формулу

=importxml(A2;«//meta[@name=’description’]/@content») — получаем значение Description с указанного сайта

Для сбора Keywords используем

=importxml(A2;«//meta[@name=’keywords’]/@content») — получаем значение Keywords с указанного в ячейке А2 сайта

Есть возможность собрать заголовки H1 со всех страниц

=importxml(A2;«//h1») — получаем значение тега H1 с целевой страницы. В случае, если нужно получить данные тегов H2 и H3 — используйте эту же формулу, только поменяйте параметр тега 

Важно:

Ссылки, которые используются в столбце А нужно указывать с http:// — в противном случае Google Docs может выдать ошибку получения информации.

Таким образом легко получаем данные почти любого сайта и можем использовать для любых целей.

Источник: ссылка

В чем проблема даного способа, а проблема в том что в последнее время скорость роботы google таблиц стала заметно ниже и что б спарсить даные 10тыс. сайтов должно пройти очень много времени.

2)Способ это программа

QIP Shot - Screen 176

Программа, которая будет полезна в первую очередь веб-мастерам, seo-шникам и веб-разработчикам. С помощью программы можно спарсить содержимое тегов title, description, keywords, заголовки H (h1-h5).

Программа принимает на вход список URL’ов (которые при делании можно загрузить из текстового файла) и парсит содержимое, выбранных в настройках, тегов. Для тайтлов существует 4 формата вывода :

– <a href=”URL”>TITLE</a>;
– [URL=URL]TITLE[/URL];
– URL TITLE;
– TITLE;

В зависимости от количества выбранных тегов для парсинга результат выводится в таблицу (при парсинге более одного тега) или текстовый редактор (при парсинге одного тега). Полученные данные можно сохранить в текстовый файл или экспортировать в Excel.

В программе реализована многопоточность, что положительно влияет на скорость работы и отклика. Для удобства пользователей реализованы кнопки стоп, пауза/продолжить.

QIP Shot - Screen 178
QIP Shot - Screen 179

Последний раз как ее тестировал у меня почему то она зависала, возможно у вас заработает.

Скачать: ссылка

3)Последний вариант на сегодня это парсер и анализатор минус слов

Входящие настройки.jpg

Нужно вставить список минус слов (которые никак не относиться к вашей нише, например если вы рекламируете авто, то детские сайты (мультики, гдз, урок) и так далее для вас это минус слова)

В файл excel нужно загрузить список url сайтов которые вы хотите проверить. Загружать нужно в столбец site_url.

таблица.jpg

В столбце keywords будет стоять 1 если наше минус слово встречаеться в title.

Теперь осталось применить фильтр на столбец keywords и у вас будут все площадки которые в своем описание содержат минус слова. Их можно просмотреть или сразу отминусовать в рекламной кампании.

Скачать: ссылка

Если есть вопросы или советы напишите мне

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *