Выпускник онлайн-курса «Python для анализа данных» Виталий Бахвалов уже начал применять полученные знания в работе. В своем блоге он опубликовал статью, в которой рассказал, как проводить парсинг объявлений конкурентов в Яндекс.Директе. С его разрешения публикуем ее у нас.
Об авторе
Виталий Бахвалов работает в сфере недвижимости и занимается привлечением клиентов. Своим опытом делится в блоге «Большие выводы на маленьких выборках».

Предисловие от SkillFactory
Есть три способа провести парсинг объявлений конкурентов: вручную, с помощью сервисов и используя собственные инструменты.
Парсинг вручную. Это идеальный вариант, если ключевых фраз немного: бесплатно и надежно. Но чаще всего используются десятки, сотни, а то и тысячи ключевых фраз. Ручной парсинг займет не один день — ведь необходимо просмотреть все объявления по каждой ключевой фразе.
С помощью сервисов. Сервисы ускоряют процесс. Но большинство платные и парсят выдачу далеко не по всем регионам — ограничиваются Москвой и Санкт-Петербургом, либо страной. Например, если нужно проанализировать объявления конкурентов в Сургуте, с помощью сервисов сделать это не получится.
Используя собственный инструмент. Под этим подразумевается скрипт, который приспособлен к вашим задачам и выдает именно тот результат, который вам нужен. Его плюс в том, что вы не зависите от сторонних сервисов и не тратите время и силы на анализ вручную.
На «Курсе по Python для анализа данных» Виталий научился создавать подобные инструменты, поэтому сумел написать скрипт для парсинга объявлений конкурентов в Директе по любому региону. Что делает скрипт и как им пользоваться, Виталий рассказывает уже сам.

Что делает скрипт
Берет файл со списком запросов:

Каждый запрос вбивает в Яндекс и записывает заголовки, тексты и отображаемые ссылки рекламных объявлений в CSV-файл. В итоге получаем вот такую табличку с данными по каждому запросу из файла:

И ещё вот такую, со сводными данными:

Как сделать
Скачайте скрипт и файл с запросами. Сохраните в отдельную папку.
Скачайте Питон 3.6, установите и запустите Anaconda Navigator. Во вкладке Jupiter Notebook нажмите Launch.

Там выберите папку со скачанными файлами и файл .ipynb:

В коде задайте минус-слова:

Регион:

Количество рекламных блоков:

Жмите Shift + Enter (или Run из меню) для каждой ячейки — фишка Jupiter Notebook в том, что код выполняется пошагово. Когда дойдете до шага «Основной цикл» — придется подождать. Скрипт будет писать, какой запрос он сейчас обрабатывает:

Далее формируете датафрейм и записываете в CSV-файл. Как всё будет готово, появится табличка с первыми пятью строками результата и файл в папке со скриптом.

Для получения сводной таблицы запустите последние ячейки:

Оригинал статьи: Парсим объявления конкурентов в Директе