Базовая настройка SEO-парсера: пошаговая инструкция

Парсинг сайтов может занимать много времени, особенно если вы используете универсальные инструменты. Но многие из них можно настроить под специфические задачи, чтобы сделать процесс более эффективным. Рассмотрим, как это сделать на примере популярного SEO-парсера.

    Место хранения данных;User Agent;Скорость парсинга;Разделы парсинга;Что парсить;Доступы к аккаунту;robots.txt;Сохранение настроек.

Настройка места хранения данных

Первый шаг в настройке парсера — это выбор места хранения данных. Для этого зайдите в меню "Файл" и выберите пункт "Настройки". В выпадающем списке выберите "Тип хранения данных". В этом разделе доступны два варианта:

    В оперативной памяти. Это подходит для быстрого скачивания, если у вас достаточно оперативной памяти, но ограничено место на жестком диске. Однако для работы с крупными сайтами этого может быть недостаточно.
    На жестком диске. В этом случае вы выбираете путь для хранения данных. Процесс будет медленнее, но файлы займут меньше оперативной памяти.

Затем вернитесь в настройки и выберите "Memory Allocation" для указания количества оперативной памяти, которое система может использовать. Это полезно, если на компьютере параллельно выполняются другие задачи.

Настройка User Agent

Далее необходимо настроить User Agent. Перейдите в меню "Конфигурация" и выберите "User-Agent". Здесь вы можете настроить юзер-агент, который будет использоваться при парсинге сайтов.

Можно выбрать стандартные агенты, например, для мобильных устройств, чтобы парсер маскировался под бота и получал полную информацию без блокировок со стороны сайта.

Настройка скорости парсинга

Теперь настраиваем скорость парсинга. Перейдите в меню "Конфигурация" и выберите пункт "Speed". Здесь можно указать количество потоков, которые будут использоваться при скачивании данных. Для слабых компьютеров оптимально выбрать от 3 до 5 потоков.

Настройка разделов для парсинга

Если вам нужно проводить аудит только определенных разделов сайта, настройте их в разделе "Configurations" через пункт "Include". Здесь вы можете ввести путь к нужному разделу, чтобы проверить, будет ли он включен в процесс парсинга.

Если раздел не попадает в выборку, появится уведомление об этом. Чтобы исключить разделы из парсинга, воспользуйтесь пунктом "Exclude".

Настройка Spider Crawl

Перейдите в "Конфигурация", выберите "Spider" и настройте тип сканирования данных. Здесь вы можете выбрать, какие именно данные будут сканироваться, отключая ненужные типы информации.

Если сайт не слишком большой, можете оставить параметры по умолчанию и просканировать все доступные данные.

Подключение аккаунта Google

Для поиска проблемных страниц подключите аккаунт Google. Перейдите в "Конфигурация", затем в "API Access" и выберите Google Search Console. Это позволит быстро находить страницы, на которые не ведут ссылки, и устранять эту проблему.

Настройка работы с robots.txt

Далее выберите, как парсер должен работать с файлом robots.txt. В "Конфигурация" выберите одну из следующих опций:

    Ignore – если нужно проанализировать весь сайт;
    Respect – если парсер должен соблюдать правила robots.txt;
    Ignore robots.txt but report status – если нужно получать данные о статусе страниц.

Сохранение настроек

Если вы часто используете одни и те же настройки, рекомендуется сохранить их как базовые. Для этого в меню "Конфигурация" выберите "Save Current Configuration as Default". Также можно создать несколько профилей для различных задач и быстро переключаться между ними.

Если у вас возникнут вопросы или потребуется помощь по настройке SEO-инструментов, пишите в SEO студию "SEO COMPUTER" на email info@seo.computer.

id 4473

Отправьте заявку и мы предоставим консультацию на SEO продвижение вашего сайта