Парсинг сайтов может занимать много времени, особенно если вы используете универсальные инструменты. Но многие из них можно настроить под специфические задачи, чтобы сделать процесс более эффективным. Рассмотрим, как это сделать на примере популярного SEO-парсера.
Первый шаг в настройке парсера — это выбор места хранения данных. Для этого зайдите в меню "Файл" и выберите пункт "Настройки". В выпадающем списке выберите "Тип хранения данных". В этом разделе доступны два варианта:
Затем вернитесь в настройки и выберите "Memory Allocation" для указания количества оперативной памяти, которое система может использовать. Это полезно, если на компьютере параллельно выполняются другие задачи.
Далее необходимо настроить User Agent. Перейдите в меню "Конфигурация" и выберите "User-Agent". Здесь вы можете настроить юзер-агент, который будет использоваться при парсинге сайтов.
Можно выбрать стандартные агенты, например, для мобильных устройств, чтобы парсер маскировался под бота и получал полную информацию без блокировок со стороны сайта.
Теперь настраиваем скорость парсинга. Перейдите в меню "Конфигурация" и выберите пункт "Speed". Здесь можно указать количество потоков, которые будут использоваться при скачивании данных. Для слабых компьютеров оптимально выбрать от 3 до 5 потоков.
Если вам нужно проводить аудит только определенных разделов сайта, настройте их в разделе "Configurations" через пункт "Include". Здесь вы можете ввести путь к нужному разделу, чтобы проверить, будет ли он включен в процесс парсинга.
Если раздел не попадает в выборку, появится уведомление об этом. Чтобы исключить разделы из парсинга, воспользуйтесь пунктом "Exclude".
Перейдите в "Конфигурация", выберите "Spider" и настройте тип сканирования данных. Здесь вы можете выбрать, какие именно данные будут сканироваться, отключая ненужные типы информации.
Если сайт не слишком большой, можете оставить параметры по умолчанию и просканировать все доступные данные.
Для поиска проблемных страниц подключите аккаунт Google. Перейдите в "Конфигурация", затем в "API Access" и выберите Google Search Console. Это позволит быстро находить страницы, на которые не ведут ссылки, и устранять эту проблему.
Далее выберите, как парсер должен работать с файлом robots.txt. В "Конфигурация" выберите одну из следующих опций:
Если вы часто используете одни и те же настройки, рекомендуется сохранить их как базовые. Для этого в меню "Конфигурация" выберите "Save Current Configuration as Default". Также можно создать несколько профилей для различных задач и быстро переключаться между ними.
Если у вас возникнут вопросы или потребуется помощь по настройке SEO-инструментов, пишите в SEO студию "SEO COMPUTER" на email info@seo.computer.
id 4473