Блок «Рекурсия»

Группа: Интернет

Используется для рекурсивного обхода страниц сайта. Например, при парсинге каталогов, имеющих множество категорий и подкатегорий. 

Получая на вход окно браузера и селектор нужных ссылок, блок извлекает ссылки и для каждой из них возвращает уровень вложенности (число, начиная с 1), текст и URL.

Полученный URL от каждой ссылки затем снова может быть использован в браузере, чей контекст снова может быть подан на вход блок. Таким образом, блок предполагает многократные повторные запуски. При каждом новом запуске уровень вложенности найденых ссылок увеличивается.

Работа блока подробно разобрана в видео FlowCrawler: Рекурсивный парсинг категорий

Ниже показан базовый пример схемы с рекурсивным обходом:

Входы

Контекст Указатель на окно браузера
Селектор ссылок Селектор CSS для поиска ссылок в полученном окне браузера

Выходы

Уровень Число, показывающее условный "уровень вложенности" первой найденной ссылки
Текст ссылки Текст первой найденной ссылки
URL ссылки URL первой найденной ссылки