Возникла необходимость собрать для себя базу данных с сайта https://fonetika.su
Вспомнил, что у меня есть FlowCrawler, но не смог даже написать проект, потому что при запуске браузера у меня на любой странице сайта ошибка 403 "доступ запрещен". Менял ip, использовал VPN, менял user agent, ничего не помогло. Через обычные браузеры всё в полном порядке, никак не смог повторить эту ошибку стандартными средствами.
Я пришел к выводу, что какая-то защитная система сервера срабатывает на FlowCrawler (скорее всего, на какой-то его компонент). Что-то похожее было на Авито, когда сайт просто не выдавал номера телефонов.
Очевидно, что проект парсера заморожен на неопределенный срок, поэтому FlowCrawler снова отправляется пылиться на полку.