Всем привет. . Пришлось мне столкнутся со страшным зверем: ЯМом.(Яндекс Маркетом). Под спойлером - немного предыстории:
Задача состоит в том что нужно собрать все модели, модификации и их характеристики предложения всех магазинов по модификациям. %) Я и рад бы не изобретать велосипед, но пока его не нашел готовый и уже практически закончил свой :D Тут есть надстройка для сбора цен по существующему списку. но мне нужно собрать весь каталог. Кроме того:
Цитата
Продажа программы прекращена 14 мая 2015 года, ввиду нерентабельности техподдержки
Есть у меня чудная прога:Teleport Pro. Обычно я ею собираю с сайтов инфу - а потом парсю уже скачанные файлы. Но для этого случая она не подходит, поскольку структура сайта не "папочная" + сразу ЯМ ее банит. API - очень дорого - фирма не будет столько платить
С построением алгоритма и правильных ссылок - вроде разобрался. Программа работает. Но есть одно НО: При большом количестве запросов случаются баны. Для их обхода использую прокси серверы + таймаут, но и это не на долго помогает. Сначала Яндекс выдает капчу, но потом хуже - на сколько я понял происходит блокирование сервера, поскольку практически сразу все прокси начинают "сыпаться" Что интересно, разные способы запроса - работают по разному: WinHttp.WinHttpRequest.5.1 - самый быстрый, но и валится первым и практически не поднимается MSXML2.ServerXMLHTTP.6.0 - как то через раз срабатывает. InternetExplorer.Application - дольше всего отрабатывает, но самый живучий. еще аналог последнего: встроенный браузер: Последний я всунул в форму, чтобы можно было (удобно) вводить капчу. Для сбора сейчас проверка идет в вышеприведенной последовательности. Собственно вопрос: как или чем (ручками не предлагать ) можно собрать информацию с ЯМ чтобы избежать блокирования. По моим подсчетам для сбора всей инфы по шинам - нужно примерно 100 000 запросов. * 2а региона. И такое каждый месяц . Примера пока нет, поскольку на данный момент вопрос больше теоретический.
Всем привет. . Пришлось мне столкнутся со страшным зверем: ЯМом.(Яндекс Маркетом). Под спойлером - немного предыстории:
Задача состоит в том что нужно собрать все модели, модификации и их характеристики предложения всех магазинов по модификациям. %) Я и рад бы не изобретать велосипед, но пока его не нашел готовый и уже практически закончил свой :D Тут есть надстройка для сбора цен по существующему списку. но мне нужно собрать весь каталог. Кроме того:
Цитата
Продажа программы прекращена 14 мая 2015 года, ввиду нерентабельности техподдержки
Есть у меня чудная прога:Teleport Pro. Обычно я ею собираю с сайтов инфу - а потом парсю уже скачанные файлы. Но для этого случая она не подходит, поскольку структура сайта не "папочная" + сразу ЯМ ее банит. API - очень дорого - фирма не будет столько платить
С построением алгоритма и правильных ссылок - вроде разобрался. Программа работает. Но есть одно НО: При большом количестве запросов случаются баны. Для их обхода использую прокси серверы + таймаут, но и это не на долго помогает. Сначала Яндекс выдает капчу, но потом хуже - на сколько я понял происходит блокирование сервера, поскольку практически сразу все прокси начинают "сыпаться" Что интересно, разные способы запроса - работают по разному: WinHttp.WinHttpRequest.5.1 - самый быстрый, но и валится первым и практически не поднимается MSXML2.ServerXMLHTTP.6.0 - как то через раз срабатывает. InternetExplorer.Application - дольше всего отрабатывает, но самый живучий. еще аналог последнего: встроенный браузер: Последний я всунул в форму, чтобы можно было (удобно) вводить капчу. Для сбора сейчас проверка идет в вышеприведенной последовательности. Собственно вопрос: как или чем (ручками не предлагать ) можно собрать информацию с ЯМ чтобы избежать блокирования. По моим подсчетам для сбора всей инфы по шинам - нужно примерно 100 000 запросов. * 2а региона. И такое каждый месяц . Примера пока нет, поскольку на данный момент вопрос больше теоретический.SLAVICK
Спасибо. Смотрели . На нее в первую очередь - я до последнего пытался не влезать в это дело. У нас сейчас с 1С-ником игра - кто первый победит ЯМа . Я ему ее и скинул месяц назад, и он на ее основе тоже сделал парсинг. Проблема в том что она уже не первой свежести - ЯМ уже наменял все по десять раз - самое главное защиту усилил.
Саму программу уже и я и наш 1С-ник сделали. НО Там та же проблема - делаешь 1000-2000 тыщи запросов и начинается веселье - а нам нужно 100 000. .
Спасибо. Смотрели . На нее в первую очередь - я до последнего пытался не влезать в это дело. У нас сейчас с 1С-ником игра - кто первый победит ЯМа . Я ему ее и скинул месяц назад, и он на ее основе тоже сделал парсинг. Проблема в том что она уже не первой свежести - ЯМ уже наменял все по десять раз - самое главное защиту усилил.
Саму программу уже и я и наш 1С-ник сделали. НО Там та же проблема - делаешь 1000-2000 тыщи запросов и начинается веселье - а нам нужно 100 000. .SLAVICK