массовое скачивание страниц из сайта

rodger · 9 июл 2011

Всем привет.
Есть сайт на котором текстовый контнент предоставляется только после авторизации.
Авторизация через кукисы. Там около 8 тысяч страниц. СТраници на ява скриптах и аяксе. Пробовал разный сотф для сачивания сайто или довнлод менеджеры но не помагает.

gazlan · 9 июл 2011

и аяксе
Нажмите, чтобы раскрыть...

Динамический контент. DL-managers будут качать только фрейм без начинки. Нужен плагин/макросы к броузеру, или грабить странички прямо из броузера или накидать свой парсер на готовом COM (тот же IE). В любом случае, нужно дожидаться, пока информация окажется в броузере (обычно, это занимает время) и забирать innerHTML. Документации и примеров полно. Вот здесь например, введение в вопрос:
http://js-help.net/text/objeknaya_model_documenta/obektnie_modeli/innerhtml.php

rodger · 11 июл 2011

gazlan сказал(а):

и аяксе
Нажмите, чтобы раскрыть...

http://js-help.net/text/objeknaya_model_documenta/obektnie_modeli/innerhtml.php
Нажмите, чтобы раскрыть...

Спасибо за ссылку. Пробовал это все давно ковырнуть на делфи. Там есть компонент твеб-браузер, и много исходников на качал для парсинга, но видать делфа старая (6) или исходники не актуальные, вообщем пока мой лучший результат это вытянуть исходник странички. А вот автоматизировать загрзку всех этих страниц еще не удалось

gazlan · 12 июл 2011

Про Delphi ничего не знаю, но вот блог по теме, поройтесь: http://parsing-and-i.blogspot.com. А вообще, если HTML уже достали, то остальное примитивно: нужно либо парсить индексную страницу (если есть) и ставить ссылки в очередь на закачку, либо перебирать страницы последовательно. Главное - дожидаться окончания загрузки динамического контента. Ивенты броузера, обычно, отрабатывают раньше времени, приходится перечитывать страницу до появления нужного содержимого.

rodger · 13 июл 2011

gazlan сказал(а):

Про Delphi ничего не знаю, но вот блог по теме, поройтесь: http://parsing-and-i.blogspot.com.
Нажмите, чтобы раскрыть...

Спасибо.
Да ссылка толковая, я давно просил владельца блога поделится готовыми исходниками.
Пока делфи выручает, уже вся таблица в руках, средстваим Оле парсится со свистом. Остатся только разсчетами и дизайном занятся.

Войти или зарегистрироваться

массовое скачивание страниц из сайта

rodger New Member

gazlan Member

rodger New Member

gazlan Member

rodger New Member

Войти или зарегистрироваться

массовое скачивание страниц из сайта

rodger New Member

gazlan Member

rodger New Member

gazlan Member

rodger New Member

Быстрый поиск