массовое скачивание страниц из сайта

Тема в разделе "WASM.NETWORKS", создана пользователем rodger, 9 июл 2011.

  1. rodger

    rodger New Member

    Публикаций:
    0
    Регистрация:
    10 ноя 2007
    Сообщения:
    363
    Всем привет.
    Есть сайт на котором текстовый контнент предоставляется только после авторизации.
    Авторизация через кукисы. Там около 8 тысяч страниц. СТраници на ява скриптах и аяксе. Пробовал разный сотф для сачивания сайто или довнлод менеджеры но не помагает.
     
  2. gazlan

    gazlan Member

    Публикаций:
    0
    Регистрация:
    22 май 2005
    Сообщения:
    414
    Динамический контент. DL-managers будут качать только фрейм без начинки. Нужен плагин/макросы к броузеру, или грабить странички прямо из броузера или накидать свой парсер на готовом COM (тот же IE). В любом случае, нужно дожидаться, пока информация окажется в броузере (обычно, это занимает время) и забирать innerHTML. Документации и примеров полно. Вот здесь например, введение в вопрос:
    http://js-help.net/text/objeknaya_model_documenta/obektnie_modeli/innerhtml.php
     
  3. rodger

    rodger New Member

    Публикаций:
    0
    Регистрация:
    10 ноя 2007
    Сообщения:
    363
    Спасибо за ссылку. Пробовал это все давно ковырнуть на делфи. Там есть компонент твеб-браузер, и много исходников на качал для парсинга, но видать делфа старая (6) или исходники не актуальные, вообщем пока мой лучший результат это вытянуть исходник странички. А вот автоматизировать загрзку всех этих страниц еще не удалось
     
  4. gazlan

    gazlan Member

    Публикаций:
    0
    Регистрация:
    22 май 2005
    Сообщения:
    414
    Про Delphi ничего не знаю, но вот блог по теме, поройтесь: http://parsing-and-i.blogspot.com. А вообще, если HTML уже достали, то остальное примитивно: нужно либо парсить индексную страницу (если есть) и ставить ссылки в очередь на закачку, либо перебирать страницы последовательно. Главное - дожидаться окончания загрузки динамического контента. Ивенты броузера, обычно, отрабатывают раньше времени, приходится перечитывать страницу до появления нужного содержимого.
     
  5. rodger

    rodger New Member

    Публикаций:
    0
    Регистрация:
    10 ноя 2007
    Сообщения:
    363
    Спасибо.
    Да ссылка толковая, я давно просил владельца блога поделится готовыми исходниками.
    Пока делфи выручает, уже вся таблица в руках, средстваим Оле парсится со свистом. Остатся только разсчетами и дизайном занятся.