Всем привет. Есть сайт на котором текстовый контнент предоставляется только после авторизации. Авторизация через кукисы. Там около 8 тысяч страниц. СТраници на ява скриптах и аяксе. Пробовал разный сотф для сачивания сайто или довнлод менеджеры но не помагает.
Динамический контент. DL-managers будут качать только фрейм без начинки. Нужен плагин/макросы к броузеру, или грабить странички прямо из броузера или накидать свой парсер на готовом COM (тот же IE). В любом случае, нужно дожидаться, пока информация окажется в броузере (обычно, это занимает время) и забирать innerHTML. Документации и примеров полно. Вот здесь например, введение в вопрос: http://js-help.net/text/objeknaya_model_documenta/obektnie_modeli/innerhtml.php
Спасибо за ссылку. Пробовал это все давно ковырнуть на делфи. Там есть компонент твеб-браузер, и много исходников на качал для парсинга, но видать делфа старая (6) или исходники не актуальные, вообщем пока мой лучший результат это вытянуть исходник странички. А вот автоматизировать загрзку всех этих страниц еще не удалось
Про Delphi ничего не знаю, но вот блог по теме, поройтесь: http://parsing-and-i.blogspot.com. А вообще, если HTML уже достали, то остальное примитивно: нужно либо парсить индексную страницу (если есть) и ставить ссылки в очередь на закачку, либо перебирать страницы последовательно. Главное - дожидаться окончания загрузки динамического контента. Ивенты броузера, обычно, отрабатывают раньше времени, приходится перечитывать страницу до появления нужного содержимого.
Спасибо. Да ссылка толковая, я давно просил владельца блога поделится готовыми исходниками. Пока делфи выручает, уже вся таблица в руках, средстваим Оле парсится со свистом. Остатся только разсчетами и дизайном занятся.