восстановление утерянных тем форума из интернет-архивов

Тема в разделе "WASM.SITE", создана пользователем nds, 12 дек 2016.

  1. nds

    nds Member

    Публикаций:
    0
    Регистрация:
    16 июл 2007
    Сообщения:
    157
    Думаю заняться, но нужен шустрый прокси за пределами России (потому что через доступные мне я буду выкачивать месяцами)
    также не помешал бы ответ от администрации в каком виде удобнее предоставить информацию для слияния с текущим форумом
     
  2. xcode

    xcode Member

    Публикаций:
    0
    Регистрация:
    8 апр 2007
    Сообщения:
    105
    Там все непросто. В web.archive.org полностью сохранены только темы с первых трех страниц каждого раздела и последней (потому что ссылки на них выводятся сразу). То есть ограничения их глубины скачивания не позволят напрямую выкачать все.
    Можно еще пытаться собирать из образов от разных дат (есть вероятность что когда-то все темы были на первых трех страницах).
     
  3. Alexey

    Alexey Инициативный

    Публикаций:
    1
    Регистрация:
    28 сен 2002
    Сообщения:
    271
    nds, идея хорошая, но даже не знаю, и тебе геморно будет и нам потом импортировать. один тип брался, потом исчез кудато)
    но вприныпе если спарсишь то куда мы денемся) удобней будет в json объекты. по датам смотри темы и посты собирай только от конца марта 2012. насчет прокси хз, у меня без них с архивом проблем нету (или там каптча есть?)
     
  4. nds

    nds Member

    Публикаций:
    0
    Регистрация:
    16 июл 2007
    Сообщения:
    157
    Это само собой разумеется
    Проблема не в том чтобы найти и склеить а в том что е***ный роскомпозор позапрещал все архивы
     
    Mikl___ нравится это.
  5. Alexey

    Alexey Инициативный

    Публикаций:
    1
    Регистрация:
    28 сен 2002
    Сообщения:
    271
    xcode дело говорит. в архиве будет далеко не все и куча ньюансов. Возможно проще найти онлайн сервис с услугой выкачивания сайта из вебархива, а потом распарсить статику локально. но таких сервисов по пальцам пересчитать, и работают далеко не все идеально.
     
  6. nds

    nds Member

    Публикаций:
    0
    Регистрация:
    16 июл 2007
    Сообщения:
    157
    Просто у меня довольно большой опыт по парсингу сайтов с выдиранием нужного контента
    не вижу смысла пользоваться теми сервисами
     
    Mikl___ и xcode нравится это.
  7. Alexey

    Alexey Инициативный

    Публикаций:
    1
    Регистрация:
    28 сен 2002
    Сообщения:
    271
    понятно. ну если сделаешь то все будем благодарны тебе
     
    Mikl___ нравится это.
  8. TermoSINteZ

    TermoSINteZ Синоби даоса Команда форума

    Публикаций:
    1
    Регистрация:
    11 июн 2004
    Сообщения:
    3.528
    Адрес:
    Russia
    Ну вообще с 2012 по 2016 активность сайта была не такая большая как раньше и в общем то мы не сильно потеряли, хотя конечно потеряли.
    Но если есть возможность не сильно напрягаясь - восстановить, то большое вам человеческое спасибо.
     
    Mikl___ нравится это.
  9. xcode

    xcode Member

    Публикаций:
    0
    Регистрация:
    8 апр 2007
    Сообщения:
    105
    А не поделитесь знаниями?
    Давно хочу изучить этот вопрос. Совсем в идеале - написать программу для выдирания форумов и гуглгрупс-обсуждений в оффлайновую базу (в частности интересует обсуждение предложений в стандарт https://isocpp.org/forums)
    На чем лучше писать такое?
     
  10. nds

    nds Member

    Публикаций:
    0
    Регистрация:
    16 июл 2007
    Сообщения:
    157
    да нет там ничего особого
    просматриваю структуру страниц и url а потом на основе неизменных частей разбираю на нужные данные.
    по языку любой с нормальной поддержкой строк подойдет

    зы скачано примерно 10% архива такчто скоро не ждите (
     
  11. Alexey

    Alexey Инициативный

    Публикаций:
    1
    Регистрация:
    28 сен 2002
    Сообщения:
    271
    подойдет любой язык (асм в последнюю очередь), нужны HTTP методы + регулярные выражения
     
  12. xcode

    xcode Member

    Публикаций:
    0
    Регистрация:
    8 апр 2007
    Сообщения:
    105
    Я в основном имел в виду не столько язык, сколько уже готовые библиотеки, написанные на некотором языке специально для граббинга сайтов. И по поводу регулярных выражений - а есть такие которые работают не с текстом а с HTML DOM?
     
  13. Alexey

    Alexey Инициативный

    Публикаций:
    1
    Регистрация:
    28 сен 2002
    Сообщения:
    271
  14. Orbit

    Orbit Member

    Публикаций:
    0
    Регистрация:
    13 дек 2016
    Сообщения:
    110
    Адрес:
    г. Москва
    А где жеж SSL ? HTTPS ? TLS ? : )
     
  15. Alexey

    Alexey Инициативный

    Публикаций:
    1
    Регистрация:
    28 сен 2002
    Сообщения:
    271
  16. xcode

    xcode Member

    Публикаций:
    0
    Регистрация:
    8 апр 2007
    Сообщения:
    105
    Ну как там у вас идет процесс выкачивания?
     
  17. nds

    nds Member

    Публикаций:
    0
    Регистрация:
    16 июл 2007
    Сообщения:
    157
    идет процесс отходняка от нового года
    страницы же докачались
    как думать смогу разберу на сообщения
     
  18. Komrako18

    Komrako18 New Member

    Публикаций:
    0
    Регистрация:
    5 янв 2017
    Сообщения:
    6
    здесь всё пропитано олдскулом
    [​IMG]
     
  19. comrade

    comrade Константин Ёпрст

    Публикаций:
    0
    Регистрация:
    16 сен 2002
    Сообщения:
    220
    Адрес:
    Russian Federation
    Почему Aquila или dimon не поделятся базой данных с оригинального форума? Кто нибудь их просил?
     
  20. xcode

    xcode Member

    Публикаций:
    0
    Регистрация:
    8 апр 2007
    Сообщения:
    105
    Прошло полгода с последнего сообщения:) Как там дела с выкачанными темами?