Наверное заметили, что сайт не работал некоторое время?
Как оно обычно и бывает, я потерял дамп базы (точнее он оказался битым, но не суть).
Как же восстановить все статьи на сайте?
Я сразу полез в кэш гугла и накатал вот такой скрипт
<?php
for ($i = 1; $i <= 395; $i++) {
$file = __DIR__ . '/storage/' . $i . '.html';
echo "get $i \n";
if (!file_exists($file)) {
copy("http://webcache.googleusercontent.com/search?q=cache:snippets.pp.ru/article/$i", $file);
sleep(10);
}
}
?>
С локального компа мне не удалось скачать все статьи, гугл меня забанил где-то после 80 штук, на каждый запрос вылазила капча, поэтому пришлось задействовать несколько сервачков :D
Кстати, задание юзер агента и прочих заголовков не помогало, дело именно в частоте запросов, так что если будете качать с кеша гугла, то ставьте побольше таймауты, либо запасайтесь серваками.
Но через пару дней гугл все равно разбанивает.