Wayback Machine (archive.org) Web Site Dosyalarını İndirmek

Merhabalar,

  1. İlgili ruby versiyonunu kurmanız gerek. https://rubyinstaller.org/ adresinden indiriniz ve kurunuz.
  2. https://github.com/ShiftaDeband/wayback-machine-downloader adresinden wayback-machine-downloader-feature-httpGet dosyasını indiriniz. ve Zip’den çıkartınız.
  3. İlgili klasöre giriniz wayback-machine-downloader\bin
  4. Powershell’i çalıştırmak için Klasörde boş bir yere shift tuşuna basılı tutup Terminal’de Aç’a basınız.
  5. Açılan komut satırından ruby wayback_machine_downloader http://siteadi.com olarak toolu çalıştırabilirsiniz.

Nasıl çalışır?

Wayback Machine’de bulunan her dosyanın son sürümünü .’a indirecektir ./websites/example.com/. Ayrıca bir dizin yapısını yeniden oluşturacak ve index.htmlApache ve Nginx ile sorunsuz bir şekilde çalışmak için sayfaları otomatik olarak oluşturacaktır. İndirilen tüm dosyalar orijinal olanlardır ve Wayback Machine tarafından yeniden yazılmış sürümler değildir. Bu şekilde, URL’ler ve bağlantı yapıları daha öncekiyle aynıdır.

Gelişmiş Kullanım:

Kullanım: wayback_machine_downloader http://example.com

Wayback Machine’den bir web sitesinin tamamını indirin.

İsteğe bağlı seçenekler:

  • -d, –directory PATH İndirilen dosyaların kaydedileceği dizin
    Varsayılan ./websites/ artı alan adıdır
  • -s, –all-timestamps Belirli bir web sitesi için tüm anlık görüntüleri/zaman damgalarını indir
  • -f, –from TIMESTAMP Yalnızca zaman damgası verilen veya sonrasındaki dosyalar (ör. 20060716231334)
  • -t, –to TIMESTAMP Yalnızca zaman damgası verilen veya öncesindeki dosyalar (ör. 20100916231334)
  • -e, –exact-url Yalnızca sağlanan URL’yi indir, tüm siteyi değil
  • -o, –only ONLY_FILTER İndirmeyi bu filtreyle eşleşen URL’lerle sınırla
    (filtrenin regex olarak ele alınması için // gösterimini kullan)
  • -x, –exclude EXCLUDE_FILTER Bu filtreyle eşleşen URL’lerin indirilmesini atla
    (filtrenin regex olarak ele alınması için // gösterimini kullan regex)
  • -a, –all İndirmeyi hata dosyalarına (40x ve 50x) ve yönlendirmelere (30x) genişlet
  • -c, –concurrency SAYI Aynı anda indirilecek birden fazla dosya sayısı
    Varsayılan, aynı anda bir dosyadır (yani 20)
  • -p, –maximum-snapshot SAYI Dikkate alınacak maksimum anlık görüntü sayfası sayısı (Varsayılan 100’dür)
    Sayfa başına ortalama 150.000 anlık görüntü say
  • -l, –list Yalnızca arşivlenmiş zaman damgalarıyla JSON biçimindeki dosya URL’lerini listele, hiçbir şey indirilmeyecek

Dahası için: https://github.com/ShiftaDeband/wayback-machine-downloader

Kaynaklar:

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.

Bu site reCAPTCHA ve Google tarafından korunmaktadır Gizlilik Politikası ve Kullanım Şartları uygula.

The reCAPTCHA verification period has expired. Please reload the page.