Come scaricare e fare il mirror di un sito web con wget

In un mondo digitale sempre più interconnesso, poter accedere ai contenuti web anche quando siamo offline è una comodità non da poco. Una delle tecniche più utili per scaricare e fare il mirror di un intero sito web è l'uso dello strumento wget. Questo comando potente e versatile ti permette di ottenere una copia completa di un sito web, comprese le sue pagine, immagini, file CSS, e JavaScript, così da poter navigare il sito offline o fare un backup.

Cos'è wget?

wget (World Wide Web Get) è un tool da linea di comando utilizzato per scaricare contenuti da Internet. È molto utilizzato su sistemi Unix, Linux e macOS, ma può essere installato anche su Windows. wget è particolarmente utile per scaricare interi siti web o singoli file in modo automatizzato, mantenendo la struttura originale dei collegamenti tra le pagine.

Come utilizzare wget per fare un mirror di un sito web

Se hai bisogno di fare il mirror di un sito web, cioè scaricarlo completamente per una navigazione offline o per backup, puoi usare il comando wget con alcune opzioni specifiche.

Comando Base

Il comando per scaricare un sito completo con wget è il seguente:

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent -P /percorso/dove/salvare https://www.esempio.com

Spiegazione delle opzioni:

  • --mirror: attiva il supporto per il mirror completo, scaricando tutte le pagine, immagini, e file necessari.
  • --convert-links: converte tutti i link all'interno delle pagine scaricate, così che possano essere navigati offline senza problemi.
  • --adjust-extension: aggiunge l'estensione appropriata ai file scaricati (come .html, .jpg, ecc.).
  • --page-requisites: scarica tutte le risorse necessarie per visualizzare correttamente le pagine (come CSS, immagini, script).
  • --no-parent: impedisce il download di file che si trovano fuori dalla directory del sito specificato.
  • -P /percorso/dove/salvare: specifica la cartella di destinazione dove verrà salvato il sito scaricato.

Esempio pratico

Supponiamo di voler scaricare il sito https://templates.hibootstrap.com/jeel/default/index.html nella cartella /Users/vincenzo/Downloads/salao. Il comando da usare sarà:

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent -P /Users/vincenzo/Downloads/salao https://templates.hibootstrap.com/jeel/default/index.html

Questo comando creerà una copia completa del sito nella cartella specificata, con tutti i file necessari per la visualizzazione offline.

Perché usare wget per il mirror di un sito?

  • Navigazione offline: Puoi accedere al sito web senza una connessione Internet, perfetto per quando sei in viaggio o in luoghi con connessione limitata.
  • Backup di siti web: Puoi creare un backup del sito web, utile nel caso in cui desideri archiviare una versione statica del sito.
  • Velocità e automazione: wget è molto veloce e può essere facilmente automatizzato per scaricare siti di grandi dimensioni.

Considerazioni importanti

  • Rispetto per i diritti d'autore: Assicurati di avere il permesso di scaricare e usare il contenuto di un sito web. Alcuni siti potrebbero vietare il download attraverso i loro robots.txt.
  • Spazio su disco: Un intero sito web, soprattutto se ricco di immagini e file multimediali, può occupare molto spazio. Assicurati di avere spazio sufficiente nel tuo hard disk.
  • Tempi di download: A seconda delle dimensioni del sito e della tua connessione Internet, il processo di mirror potrebbe richiedere tempo.

Conclusioni

Utilizzare wget per scaricare un sito web completo è una tecnica potente e flessibile. Se hai bisogno di navigare un sito offline o creare un backup, wget è sicuramente uno degli strumenti migliori a tua disposizione. Con le opzioni giuste, puoi facilmente personalizzare il comando per adattarlo alle tue necessità.