wget error 443 και 404

υπάρχει αυτό εδώ https://ia600105.us.archive.org/18/items/PatrologiaGraeca/ το οποίο έχει μερικές χιλιάδες pdf αρχεία τα οποία χρειάζομαι.
προσπαθω με wget
ότι κιαν προσπάθησα από googling τρώγω πόρτα.

wget --user-agent='Mozilla/4.0' -c $(for website in $(cat websites_list); do     lynx -cache=0 -dump -listonly "$website" | awk '/.pdf$/{print $2}';done)
--2022-01-23 11:08:54--  https://ia600105.us.archive.org/18/items/PatrologiaGraeca/K%CE%BB%CE%B5%CE%B9%CF%82
Resolving ia600105.us.archive.org (ia600105.us.archive.org)... 207.241.227.245
Connecting to ia600105.us.archive.org (ia600105.us.archive.org)|207.241.227.245|:443... connected.
HTTP request sent, awaiting response... 404 Not Found
2022-01-23 11:08:56 ERROR 404: Not Found.

--2022-01-23 11:08:56--  https://ia600105.us.archive.org/18/items/PatrologiaGraeca/K%CE%BB%CE%B5%CE%B9%CF%82
Reusing existing connection to ia600105.us.archive.org:443.
HTTP request sent, awaiting response... No data received.
Retrying.

wget --user-agent='Mozilla/4.0' --no-directories --content-disposition -e robots=off -A.pdf -r \ https://ia600105.us.archive.org/18/items/PatrologiaGraeca/
 https://ia600105.us.archive.org/18/items/PatrologiaGraeca/: Scheme missing.

wget --user-agent='Mozilla/4.0' --no-directories --content-disposition -e robots=off -A.pdf -r -c $(for website in $(cat websites_list); do     lynx -cache=0 -dump -listonly "$website" | awk '/.pdf$/{print $2}';done)
--2022-01-23 11:15:46--  https://ia600105.us.archive.org/18/items/PatrologiaGraeca/K%CE%BB%CE%B5%CE%B9%CF%82
Resolving ia600105.us.archive.org (ia600105.us.archive.org)... 207.241.227.245
Connecting to ia600105.us.archive.org (ia600105.us.archive.org)|207.241.227.245|:443... connected.
HTTP request sent, awaiting response... 404 Not Found
2022-01-23 11:15:47 ERROR 404: Not Found.

--2022-01-23 11:15:47--  https://ia600105.us.archive.org/18/items/PatrologiaGraeca/K%CE%BB%CE%B5%CE%B9%CF%82
Reusing existing connection to ia600105.us.archive.org:443.
HTTP request sent, awaiting response... 404 Not Found
2022-01-23 11:15:47 ERROR 404: Not Found.

προφανώς τα έχω κάνει σαλάτα!
υπάρχει κάποιος τρόπος να κατεβάσω με wget τα pdf αρχεία μόνο από αυτήν την σελίδα;
Επίσης έχω μια εναλακτική να κατεβάσω από εδώ

http://khazarzar.skeptik.net/pgm/PG_Migne/

αλλά ο κάθε κατάλογος οδηγεί σε άλλο κατάλογο που περιέχει ΚΑΙ τα pdf αρχεία που θέλω , και δεν γνωρίζω πως να το κάνω.
πρόκειται για χιλιάδες αρχεία που δεν μπορώ να κατεβάσω χειροκίνητα σε αυτήν την ζωή…

ευχαριστώ.

Δοκίμασε έτσι :

wget -r -P ./pdfs -A pdf https://ia600105.us.archive.org/18/items/PatrologiaGraeca/

θα δημιουργήσει όλα τα μονοπάτια

2 «Μου αρέσει»

Από ότι βλέπω μπορείς να το δεις σαν ftp, οπότε μπορείς να το κατεβάσεις με κάποιο προγραμμα που υποστηρίζει το ftp ή απλά με

asfodelus@menta:~/Arduino/qm/bin$ lftp http://khazarzar.skeptik.net/pgm/PG_Migne/
cd ok, cwd=/pgm/PG_Migne                                         
lftp khazarzar.skeptik.net:/pgm/PG_Migne> ls
drwxr-xr-x  --  ..                   
-rw-r--r--          83K  2008-11-10 01:13  A_Kleida Patrologias-1.doc
drwxr-xr-x            -  2015-12-10 17:05  Agapetus_PG 86a
drwxr-xr-x            -  2015-12-10 17:06  Agathias Scholasticus Myrinaeus,Constantinopolitanus_PG 88
drwxr-xr-x            -  2015-12-10 17:06  Alexander Lycopolitanus_PG 18
drwxr-xr-x            -  2015-12-10 17:06  Alexander Monachus_PG 87c

Μια άλλη λύση είναι να κατεβάσεις το site τοπικά με το HTTrack που πρέπει να υπάρχει στα αποθετήρια. Προσοχή μόνο στις ρυθμίσεις μην κατεβάσεις όλο το Internet :innocent:

2 «Μου αρέσει»

Το wget -r -P ./pdfs -A pdf https://ia600105.us.archive.org/18/items/PatrologiaGraeca/ δείχνει να δουλεύει, ευχαριστώ!

το lftp μόλις το εγκατέστησα θα το διαβασω να δω πως δουλεύει, το HTTrack το αφήνω για αργότερα, δεν μου έχω καμία εμπιστοσύνη… :rofl:

3 «Μου αρέσει»

Αυτό το νήμα έκλεισε αυτόματα 2 ημέρες μετά την τελευταία απάντηση. Δεν επιτρέπονται πλέον νέες απαντήσεις.