Die Linux-Befehlszeile bietet greta-Funktionen für das Webcrawling zusätzlich zu den inhärenten Funktionen, um Webserver und Web-Browsing zu handhaben. In diesem Artikel werden wir nach wenigen Tools suchen, die verweigerersind oder installiert und in der Linux-Umgebung für das Offline-Web-Browsing verwendet werden können. Dies wird durch das grundsätzliche Herunterladen der Webseite oder vieler Webseiten erreicht. wget ist ein nettes Tool zum Herunterladen von Ressourcen aus dem Internet. Es kann verwendet werden, um Bilder, Webseiten oder ganze Websites abzurufen. Es kann nur mit einer URL als Argument oder viele Argumente verwendet werden, wenn Sie den User-Agent fälschen, robots.txt-Dateien ignorieren, rate begrenzen oder anderweitig optimieren müssen. Wget als GNU-Projekt kommt mit den meisten Standard-Linux-Distributionen gebündelt und es gibt keine Notwendigkeit, es separat herunterzuladen und zu installieren. Wenn es in einem Fall nicht standardmäßig installiert ist, können Sie es weiterhin mit apt oder yum installieren. Um cliget zu verwenden, besuchen Sie eine Seite oder Datei, die Sie herunterladen möchten, und klicken Sie mit der rechten Maustaste. Ein Kontextmenü wird als cliget bezeichnet, und es gibt Optionen zum Kopieren in wget und copy to curl. Abgesehen davon, dass Sie Ihre Website sichern oder etwas zum Herunterladen finden, um sie offline zu lesen, ist es unwahrscheinlich, dass Sie eine ganze Website herunterladen möchten. Es ist wahrscheinlicher, dass Sie eine einzelne URL mit Bildern oder Downloaddateien wie ZIP-Dateien, ISO-Dateien oder Bilddateien herunterladen.
Das Dienstprogramm wget lädt Webseiten, Dateien und Bilder aus dem Web mithilfe der Linux-Befehlszeile herunter. Sie können einen einzelnen wget-Befehl verwenden, um von einer Website herunterzuladen oder eine Eingabedatei einzurichten, um mehrere Dateien über mehrere Standorte herunterzuladen. Gemäß der Handbuchseite kann wget auch dann verwendet werden, wenn sich der Benutzer vom System abgemeldet hat. Verwenden Sie dazu den Befehl nohup. Auf einigen Websites müssen Sie sich anmelden, um auf die Inhalte zuzugreifen, die Sie herunterladen möchten. Verwenden Sie die folgenden Schalter, um den Benutzernamen und das Kennwort anzugeben. -p : Laden Sie alle Dateien herunter, die notwendig sind, um eine bestimmte HTML-Seite korrekt anzuzeigen. Ersten Download und Installieren von wget für Windows auf Ihrem Computer. Das Installationsprogramm für die Windows-Version finden Sie hier: –no-clobber: keine vorhandenen Dateien überschreiben (verwendet, falls der Download unterbrochen und fortgesetzt wird). Ich habe ein Skript auf meinem Server.
Ich bin auf diesem Server und möchte eine Kopie dieser Datei auf meinen lokalen Desktop zu bekommen. Bitte helfen Sie mir mit einigen Befehl, der helfen kann, die Datei vom Server auf den lokalen Computer herunterzuladen. Vielen Dank im Voraus. Hinweis: curl kann nicht verwendet werden, um die gesamte Website rekursiv herunterzuladen. Verwenden Sie dafür wget. Die Scanregeln sind eine leistungsstarke Funktion, mit der Sie den gewünschten Inhalt genau angeben können. Standardmäßig werden alle Seiten unterhalb der angegebenen URL, einschließlich der links, die sie enthalten, gesichert. Aber auf der LibreOffice-Website zum Beispiel, die auch Download-Links enthält, würde dies bedeuten, dass neben der eigentlichen Homepage auch zahlreiche Programmdateien gepackt würden. Um genauer anzugeben, was Sie herunterladen möchten – und was Sie auf Links überprüfen möchten – können Sie Filter definieren. Wenn Sie eine Warteschlange mit Dateien einrichten, die in einer Eingabedatei heruntergeladen werden sollen, und Sie Ihren Computer laufen lassen, um die Dateien herunterzuladen, kann die Eingabedatei stecken bleiben, während Sie unterwegs sind, und versuchen Sie erneut, den Inhalt herunterzuladen.
