Die robots.txt-Datei

"Verwenden Sie die robots.txt - Datei auf Ihrem Webserver.

- Aus den Google-Richtlinien für Webmaster ¹

Was ist eine robots.txt-Datei?

Die robots.txt-Datei ist eine einfache Textdatei, die sich auf Ihrem Webserver befindet und Webcrawlern wie Googlebot mitteilt, ob sie auf eine Datei zugreifen sollen oder nicht.

Grundlegende robots.txt-Beispiele

Hier sind einige gebräuchliche robots.txt-Setups (sie werden unten detailliert erklärt).

Erlaube vollen Zugriff

User-Agent: *
Verbieten:

Alle Zugriffe blockieren

User-Agent: *
Disallow: /

Einen Ordner blockieren

User-Agent: *
Disallow: / folder /

Eine Datei blockieren

User-Agent: *
Disallow: /file.html

Warum sollten Sie über robots.txt lernen?

Eine unsachgemäße Verwendung der robots.txt-Datei kann Ihr Ranking beeinträchtigen
Die robots.txt-Datei steuert, wie Suchmaschinenspinnen Ihre Webseiten sehen und mit ihnen interagieren
Diese Datei wird in mehreren Google-Richtlinien erwähnt
Diese Datei und die Bots, mit denen sie interagieren, sind grundlegende Bestandteile der Funktionsweise von Suchmaschinen

Tipp: Verwenden Sie das Google-Richtlinien-Tool , um festzustellen, ob Ihre robots.txt wichtige Dateien blockiert, die von Google verwendet werden .

Suchmaschinenspinnen

Das erste, was ein Suchmaschinen-Spider wie Googlebot sieht, wenn er eine Seite besucht, ist die robots.txt-Datei.

Dies geschieht, weil es wissen möchte, ob es die Berechtigung hat, auf diese Seite oder Datei zuzugreifen. Wenn die robots.txt-Datei angibt, dass sie eingegeben werden kann, fährt die Suchmaschinenspinne mit den Auslagerungsdateien fort.

Wenn Sie Anweisungen für einen Suchmaschinenroboter haben, müssen Sie ihm diese Anweisungen mitteilen. Die Art und Weise, wie Sie dies tun, ist die robots.txt-Datei. ²

Prioritäten für Ihre Website

Es gibt drei wichtige Dinge, die jeder Webmaster tun sollte, wenn es um die robots.txt-Datei geht.

Stellen Sie fest, ob Sie eine robots.txt-Datei haben
Wenn Sie eine haben, stellen Sie sicher, dass dies nicht Ihrem Ranking schadet oder Inhalte blockiert, die Sie nicht blockieren möchten
Stellen Sie fest, ob Sie eine robots.txt-Datei benötigen

Feststellen, ob Sie eine robots.txt haben

Sie können eine Website unten eingeben, auf Los klicken und feststellen, ob die Website eine robots.txt-Datei enthält, und die darin enthaltenen Informationen anzeigen (die Ergebnisse werden hier auf dieser Seite angezeigt ) .

Wenn Sie das obige Tool nicht verwenden möchten, können Sie es von jedem Browser aus überprüfen. Die robots.txt-Datei befindet sich auf jeder Website immer an derselben Stelle, sodass Sie leicht feststellen können, ob auf einer Website eine vorhanden ist. Fügen Sie einfach "/robots.txt" am Ende eines Domainnamens hinzu, wie unten gezeigt.

www.yourwebsite.com/robots.txt

Wenn Sie dort eine Datei haben, handelt es sich um Ihre robots.txt-Datei. Sie finden entweder eine Datei mit Wörtern, eine Datei ohne Wörter oder gar keine Datei.

Stellen Sie fest, ob Ihre robots.txt wichtige Dateien blockiert

Sie können das Google-Richtlinien-Tool verwenden , das Sie warnt, wenn Sie bestimmte Seitenressourcen blockieren, die Google zum Verständnis Ihrer Seiten benötigt.

Wenn Sie Zugriff und Berechtigung haben, können Sie Ihre robots.txt-Datei mit der Google-Suchkonsole testen. Anweisungen dazu finden Sie hier (Tool nicht öffentlich - Anmeldung erforderlich) .

Um zu verstehen, ob Ihre robots.txt-Datei nichts blockiert, was Sie nicht blockieren möchten, müssen Sie verstehen, was sie sagt. Wir behandeln das unten.

Benötigen Sie eine robots.txt-Datei?

Möglicherweise müssen Sie nicht einmal eine robots.txt-Datei auf Ihrer Site haben. In der Tat ist es oft der Fall, dass Sie keine brauchen.

Gründe, warum Sie eine robots.txt-Datei haben möchten:

Sie haben Inhalte, die Sie für Suchmaschinen blockieren möchten
Sie verwenden kostenpflichtige Links oder Anzeigen, die spezielle Anweisungen für Roboter benötigen
Sie möchten den Zugriff auf Ihre Website von seriösen Robotern aus optimieren
Sie entwickeln eine Website, die live ist, möchten aber noch nicht, dass Suchmaschinen sie indizieren
Sie helfen Ihnen, in bestimmten Situationen einige Google-Richtlinien zu befolgen
Sie benötigen einige oder alle der oben genannten Elemente, haben jedoch keinen vollständigen Zugriff auf Ihren Webserver und dessen Konfiguration

Jede der oben genannten Situationen kann durch andere Methoden gesteuert werden. Die robots.txt-Datei ist jedoch ein guter zentraler Ort, um sich darum zu kümmern, und die meisten Webmaster haben die Fähigkeit und den Zugriff, eine robots.txt-Datei zu erstellen und zu verwenden.

Gründe, warum Sie möglicherweise keine robots.txt-Datei haben möchten:

Es ist einfach und fehlerfrei
Sie haben keine Dateien, die Sie für Suchmaschinen blockieren möchten oder müssen
Sie befinden sich in keiner der oben genannten Situationen, um eine robots.txt-Datei zu haben

Es ist in Ordnung, keine robots.txt-Datei zu haben.

Wenn Sie keine robots.txt-Datei haben, haben Suchmaschinenroboter wie Googlebot vollen Zugriff auf Ihre Website. Dies ist eine normale und einfache Methode, die sehr verbreitet ist.

Wie erstelle ich eine robots.txt-Datei?

Wenn Sie tippen oder kopieren und einfügen können, können Sie auch eine robots.txt-Datei erstellen.

Die Datei ist nur eine Textdatei, das heißt, Sie können Notepad oder einen anderen Texteditor verwenden, um eine zu erstellen. Sie können sie auch in einem Code-Editor erstellen. Sie können sie sogar "kopieren und einfügen".

Anstatt zu denken "Ich mache eine robots.txt-Datei", denken Sie einfach "Ich schreibe eine Notiz", sie sind so ziemlich der gleiche Prozess.

Was soll die robots.txt sagen?

Das hängt davon ab, was Sie wollen.

Alle robots.txt-Anweisungen führen zu einem der folgenden drei Ergebnisse

Volle Erlaubnis: Alle Inhalte können gecrawlt werden.
Vollständig unzulässig: Es darf kein Inhalt gecrawlt werden.
Bedingte Erlaubnis: Die Anweisungen in der robots.txt bestimmen die Fähigkeit, bestimmte Inhalte zu crawlen.

Lassen Sie uns jeden einzelnen erklären.

Vollständig zulassen - Der gesamte Inhalt wird möglicherweise gecrawlt

Die meisten Menschen möchten, dass Roboter alles auf ihrer Website besuchen. Wenn dies bei Ihnen der Fall ist und Sie möchten, dass der Roboter alle Teile Ihrer Site indiziert, haben Sie drei Möglichkeiten, um den Robotern mitzuteilen, dass sie willkommen sind.

1) Haben Sie keine robots.txt- Datei

Wenn Ihre Website keine robots.txt-Datei enthält, geschieht Folgendes ...

Ein Roboter wie Googlebot kommt zu Besuch. Es sucht nach der robots.txt-Datei. Es findet es nicht, weil es nicht da ist. Der Roboter kann dann alle Ihre Webseiten und Inhalte besuchen, da dies in dieser Situation programmiert ist.

2) Erstellen Sie eine leere Datei und nennen Sie sie robots.txt

Wenn Ihre Website eine robots.txt-Datei enthält, die nichts enthält, geschieht Folgendes ...

Ein Roboter wie Googlebot kommt zu Besuch. Es sucht nach der robots.txt-Datei. Es f indet die Datei und liest sie. Da es nichts zu lesen gibt, kann der Roboter alle Ihre Webseiten und Inhalte besuchen, da dies in dieser Situation programmiert ist.

3) Erstellen Sie eine Datei mit dem Namen robots.txt und schreiben Sie die folgenden zwei Zeilen hinein ...

User-Agent: *
Verbieten:

Wenn Ihre Website eine robots.txt mit diesen Anweisungen enthält, passiert Folgendes ...

Ein Roboter wie Googlebot kommt zu Besuch. Es sucht nach der robots.txt-Datei. Es findet die Datei und liest sie. Es liest die erste Zeile. Dann liest es die zweite Zeile. Der Roboter kann dann alle Ihre Webseiten und Inhalte besuchen, weil Sie ihm dies befohlen haben (ich erkläre dies weiter unten).

Vollständig unzulässig - Es darf kein Inhalt gecrawlt werden

Warnung: Dies bedeutet, dass Google und andere Suchmaschinen Ihre Webseiten nicht indizieren oder anzeigen.

Um alle seriösen Suchmaschinen-Spider von Ihrer Website zu blockieren, müssten Sie diese Anweisungen in Ihrer robots.txt:

User-Agent: *
Disallow: /

Es wird nicht empfohlen, dies zu tun, da dies dazu führt, dass keine Ihrer Webseiten indiziert wird.

Die robot.txt-Anweisungen und ihre Bedeutung

Hier finden Sie eine Erklärung, was die verschiedenen Wörter in einer robots.txt-Datei bedeuten

User-Agent

User-Agent:

Der Teil "User-Agent" gibt bei Bedarf Anweisungen für einen bestimmten Roboter an. Es gibt zwei Möglichkeiten, dies in Ihrer Datei zu verwenden.

Wenn Sie allen Robotern dasselbe mitteilen möchten, setzen Sie nach dem "User-Agent" ein "*". So würde es aussehen ...

User-Agent: *

In der obigen Zeile steht "Diese Anweisungen gelten für alle Roboter".

Wenn Sie einem bestimmten Roboter etwas mitteilen möchten (in diesem Beispiel Googlebot), würde es so aussehen ...

User-Agent: Googlebot

In der obigen Zeile steht "Diese Anweisungen gelten nur für Googlebot".

Verbieten:

Der Teil "Verbieten" teilt den Robotern mit, in welchen Ordnern sie nicht suchen sollen. Wenn Sie beispielsweise nicht möchten, dass Suchmaschinen die Fotos auf Ihrer Website indizieren, können Sie diese Fotos in einem Ordner ablegen und ausschließen.

Nehmen wir an, Sie haben alle diese Fotos in einem Ordner namens "photos" abgelegt. Jetzt möchten Sie Suchmaschinen anweisen, diesen Ordner nicht zu indizieren.

So sollte Ihre robots.txt-Datei in diesem Szenario aussehen:

User-Agent: *
Disallow: / photos

Die obigen zwei Textzeilen in Ihrer robots.txt-Datei verhindern, dass Roboter Ihren Fotoordner besuchen. Der Teil "User-Agent *" besagt "dies gilt für alle Roboter". Der Teil "Disallow: / photos" besagt "Besuche oder indiziere meinen Fotoordner nicht".

Googlebot-spezifische Anweisungen

Der Roboter, mit dem Google seine Suchmaschine indiziert, heißt Googlebot. Es versteht ein paar Anweisungen mehr als andere Roboter.

Zusätzlich zu "Benutzername" und "Nicht zulassen" verwendet Googlebot auch die Anweisung Zulassen.

ermöglichen

Ermöglichen:

Mit den Anweisungen "Zulassen:" können Sie einem Roboter mitteilen, dass es in Ordnung ist, eine Datei in einem Ordner zu sehen, der von anderen Anweisungen "nicht zugelassen" wurde. Um dies zu veranschaulichen, nehmen wir das obige Beispiel und weisen den Roboter an, Ihre Fotos nicht zu besuchen oder zu indizieren. Wir haben alle Fotos in einem Ordner namens "photos" abgelegt und eine robots.txt-Datei erstellt, die so aussah ...

User-Agent: *
Disallow: / photos

Angenommen, in diesem Ordner befindet sich ein Foto mit dem Namen mycar.jpg, das von Googlebot indiziert werden soll. Mit der Anweisung Allow: können wir Googlebot dazu auffordern, es würde so aussehen ...

User-Agent: *
Disallow: / photos
Allow: /photos/mycar.jpg

Dies würde Googlebot mitteilen, dass es "mycar.jpg" im Fotoordner besuchen kann, obwohl der "Foto" -Ordner ansonsten ausgeschlossen ist.

Testen Sie Ihre robots.txt-Datei

Um herauszufinden, ob eine einzelne Seite von robots.txt blockiert wird, können Sie dieses ,technische SEO-Tool verwenden, das Sie darüber informiert, ob für Google wichtige Dateien blockiert werden, und den Inhalt der robots.txt-Datei anzeigt.

Schlüssel Konzepte

Wenn Sie eine robots.txt-Datei verwenden,stellen Sie sicher, dass diese ordnungsgemäß verwendet wird
Eine falsche robots.txt-Datei kann den Googlebotdaran hindern, Ihre Seite zu indizieren
Stellen Sie sicher, dass Sie keine Seiten blockieren,die Google benötigt, um Ihre Seiten zu klassifizieren