2

robots.txt in OFBiz

Geschrieben am 14.05.2013 in Technik, Tutorials von Sebastian Leitner

Die robots.txt-Datei dient dazu, den Spider einer Suchmaschine anzuweisen, bestimmte Inhalte einer Webseite nicht zu crawlen, nicht in seinen Datenbestand aufzunehmen und somit auch von den Suchergebnissen auszuschließen. Das kann für bestimmte Teilbereiche einer Webseite sehr sinnvoll sein – im Falle von E-Commerce Anwendungen wäre das z. B. der Bestellprozess (Check Out) oder auch das komplette Backend, das nur für die Administration der Seite gedacht ist und nicht in den Index einer Suchmaschine gehört. Weiterführende Infos über die robots.txt ist in der Google Hilfe für Webmaster zu finden. Das Default-Verhalten ist, dass jeder ankommende Request

von OFBiz verarbeitet wird. Er wird bspw. an den Controller weitergereicht und dort wird entschieden, was geschehen soll (Service ausführen, View anzeigen, etc.). Dies ist für eine robots.txt nicht erforderlich, da sie bereits fix und fertig im Datei-System des Servers vorliegt. Es wird eine Ausnahme benötigt, die eine Anfrage nach der robots.txt nicht verarbeitet, sondern an das Dateisystem weitergibt. In der Definition der Web-App ist dies ohne Weiteres problemlos möglich:  In der Datei hot-deploy/IHRE-ANWENDUNG/webapp/ecommerce/WEB-INF/web.xml befindet sich folgender Auszug des ContextFilters. In dem Parameter „allowedPaths“ wird definiert, welche Requests nicht an den Controller weitergereicht werden, sondern direkt ins Filesystem gelangen.

In Zeile 8 ist zu sehen, dass wir dort die „robots.txt“ ergänzt haben. Diese legen Sie nun unter hot-deploy/IHRE-ANWENDUNG/webapp/ecommerce/robots.txt ab.

Beispiel robots.txt für Apache OFBiz

Eine für OFBiz angepasste robots.txt könnte etwa wie folgt aussehen. Sie enthält Anweisungen, sämtliche Backend-Applikationen zu ignorieren. Außerdem hält sie einen (standard-konformen) Bot davon ab, den Bestellprozess zu durchlaufen, Kundenkonten anzulegen oder das Kontaktformular abzuschicken. Hierbei wurden die Standard-Requests verwendet, die OFBiz im ecommerce-Modul nutzt. Verwenden Sie anders heißende Requests oder läuft Ihre Anwendung mit einem anderen Mountpoint als „/“ müssen die Verzeichnisse entsprechend angepasst werden.

Die Syntax der robots.txt richtet sich dabei nach einem offenen Standard, der unter www.robotstxt.org eingesehen werden kann. Es ist wichtig zu beachten, dass die robots.txt stets nur eine Art Empfehlung für den Bot darstellt und ihm nicht den Zugriff auf bestimmte Ressourcen verbietet. Durch den Einsatz einer robots.txt ‚bittet‘ man die Suchmaschine, bestimmte Bereiche nicht in deren Index aufzunehmen – dies bietet jedoch unter Sicherheitsaspekten keinen Gewinn. Fanden Sie diesen Beitrag hilfreich? Haben wir etwas vergessen? Wie sind Ihre Erfahrungen? Wir freuen uns auf Ihren wertvollen Kommentar. Christian Holsing ist E-Commerce Consultant und betreibt privat einen Blog über Social Commerce Strategien.

Dieser Artikel gefällt Ihnen? Sagen Sie's Ihren Freunden:

2 Antworten bisher.

  1. Hans Bakker sagt:

    sehr gute Artikel.
    Warum nicht hinzugefuegt im apache svn?

    • Hallo Hans,
      danke für deinen Kommentar. Als wir den Artikel fertig hatten, wollten wir die Änderung tatsächlich im Standard zur Verfügung stellen. Dabei haben wir festgestellt: unter specialpurpose/ecommerce gibt’s das schon seit Anfang 2012.

      Viele Grüße,
      Sebastian

Hinterlassen Sie eine Antwort





*