Referrer-Spam

Referrer-Spam (auch Logdatei-Spam) ist eine Sonderform des Suchmaschinen-Spamming. Hierbei werden Webseiten massenhaft aufgerufen, damit sie in den Referrer-Informationen der Statistiken der angegriffenen Webseiten auftauchen.

Hintergrund

Viele Suchmaschinen geben einer Internetseite eine gute Position, sofern viele Links auf diese Seite zeigen.^[1] Darüber hinaus werten viele Webseiten die Referrer aus, um beispielsweise zu analysieren, woher die Benutzer kommen. Dies erfolgt meist anhand der Logdateianalyse. Sofern diese online gezeigt werden – was besonders bei Weblogs beliebt ist (vgl. Backlink) –, ist es für Spammer interessant, sich in diesen Referrerlisten zu verewigen, da man davon ausgeht, dass diese Webstatistiken von Webcrawlern ausgelesen und für die Reihung bei Suchabfragen herangezogen werden.

Schaden

Durch diese Form des Spammings entsteht in zweierlei Hinsicht ein Schaden für den Webseitenbetreiber. Einerseits werden auf diese Art die relevanten Informationen für die Auswertung der Logdateien verfälscht und andererseits zusätzlicher Datenverkehr generiert. Auf Seiten der Suchmaschinenbetreiber tritt ein Schaden hinsichtlich der dadurch verfälschten Suchergebnisse ein.

Rechtliche Betrachtung

Bei gewerblich betriebenen Seiten kann man davon ausgehen, dass durch diese Form des Spammings, welches die Erreichbarkeit des Servers gefährdet, ein Eingriff in das Recht am eingerichteten und ausgeübten Gewerbebetrieb in Betracht kommt. Theoretisch könnte man für private Seiten einen privatrechtlichen Anspruch aus der Selbstdarstellung auf einer Webseite konstruieren und als Ausprägung des allgemeinen Persönlichkeitsrechts begreifen.^[2] Strafrechtlich relevante Sachverhalte ergeben sich analog zum Spam. Die in diesem Zusammenhang auftretende Frage, ob Referrer-Spam überhaupt Werbung ist, so ist dies jedenfalls in Bezug auf veröffentlichte Logdateianalysen und dadurch entstehende verbesserte Suchmaschinen-Rankings zu bejahen, teilweise auch darüber hinaus.^[2]

Abwehrmechanismen

Nofollow

Eine einfache, wenngleich nur bedingt effektive Lösung, wäre der Einsatz des rel="nofollow"-Attributes, was dazu führt, dass derartige Verweise nicht zur Berechnung des PageRanks herangezogen werden können. Dass sich dies nicht auf das Verhalten von Spammern auswirkt und deren Anzahl nicht reduziert, scheint mittlerweile bewiesen.^[3]

.htaccess

Eine Möglichkeit, dem Referrer-Spam Einhalt zu gebieten, wäre eine Bad-Word-Liste mittels RewriteCond^[4] in einer .htaccess-Datei, die den Status 403 (Zugriff verboten) sendet, wenn ein entsprechendes Wort in einem Referrer auftaucht.

RewriteEngine on
RewriteCond %{HTTP_REFERER} casino [OR]
RewriteCond %{HTTP_REFERER} poker
RewriteRule .* - [forbidden,last]^[5]

Alternativ kann man das Problem mit dem SetEnvIfNoCase^[6] einschränken.

SetEnvIfNoCase User-Agent „IzyNews/1.0“ leecher=yes
SetEnvIfNoCase Referer izynews.de leecher=yes
order deny,allow
deny from env=leecher

Das Problem diesbezüglich ist, dass man die Bad-Word-Liste manuell ergänzen muss. Ein erweiterter Ansatz wäre, mit einer webbasierten Skriptsprache die Referrer zu notieren und auszuwerten, wie oft Referrer innerhalb einer gewissen Zeit vorkommen. Überschreitet der Zugriff von einer bestimmten Seite das vorgegebene Maß, so wird der Referrer automatisch in die .htaccess eingetragen und mittels eines Cronjobs die Logdatei bereinigt. Diesbezüglich kann man nur schwer festlegen, dass von einer bestimmten Seite ein vermehrter Datenverkehr erwünscht wird. Einen ähnlichen Ansatz verfolgt das Apache-Modul mod_evasive.

NGINX

Beim Einsatz von NGINX ist es ebenfalls möglich die Zugriffe über die Konfiguration zu steuern.

server {
   location / {
       if ($http_referer ~* (url1.tld|url2.tld|url3.tld|spamkeyword) ) {
           return 405;
       }
   }
}

Somit wird serverseitig die Anfrage blockiert und nicht in die Logdateien protokolliert. "url1.tld" steht hierbei für die bekannte Domain, die den Referrer-Spam generiert.

Google Analytics

Teilweise werden auch Zugriffe in Trackingtools wie Google Analytics aufgezeichnet, obwohl kein Crawler, Bot oder echter User auf die Seite gegangen ist^[7]. Somit ist kein Eintrag in den Serverlogs zu sehen, aber in Google Analytics. Vereinzelt werden die Trackingcodes der eigenen Seite auf anderen Webseiten platziert, um in der Statistik des Webmasters aufzutauchen. Für eine saubere Statistikauswertung müssen diese Spam Referrals gefiltert werden. In Google Analytics ist es möglich, diese Aufrufe in den "Einstellungen der Datenansicht" zu deaktivieren. Hierbei muss "Alle Treffer von bekannten Bots und Spidern ausschließen" aktiviert werden.

Google sind jedoch nicht alle Bots und Spider bekannt. Über einen Filter der Datenansicht kann eine individuelle Verweis-Liste mit einem regulären Ausdruck gefiltert werden.

(?:([^. ]+)\.)?(?:([^.]+)\.)?(domain1|domain2|domain3)\.(com?|de|net)

Somit kann dem Spam in Google Analytics entgegengewirkt werden.

Kombination der Methoden

Eine Kombination aus den oben beschriebenen Filtern und einer Anpassung der .htaccess Datei kann sinnvoll sein, da so auf lange Sicht ein kompletter Ausschluss von Spam in Google Analytics möglich wird.^[8]

Melden

Die Suchmaschinenbetreiber haben häufig entsprechende Randbedingungen gesetzt, in denen gekaufte Links und andere unerwünschte Methoden als Ausschluss-Kriterien aus dem Index angegeben werden. Darum kann es dem Melder helfen, die Spam-Herkunfts-Domains bei den Suchmaschinen-Betreibern mit entsprechenden Log-Auszügen als Beleg zu melden, denn sie können dadurch aus dem Index entfernt werden, sofern mehrere Beschwerden / Meldungen aus verschiedenen Quellen eingehen. Damit dürfte die „Werbe-Strategie“ zum Bumerang für die Spam-Bot-Betreiber und Spammer-Domains werden, weil das genaue Gegenteil der beabsichtigten Wirkung eintritt. Das Ranking und die Listenpositionen steigen nicht, sondern die Domains werden aus den Trefferlisten verbannt.

Weitere Ansätze

Darüber hinaus gibt es noch weitere Ansätze^[9], die mit Hilfe eines in die entsprechende Website eingebauten PHP-Skriptes Spam verhindern.

Quellen

↑ vergleiche dazu das Grundprinzip des PageRank-Algorithmus
↑ ^a ^b Arne Trautmann – Rechtliche Ansprüche nach Referer-Spam?
↑ ua. Web Spam, Propaganda and Trust (englisch) (Memento vom 13. März 2005 im Internet Archive)
↑ Apache Module mod_rewrite
↑ Jörg Kruse – Referer-Spam (II)
↑ Apache Module mod_setenvif
↑ Referrer Spam aus Google Analytics entfernen (Memento des Originals vom 16. Juli 2015 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2. Abgerufen am 16. Juli 2015.
↑ Google Analytics Spam – Wie wird man ihn los? Detaillierte Anleitung zur Beseitigung von Google Analytics Spam - Abgerufen am 23. Juli 2015
↑ Bot-Trap.de – Ehrenamtliches Projekt gegen Web-Spam

[1] vergleiche dazu das Grundprinzip des PageRank-Algorithmus

[trautmann-2] Arne Trautmann – Rechtliche Ansprüche nach Referer-Spam?

[3] ua. Web Spam, Propaganda and Trust (englisch) (Memento vom 13. März 2005 im Internet Archive)

[4] Apache Module mod_rewrite

[5] Jörg Kruse – Referer-Spam (II)

[6] Apache Module mod_setenvif

[7] Referrer Spam aus Google Analytics entfernen (Memento des Originals vom 16. Juli 2015 im Internet Archive) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2. Abgerufen am 16. Juli 2015.

[8] Google Analytics Spam – Wie wird man ihn los? Detaillierte Anleitung zur Beseitigung von Google Analytics Spam - Abgerufen am 23. Juli 2015

[9] Bot-Trap.de – Ehrenamtliches Projekt gegen Web-Spam

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]