Der Waechterblog
Beiträge getaggt mit htaccess
Bestimmte Bots und Spiders per htaccess auschliessen
29. Jul
Jeder kennt das Problem mit Spam. Ob das nun im eigenen Blog oder Forum ist oder das eMail-Postfach ist wieder randvoll mit den tollsten Angeboten zu Viagra und Co. Das wäre ja noch nicht mal das Problem. Ärgerlicher ist da schon, wenn die eigene Performance unter den vielen Anfragen von Spiders, Robots, Harvester und Bots leidet. Es gibt einige sehr hartnäckige Vertreter dieser Gattung, die die eigene Website schon mal mit bis zu 1.000 Anfragen pro Minute traktieren, was deutlich zu Lasten der eigenen Ressourcen geht. Die Webseite wird langsamer und die Ladezeiten steigen ins unermessliche. Ein Graus für jeden Besucher, der irgendwann entnervt abbricht und weiter zieht. So einen User wird man dann wohl nie wieder sehen.
Was also kann man dagegen tun und wie kann man sich effektiv wehren?
Es gibt eine einfache und sehr effektive Lösung, wenn man seine Seiten auf einem Apache Webserver betreibt. Man kann mittels htaccess ein paar Regeln festlegen und diese dann ins Root-Verzeichnis seiner Seite legen. Die Möglichkeiten reichen von der Sperrung bestimmter IP Adressen von bekannten Spammern etc. oder eben Regeln.
Hier mal ein Beispiel, wie man eine solche Regel anlegt, um “böse” Bots auszusperren:
# Böse Bots aussperren spart Traffic und Nerven
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baidu [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^Twiceler [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^libwww-perl/5.80[0-9]. [OR] #schliesst libwww-perl/5.800 bis libwww-perl/.809 aus
RewriteCond %{HTTP_USER_AGENT} ^Yandex [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus
RewriteRule ^.* - [F]
Ein zweites Beispiel zeigt Euch, wie man über die IP Adresse viele Spammer usw. aussperren kann:
Order allow,deny
Allow from all
Deny from 85.17.173.8
### Türkische Adressen
deny from 81.212.0.0/14
deny from 85.96.0.0/12
deny from 88.224.0.0/11
deny from 212.156.0.0/16
deny from 212.174.0.0/15
deny from 195.174.0.0/15
### Top25 Blogkommentar-Spammers von projecthoneypot.org
deny from 62.90.102.146
deny from 213.163.65.177
deny from 213.163.65.163
deny from 62.90.102.148
deny from 94.102.60.45
deny from 93.174.93.221
deny from 200.63.42.77
deny from 93.174.93.220
deny from 83.233.30.77
deny from 93.189.56.218
deny from 89.248.172.26
deny from 212.150.184.150
deny from 194.165.42.151
deny from 194.165.42.153
deny from 194.165.42.155
deny from 94.102.60.43
deny from 194.165.42.157
deny from 94.102.60.77
deny from 89.248.162.197
deny from 193.53.87.77
deny from 85.12.25.118
deny from 200.63.42.109
deny from 200.63.42.113
deny from 80.67.6.226
deny from 200.63.42.111
### Top25 Crawler von honeypotproject.org
deny from 84.244.189.99
deny from 62.90.102.146
deny from 213.163.65.177
deny from 213.163.65.163
deny from 62.90.102.148
deny from 94.102.60.45
deny from 200.63.42.77
deny from 83.233.30.77
deny from 93.174.93.221
deny from 93.174.93.220
deny from 93.189.56.218
deny from 89.248.172.26
deny from 92.48.203.116
deny from 78.46.88.202
deny from 212.150.184.150
deny from 66.232.118.177
deny from 94.102.49.85
deny from 194.165.42.151
deny from 89.248.162.197
deny from 194.165.42.153
deny from 66.114.197.254
deny from 194.165.42.155
deny from 94.102.60.43
deny from 94.102.60.77
deny from 74.50.117.96
### Top25 Harvester von honeypotproject.org
deny from 200.226.134.53
deny from 64.27.5.162
deny from 64.233.166.136
deny from 195.229.242.154
deny from 64.233.178.136
deny from 66.249.90.136
deny from 203.144.144.164
deny from 72.14.220.136
deny from 165.228.133.11
deny from 62.163.80.205
deny from 200.65.127.161
deny from 208.223.208.181
deny from 165.228.130.12
deny from 209.85.138.136
deny from 72.14.252.136
deny from 216.239.50.136
deny from 165.228.131.12
deny from 62.163.37.157
deny from 195.175.37.71
deny from 64.34.255.239
deny from 219.93.178.162
deny from 89.122.16.96
deny from 64.27.29.45
deny from 62.163.70.194
deny from 89.122.213.193
### Top25 Harvester Spam Yield
deny from 74.86.209.74
deny from 74.53.249.34
deny from 216.40.222.98
deny from 216.40.220.18
deny from 216.40.220.34
deny from 75.125.52.146
deny from 216.40.222.50
deny from 75.125.47.162
deny from 208.101.44.3
deny from 70.85.113.242
deny from 216.40.222.82
deny from 67.19.250.26
deny from 74.86.249.98
deny from 208.66.195.5
deny from 208.66.195.4
deny from 74.86.14.10
deny from 208.53.147.89
deny from 208.66.195.9
deny from 208.66.195.11
deny from 208.66.195.6
deny from 208.66.195.7
deny from 208.66.195.2
deny from 208.66.195.10
deny from 67.19.114.226
deny from 208.66.195.8
deny from 67.218.116.168
deny from 93.158.149.31
Wenn Ihr euch also nun eine solche .htaccess Datei anlegt mit beiden oben genannten Beispielen und diese dann in das Root-Verzeichnis Eures Webspaces kopiert, dann habt Ihr schon mal einen sehr guten Schutz und die Performance Eurer Seite sollte spürbar wachsen (vorausgesetzt, Ihr hattet Probleme mit dieses Spammern und Datenkraken).
Ein sicherer Schutz ist das natürlich nicht und Performance-Probleme können natürlich auch an der Hardware oder einer falschen Konfiguration liegen. Schaden kann so eine Maßnahme aber nicht. Doch auch hier gilt – IP Adressen ändern sich oder es kommen neue hinzu. Man sollte von Zeit zu Zeit auf den einschlägigen Seiten nachsehen und seine .htaccess Datei anpassen oder erweitern.
Was man aber auch gar keinen Fall tun sollte, ist den Googlebot auszusperren oder andere große Suchspiders wie Yahoo oder MSN. Tut man dies, ist man sehr schnell raus, aus den vorderen Trefferseiten bzw. man schafft es erst gar nicht da hin, denn dann können auch die “Großen” nicht mehr auf Eure Seite zugreifen und irgendwann fliegt man dann dort aus dem Index.
Ich habe eine fertige .htaccess – Datei ins untere Zip-Archiv gepackt zum sofortigen Einsatz. Wenn jemand schon eine .htaccess – Datei benützt, dann einfach die Daten per Drag & Drop in die vorhandene einfügen, da ansonsten die Daten der alten .htaccess überschrieben werden.
Ich hoffe, Euch hat der Artikel gefallen und Ihr fandet ihn hilfreich. Über Kommentare und Anmerkungen und weitere Tipps würde ich mich sehr freuen. So kann ich diesen Artikel weiter aktuell halten.
Download: htaccess.zip (Zip Archiv)