Die drei
wichtigsten Dateien für die technischen Grundvoraussetzungen als Signal an die Suchmaschinen:
- .htacces
- robots.txt
- sitemap.xml
Sitemap.xml
Das Sitemaps-Protokoll ermöglicht Suchmaschinen sich
über Seiten seiner Website zu informieren, die ausgelesen wird. Ziel des
Sitemaps-Protokolls ist eine Verbesserung der Suchresultate.
So bekommt der crwaler in einem Rutsch eine Übersicht der
auf der Wibsite enthaltenen Seiten.
Wenn ein Generator 2 Dateien (unkomprimiert/komprimiert)
ausschießt beide hochladen (xml und xml.gz), damit der crwaler schneller lesen
kann.
Zur Erstellung dieser Liste gibt es generatoren oder
Plugins.
- Generator (kostenlos): http://www.xml-sitemaps.com/
- Plugin für
Wordpress: „SEO by Yoast“
.htaccess (engl. hypertext access)
Mit der Datei .htaccess kann man verzeichnisspezifische
Einstellungen auf webservern (z.B.: xamp, apache,…) vornehmen (konfigurieren).
Zum Beispiel kann man einen Zugriffsschutz für Verzeichnisse oder Dateien
einrichten. Oder Fehlerseiten einstellen (ohne den Server neustarten zu müssen).
Änderungen in der .htaccess-Datei treten sofort in Kraft, weil diese
bei jeder Serverabfrage gelesen wird. Die .htaccess-Dateien wirken nur auf das Verzeichnis,
in dem sie gespeichert sind, sowie allen Unterverzeichnissen. (In Unterverzeichnissen
kann aber auch eine eigene .htacces geschrieben werden).
Robotsdatei (Robots Exclusion Standard)
Ein Webcrawler (Robot) liest beim Auffinden einer Webseite als erstes die
Datei
robots.txt.
In der robot.txt kann festgelegt werden, ob und wie eine
Webseite von einem Webcrawler besucht bzw. untersucht werden darf. Also welche
Seite er in den „Index“ schreiben darf und welche nicht. Websitedesigner/-betreiber
haben durch die robtots-Datei die Möglichkeit, bestimmte Bereiche ihrer
Webpräsenz für (bestimmte) Suchmaschinen zu sperren.
WICHTIG:
Die robots-Datei ist ein Parameter für vernünftiges
Arbeiten! Daher sollte man IMMER eine robots.txt im rootverzeichnis HABEN. Ob
leer oder nicht. Das ist wichtig um den Suchmaschinen zu kommunizieren, dass
ich als Websitebetreiber technisch wertvoll und somit Suchmaschinenrelevant
arbeite!!
Bei Baustelleseiten erstmal (alles verbieten):
User-agent: *
Disallow: /
Alles weitere zum Thema hier
Es gibt Bilder-, Text-, Multimedia-, pdf-crawler, etc.
Welche Seiten einer Internetpräsenz
sind im web veröffentlicht?
>>bei google eingeben:
„site: https://www.domain.de“
Welche Seiten dürfen
veröffentlicht sein?
- AGB
- Impressum
- Datenschutz
- Und alle Unterseiten die für den „öffentlichen Betrachter“ relevant sind
AntwortCodes:
z.B.: Fehler 404 : Seite nicht gefunden
- 1xx – Informationen (Die Bearbeitung der Anfrage dauert noch an.)
- 2xx – Erfolgreiche Operation (Die Anfrage war erfolgreich, die Antwort kann verwertet werden.)
- 3xx – Umleitung (Um eine erfolgreiche Bearbeitung der Anfrage sicherzustellen, sind weitere Schritte seitens des Clients erforderlich.)
- 4xx – Client-Fehler (Die Ursache des Scheiterns der Anfrage liegt jedoch eher im Verantwortungsbereich des Clients.)
- 5xx – Server-Fehler (Die Ursache des Scheiterns der Anfrage liegt jedoch eher im Verantwortungsbereich des Servers.)
- 9xx – Proprietäre Statuscodes (Der Fehler wird vom Netzwerk verursacht, nicht vom anfragenden Gerät. Der Client bzw. der Nutzer sollte dann seine Anfrage noch einmal stellen.)
Tip des Tages:
ebook für google webmaster tools (Highlights:
S. 9 - 21)
Feedreader zur organisation von Seiten (inhalten)