tag 05



Die drei wichtigsten Dateien für die technischen Grundvoraussetzungen als Signal an die Suchmaschinen:

  • .htacces
  • robots.txt 
  • sitemap.xml

Sitemap.xml


Das Sitemaps-Protokoll ermöglicht Suchmaschinen sich über Seiten seiner Website zu informieren, die ausgelesen wird. Ziel des Sitemaps-Protokolls ist eine Verbesserung der Suchresultate.

So bekommt der crwaler in einem Rutsch eine Übersicht der auf der Wibsite enthaltenen Seiten.

Wenn ein Generator 2 Dateien (unkomprimiert/komprimiert) ausschießt beide hochladen (xml und xml.gz), damit der crwaler schneller lesen kann.


Zur Erstellung dieser Liste gibt es generatoren oder Plugins.

- Generator (kostenlos): http://www.xml-sitemaps.com/

- Plugin für Wordpress: „SEO by Yoast“


.htaccess (engl. hypertext access)

Mit der Datei .htaccess kann man verzeichnisspezifische Einstellungen auf webservern (z.B.: xamp, apache,…) vornehmen (konfigurieren).
Zum Beispiel kann man einen Zugriffsschutz für Verzeichnisse oder Dateien einrichten. Oder Fehlerseiten einstellen (ohne den Server neustarten zu müssen).
Änderungen in der .htaccess-Datei treten sofort in Kraft, weil diese bei jeder Serverabfrage gelesen wird. Die .htaccess-Dateien wirken nur auf das Verzeichnis, in dem sie gespeichert sind, sowie allen Unterverzeichnissen. (In Unterverzeichnissen kann aber auch eine eigene .htacces geschrieben werden).

Robotsdatei (Robots Exclusion Standard)

Ein Webcrawler (Robot) liest  beim Auffinden einer Webseite als erstes die Datei robots.txt.
In der robot.txt kann festgelegt werden, ob und wie eine Webseite von einem Webcrawler besucht bzw. untersucht werden darf. Also welche Seite er in den „Index“ schreiben darf und welche nicht. Websitedesigner/-betreiber haben durch die robtots-Datei die Möglichkeit, bestimmte Bereiche ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren.
WICHTIG:
Die robots-Datei ist ein Parameter für vernünftiges Arbeiten! Daher sollte man IMMER eine robots.txt im rootverzeichnis HABEN. Ob leer oder nicht. Das ist wichtig um den Suchmaschinen zu kommunizieren, dass ich als Websitebetreiber technisch wertvoll und somit Suchmaschinenrelevant arbeite!!
Bei Baustelleseiten erstmal (alles verbieten): 
User-agent: *
Disallow: /

Alles weitere zum Thema hier

Es gibt Bilder-, Text-, Multimedia-, pdf-crawler, etc.

Welche Seiten einer Internetpräsenz sind im web veröffentlicht?
>>bei google eingeben:  „site: https://www.domain.de“

Welche Seiten dürfen veröffentlicht sein?
  • AGB
  • Impressum
  • Datenschutz
  • Und alle Unterseiten die für den „öffentlichen Betrachter“ relevant sind

AntwortCodes: 

z.B.: Fehler 404 : Seite nicht gefunden

  • 1xx – Informationen (Die Bearbeitung der Anfrage dauert noch an.)
  • 2xx – Erfolgreiche Operation (Die Anfrage war erfolgreich, die Antwort kann verwertet werden.)
  • 3xx – Umleitung (Um eine erfolgreiche Bearbeitung der Anfrage sicherzustellen, sind weitere Schritte seitens des Clients erforderlich.)
  • 4xx – Client-Fehler (Die Ursache des Scheiterns der Anfrage liegt jedoch eher im Verantwortungsbereich des Clients.)
  • 5xx – Server-Fehler (Die Ursache des Scheiterns der Anfrage liegt jedoch eher im Verantwortungsbereich des Servers.)
  • 9xx – Proprietäre Statuscodes (Der Fehler wird vom Netzwerk verursacht, nicht vom anfragenden Gerät. Der Client bzw. der Nutzer sollte dann seine Anfrage noch einmal stellen.)

Tip des Tages:

ebook für google webmaster tools (Highlights: S. 9 - 21)
Feedreader zur organisation von Seiten (inhalten)