Worterklärungen
Aus Deutsches Nutch Wiki
Inhaltsverzeichnis |
Index
Der Index ist das was durchsucht wird.
Fetchlist
Anhand der WebDB erstellte Liste von URLs die vom Robot noch zu Crawlen sind.
Crawlen
Hier werden die Dokumente anhand der Fetchlist vom Robot Besucht und die Daten gespeichert.
Indexieren
Beim Indexieren werden die Daten so sortiert, das ein durchsuchbarer Index entsteht.
WebDB
Beinhaltet nur URLs, Datum zum Crawlen der URLS usw. - keinen Content.
