Command Line Options

Aus Deutsches Nutch Wiki

Wechseln zu: Navigation, Suche

See each entry for details of the command arguments and options.

Inhaltsverzeichnis

Befehle

topN <x>

Gibt an wieviele URLs es pro Segment gibt

index segment

Erstellt einen durchsuchbaren Index für das Segment

prune <indexDir | segmentsDir> [-dryrun] [-force] [-queries filename] [-output filename] [-showfields field1,field2,field3...]

Hier muss man darauf achten, das in der Datei mit den Anweisungen diese so drin stehen wie der Analyser sie liest. Für eine URL führt man dann z.B. einfach:

nutch org.apache.nutch.searcher.Query url:your_url...

aus um die entsprechende Anweisung zu bekommen.

Datenbank Kommandos

updatedb db

Updated die Web Datenbank. Schreibt die neuen zu holenden Links rein und schreibt rein welche Dateien wann geholt wurden.

generate db {-topN <x>} {-numfetchers <x>}

Generiert eine Liste (Fetchlist) von noch nicht geholten Dateien.

analyze db <x>

Analysiert die Linkstruktur in der Datenbank auf x Ebenen um zu priorisieren welche Seite als nächstes zu holen (fetchen) ist. Bsp.: www.ebay.de = linksebene 0, links auf ebay.de, z.B. software.ebay.de = linkebene 1, links dort sind dann linkebene 2, z.B. software.ebay.de -> Betriebssysteme usw., die Produkte dort sind dann linkebene 3 etc..

Fetch Kommandos

crawl

Startet das Indexieren von den angegebenen Start URLs

numfetchers <x>

Gibt an wieviele Segments erstellt werden sollen

fetch <segment>

Holt die Daten von den URLs die in der "Fetchlist" stehen und bringt sie in eine entsprechende Form.

Merge Kommandos

merge index segments

Fasst mehrere indexe zusammen