Command Line Options
Aus Deutsches Nutch Wiki
See each entry for details of the command arguments and options.
Inhaltsverzeichnis |
Befehle
topN <x>
Gibt an wieviele URLs es pro Segment gibt
index segment
Erstellt einen durchsuchbaren Index für das Segment
prune <indexDir | segmentsDir> [-dryrun] [-force] [-queries filename] [-output filename] [-showfields field1,field2,field3...]
Hier muss man darauf achten, das in der Datei mit den Anweisungen diese so drin stehen wie der Analyser sie liest. Für eine URL führt man dann z.B. einfach:
nutch org.apache.nutch.searcher.Query url:your_url...
aus um die entsprechende Anweisung zu bekommen.
Datenbank Kommandos
updatedb db
Updated die Web Datenbank. Schreibt die neuen zu holenden Links rein und schreibt rein welche Dateien wann geholt wurden.
generate db {-topN <x>} {-numfetchers <x>}
Generiert eine Liste (Fetchlist) von noch nicht geholten Dateien.
analyze db <x>
Analysiert die Linkstruktur in der Datenbank auf x Ebenen um zu priorisieren welche Seite als nächstes zu holen (fetchen) ist. Bsp.: www.ebay.de = linksebene 0, links auf ebay.de, z.B. software.ebay.de = linkebene 1, links dort sind dann linkebene 2, z.B. software.ebay.de -> Betriebssysteme usw., die Produkte dort sind dann linkebene 3 etc..
Fetch Kommandos
crawl
Startet das Indexieren von den angegebenen Start URLs
numfetchers <x>
Gibt an wieviele Segments erstellt werden sollen
fetch <segment>
Holt die Daten von den URLs die in der "Fetchlist" stehen und bringt sie in eine entsprechende Form.
Merge Kommandos
merge index segments
Fasst mehrere indexe zusammen
