Www.suchcentrum.de

Aus Deutsches Nutch Wiki

Wechseln zu: Navigation, Suche

Ausstattung Server:

STRATO Power-Server

SUSE Linux 9.0

Prozessor: AMD Prozessor Sempron 2200+

Arbeitsspeicher: 512 MB

Festplatte: 60 GB


Ziel:

Indexierung von max. 20 unterschiedlichen Domains. Zu indexierende Seiten: 3 Mio.


Eingesetzte Version:

nutch-2005-07-20.tar


Vorgehensweise:

Installation von JAVA && Tomcat über yast2


Entpacken des Archives.


Erstellen der verzeichnisse db und segments


Erstellen der DB:

bin/nutch admin db -create


Hinzufügen von URLS mit:

bin/nutch inject db -urlfile urls.txt (in der urls.txt steht derzeit nur eine Domain drin)


Generieren einer Liste der zu holenden URLS:

bin/nutch generate db segments

(Dürfte in meinem Fall dann nur eine URL sein)


Jetzt den Indexer mit dem Segment füttern:

s1=`ls -d segments/2* | tail -1`

bin/nutch fetch $s1


Danach wird die Datenbank mit den Ergebnissen gefüllt:

bin/nutch updatedb db $s1


Das ganze wird dann noch zwei mal ausgeführt um somit eine entsprechende tiefe in den Index zu bekommen:

bin/nutch generate db segments

s2=`ls -d segments/2* | tail -1`

bin/nutch fetch $s2

bin/nutch updatedb db $s2



bin/nutch generate db segments

s3=`ls -d segments/2* | tail -1`

bin/nutch fetch $s3

bin/nutch updatedb db $s3


Dann das indexieren:


bin/nutch index $s1

bin/nutch index $s2

bin/nutch index $s3


Jetzt noch die Duplicate löschen:

bin/nutch dedup segments dedup.tmp


Dann muss noch Apache Tomcat gestartet bzw. neu gestartet werden:

/usr/sbin/rctomcat5 (start|restart)


Nun kann mann über http://www.domain.de:8080 die ersten suchanfragen starten.


Probleme die aufgetaucht sind:

Beim ersten Start von bin/nutch kam folgende Fehlermeldung:

Error: JAVA_HOME is not set.

Ein setzen der Variable

NUTCH_JAVA_HOME=/usr/lib/java/

auf der Shell hatte keinen erfolg gebracht.

Die Zeile NUTCH_JAVA_HOME=/usr/lib/java/ wurde dann in bin/nutch am Anfang eingefügt.


Weitere einstellungen:

iptables -t nat -A PREROUTING -i eth0 -p tcp --dport 80 -j REDIRECT --to-port 8080