Www.suchcentrum.de
Aus Deutsches Nutch Wiki
Ausstattung Server:
STRATO Power-Server
SUSE Linux 9.0
Prozessor: AMD Prozessor Sempron 2200+
Arbeitsspeicher: 512 MB
Festplatte: 60 GB
Ziel:
Indexierung von max. 20 unterschiedlichen Domains. Zu indexierende Seiten: 3 Mio.
Eingesetzte Version:
nutch-2005-07-20.tar
Vorgehensweise:
Installation von JAVA && Tomcat über yast2
Entpacken des Archives.
Erstellen der verzeichnisse db und segments
Erstellen der DB:
bin/nutch admin db -create
Hinzufügen von URLS mit:
bin/nutch inject db -urlfile urls.txt (in der urls.txt steht derzeit nur eine Domain drin)
Generieren einer Liste der zu holenden URLS:
bin/nutch generate db segments
(Dürfte in meinem Fall dann nur eine URL sein)
Jetzt den Indexer mit dem Segment füttern:
s1=`ls -d segments/2* | tail -1`
bin/nutch fetch $s1
Danach wird die Datenbank mit den Ergebnissen gefüllt:
bin/nutch updatedb db $s1
Das ganze wird dann noch zwei mal ausgeführt um somit eine entsprechende tiefe in den Index zu bekommen:
bin/nutch generate db segments
s2=`ls -d segments/2* | tail -1`
bin/nutch fetch $s2
bin/nutch updatedb db $s2
bin/nutch generate db segments
s3=`ls -d segments/2* | tail -1`
bin/nutch fetch $s3
bin/nutch updatedb db $s3
Dann das indexieren:
bin/nutch index $s1
bin/nutch index $s2
bin/nutch index $s3
Jetzt noch die Duplicate löschen:
bin/nutch dedup segments dedup.tmp
Dann muss noch Apache Tomcat gestartet bzw. neu gestartet werden:
/usr/sbin/rctomcat5 (start|restart)
Nun kann mann über http://www.domain.de:8080 die ersten suchanfragen starten.
Probleme die aufgetaucht sind:
Beim ersten Start von bin/nutch kam folgende Fehlermeldung:
Error: JAVA_HOME is not set.
Ein setzen der Variable
NUTCH_JAVA_HOME=/usr/lib/java/
auf der Shell hatte keinen erfolg gebracht.
Die Zeile NUTCH_JAVA_HOME=/usr/lib/java/ wurde dann in bin/nutch am Anfang eingefügt.
Weitere einstellungen:
iptables -t nat -A PREROUTING -i eth0 -p tcp --dport 80 -j REDIRECT --to-port 8080
