topwords: only [a-z] words, quality is better;

blank removes; 
properties added;


git-svn-id: https://svn.berlios.de/svnroot/repos/yacy/trunk@2632 6c8d7289-2bf4-0310-a012-ef5d649a1542
pull/1/head
borg-0300 19 years ago
parent 66a58502df
commit 16ba5d1b46

@ -48,7 +48,6 @@
import java.io.IOException;
import java.net.MalformedURLException;
import de.anomic.net.URL;
import java.util.HashMap;
import java.util.Iterator;
import java.util.TreeSet;
@ -60,11 +59,12 @@ import de.anomic.kelondro.kelondroNaturalOrder;
import de.anomic.plasma.plasmaCrawlLURL;
import de.anomic.plasma.plasmaParserDocument;
import de.anomic.plasma.plasmaSearchImages;
import de.anomic.plasma.plasmaSearchPreOrder;
import de.anomic.plasma.plasmaSearchQuery;
import de.anomic.plasma.plasmaSearchRankingProfile;
import de.anomic.plasma.plasmaSearchTimingProfile;
import de.anomic.plasma.plasmaSwitchboard;
import de.anomic.plasma.plasmaSearchQuery;
import de.anomic.plasma.plasmaSearchPreOrder;
import de.anomic.net.URL;
import de.anomic.server.serverCore;
import de.anomic.server.serverDate;
import de.anomic.server.serverObjects;
@ -263,15 +263,16 @@ public class yacysearch {
if (hintcount > 0) {
prop.put("type_combine", 1);
// get the topwords
final TreeSet topwords = new TreeSet(kelondroNaturalOrder.naturalOrder);
String tmp = "";
for (int i = 0; i < hintcount; i++) {
tmp = (String) references[i];
if (!tmp.matches("[0-9]+")) {
if (tmp.matches("[a-z]+")) {
topwords.add(tmp);
} // omit in the production ?
// } else {
// topwords.add("(" + tmp + ")");
}
}
// filter out the badwords

@ -1,5 +1,5 @@
# Wenn man diese Liste benutzen moechte muss diese zuerst in "yacy.badwords"
# unbenannt werden !
# umbenannt werden !
#
# Alles was hier gelistet ist wir dann bei den "Topwoerter" die nach einer
# Suche angezeigt werden gefiltert.
@ -9,50 +9,60 @@
# Fehlt hier was, wird zu viel gefiltert, dann bitte aendern.
# Wenn was entfernt wird bitte auch schreiben warum das hier raus muss.
#
# Jeder darf/sollte jetzt mitmachen ;)
# Jeder darf und sollte mitmachen !
#
enc
all
app
from
***
alles
dem
den
ich
werde
wer
wie
was
von
vom
# $LastChangedDate$
# $LastChangedRevision$
# $LastChangedBy$
#
aber
allen
weitere
fuer
dir
nach
alles
auch
auf
aus
mit
zum
bei
ueber
ist
eine
auch
aber
und
der
die
bringt
das
dass
oder
dem
den
der
die
dir
eine
fuer
ich
ist
kein
mehr
meine
meldung
mit
nach
nicht
oder
ueber
und
vom
von
was
weg
weitere
wer
werde
wie
zum
>>>
***
ads
ads43
all
app
are
enc
from
jhtml
the
shtml
site=all
referrer=default

Loading…
Cancel
Save