From 0d319fff41d4c6ab4efcf7565b07ef2844ca36d3 Mon Sep 17 00:00:00 2001 From: rramthun Date: Thu, 15 Sep 2005 16:30:16 +0000 Subject: [PATCH] german stopwords. We should try to use language dependent wordfiles as fast as possible, because they will prevent the indices from getting big with useless (very common) words, which have no function, while the stopwords used at the moment filter too much. git-svn-id: https://svn.berlios.de/svnroot/repos/yacy/trunk@728 6c8d7289-2bf4-0310-a012-ef5d649a1542 --- yacy.stopwords.de | 70 +++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 70 insertions(+) create mode 100644 yacy.stopwords.de diff --git a/yacy.stopwords.de b/yacy.stopwords.de new file mode 100644 index 000000000..ca953a568 --- /dev/null +++ b/yacy.stopwords.de @@ -0,0 +1,70 @@ +#Deutsche Stopwords. + +#Diese Datei wurde mit dem Programm YaWoStat erstellt. Als Textkorpus kamen eine deutsche Übersetzung der Bibel und eine Unmenge Webseiten zum Einsatz. + +#Falls jemand diese Datei ergänzen möchte, bitte ich folgendes zu bedenken: +#Ich habe über jedes Wort einzeln nachgedacht, ob mir spontan Suchanfragen einfallen, die es rechtfertigen würden, dieses Wort zu indexieren. +#Hier musste ein Mittelweg zwischen Komfort (alle Worte indexieren) und Effizienz und Speicherplatzverbrauch (möglichst wenig Worte indexieren) gefunden werden. + +#Ich denke, diese Datei stellt erst mal einen guten Mittelweg dar und kann _vorsichtig_ im Laufe der Zeit ergänzt werden, wenn der Ergänzende gut darüber nachdenkt. + +die +der +und +in +von +das +den +zu +für +ist +mit +auf +sie +im +eine +des +sich +nicht +dem +auch +als +zum +bei +wird +es +mehr +hat +an +oder +werden +aus +sind +er +ich +in +aber +es +du +daß +dass +ihr +ein +so +denn +an +da +ihm +wie +hat +euch +ihn +vor +sein +aus +nach +seine +werden +mir +was +ihnen \ No newline at end of file