Die Filtertabelle geht genauer auf die einzelnen Schritte im rekursivem Tokenisierungsteil ein.
Die Reichenfolge der Filter kann in Ausnahmefällen ausschlaggebend für die Einteilung einzelner Token sein.
Die Filtertabelle geht genauer auf die einzelnen Schritte im rekursivem Tokenisierungsteil ein.
Die Reichenfolge der Filter kann in Ausnahmefällen ausschlaggebend für die Einteilung einzelner Token sein.
|
Überprüfungsart |
Kriterium |
Zusammenhalt |
Bedingung |
Beispiele |
|---|---|---|---|---|
|
Exact match |
Liste von Wörtern wo das „s“ eine Abkürzung für „es“ ist |
Nein |
keine |
gehts wirds machs |
|
Exact match |
@-Zeichen am Wortanfang |
Nein |
keine |
@frido @heise.de |
|
Partial match |
URL mit Top-Level-Domain |
Ja |
keine |
hallo.de http://abc.d.org/ind |
|
Partial match |
Einheitenkombinationen mit '/' |
Ja |
Nicht case-sensitive |
km/h mBit/s |
|
Partial match |
Aufzählung: Zahl mit Punkt |
Ja |
Vorher steht kein Zeichen, Nachher steht keine Zahl |
3. 12. |
|
Partial match |
Spezielle Aufzaehlung mit Punkt |
Ja |
Vorher steht kein Zeichen |
3.) ii. VI. |
|
Exact match |
Einzelner Buchstabe mit Punkt |
Nein |
Vorher und Nachher steht kein Zeichen |
M. A. |
|
Partial match |
Liste
von Abkürzungen mit Punkt |
Ja |
Vorher
steht kein Buchstabe und keine Zahl. Vorher und Nachher steht kein Bindezeichen (wenn doch, hallte Punkt zusammen) |
usw.
Abb. öffentl. |
|
Partial match |
Liste
von Abkürzungen ohne Punkt |
Ja |
Vorher und Nachher steht weder ein Buchstabe, eine Zahl noch ein Bindezeichen. Nicht Case-Sensitiv |
mp3 1A |
|
Partial match |
Umgangssprachliche
Wörter mit Apostroph |
Nein |
Nachher
steht kein Buchstabe |
´s
´nen geht´s |
|
Partial match |
Datum |
Ja |
Vorher
steht kein Buchstabe |
10.10 2.3.2011 |
|
Partial match |
Smiley
mit anführenden Buchstabe |
Ja |
Vorher
steht kein Buchstabe |
d: p: |
|
Partial match |
Sonderfall Smiley mit ')' |
Ja |
Vorher steht weder Buchstabe noch Zahl |
): |
|
Partial match |
Smiley
mit Buchstabe am Ende |
Ja |
Nachher
steht kein Buchstabe |
:D :p |
|
Partial match |
Buchstabe
+ „Klammer zu“ |
Ja |
Vorher
steht kein Zeichen |
a) b)
A) B) |
|
Partial match |
Smileys
ohne Buchstaben |
Ja |
Keine |
:) :-)
(: |
|
Partial match |
Ausnahmesmileys |
Ja |
Keine |
[++]
,-) ^^ |
|
Partial match |
Uhrzeit |
Ja |
Keine |
11:13
12:33:47 |
|
Partial match |
Zahlen
und Wörter in Kombination |
Ja |
Keine |
6te
33stes 3fach 1A |
|
Partial match |
Einfache
Kommazahl (auch Punkt erlaubt) |
Ja |
Keine |
5,1
53,1 512.3 |
|
Partial match |
Preisangabe |
Ja |
Keine |
5,- 7,- |
|
Partial match |
Mehrfaches
Satzende |
Ja |
Keine |
???
… ??!! |
|
Partial match |
Dateiname mit bekannter Endung |
Ja |
Keine |
hallo.jpg dateien.zip |
|
Partial match |
Einzelnes x bzw. X |
Nein |
Vorher
und Nachher muss eine Zahl stehen |
1354x156
156X477 |
|
Partial match |
einzelnes Sonderzeichen
(ausgenommen Verbunds- und Anführungszeichen) |
Ja |
Im Ausnahmefall wird ein Punkt nicht gematcht |
, # ;
< > | ! ? ^ ) ( * . : = [ ] + \ » « ~ |
|
Partial match |
Zahl hinter der direkt eine Einheit steht |
Nein |
Exakter Match auf Zahl mit gültiger Einheit |
55Grad
4Stück 5€ 77km/h |
|
Exact match |
Wort + Zahl |
Nein |
keine |
Dieter85 |
|
Exact match |
Zahl + Unterstrich + Wort |
Nein |
keine |
1985_Dieter |
|
Exact match |
Bindezeichen und Zahl |
Nein |
keine |
-23 |
|
Partial match |
Wörter mit Verbindungszeichen |
Ja |
Jedes
Verbindungszeichen muss mindestens an eine nicht-Zahl grenzen
(Ausnahmen sind hier komplexer) |
Sprint-cdma-netz
Beispiel- -Haus Dorf&Stadt- kx-tg7301g |
|
Partial match |
einzelnes Verbunds-
und Anführungszeichen |
Ja |
Keine |
&
_ - / " ' ’ ´ ` „ “ |