Mysql
 sql >> Datenbank >  >> RDS >> Mysql

Jaro-Winkler-Funktion:Warum passt dieselbe Punktzahl zu sehr ähnlichen und sehr unterschiedlichen Wörtern?

Die Jaro-Winkler-Distanzformel ist auf Saiten mit einem gemeinsamen Anfang ausgerichtet. Zum Beispiel Valentinna und Valentiria .

Es hat auch einige nicht so intuitive "Regeln" (siehe wikipedia ). ).

Sie sollten wahrscheinlich zuerst bestimmen, welche Art von Unähnlichkeit Sie erwarten, und dann nach einer geeigneten Abstandsformel suchen. Zum Beispiel ist beim Schreiben "Winkelwurm" und "Engelwurm" ein sehr wahrscheinlicher Fehler, daher sollte der Abstand zwischen den beiden Zeichenfolgen gering sein. Während die Nichtübereinstimmung von "there" und "three" weniger wahrscheinlich ist und "ether" noch wahrscheinlicher. Bei längeren Anagrammen ist die Jaro-Distanz möglicherweise genau gleich und sogar die Winkler-Korrektur greift möglicherweise nicht.

Wie Sie auf dieser Seite nachlesen können (Hervorhebung von mir)