Oracle
 sql >> Datenbank >  >> RDS >> Oracle

Oracle Fuzzy-Textsuche

Der Namensabgleich ist schwierig . Die Textindizierung von Oracle unterstützt Fuzzy-Matching und Stemming, was ein Anfang ist, aber bedenken Sie diese Namen:

  • Nicholas Raleigh
  • Nihcolas Raleigh
  • Nico Raleigh
  • Nik Raleigh
  • Nicky Raleigh
  • Nick Raleigh
  • Nikolaus Raleigh
  • Nicola Raleigh
  • Nikki Raleigh
  • Nikola Raleigh
  • Nikolai Raleigh
  • Nikolaj Raleigh

Der Versuch, diese durch Abstraktionen abzugleichen, sei es Levenshtein Distance oder Double Metaphone, wird falsch positive und falsch negative Ergebnisse erzeugen. Das ist die Natur der Abstraktion. Der beste Weg, um einen fokussierten und genauen Ergebnissatz zu erhalten, ist ein Thesaurus (und selbst dieser ist nicht perfekt). Leider ist die Zusammenstellung eines umfassenden Thesaurus von Namen ein gigantisches Unterfangen; Um einen Eindruck von der Aufgabe zu bekommen, sehen Sie sich die Statistiken auf der NameX-Seite an .

Update:Oracle 11gR2 enthält eine Erweiterung für Oracle Text, die auf die Namenssuche zugeschnitten ist. Dies ist sehr ordentlich und definitiv der erste Ort, um anzufangen. Weitere Informationen .