PostgreSQL
 sql >> Datenbank >  >> RDS >> PostgreSQL

Wie finde ich fast ähnliche Datensätze in SQL?

Ein solches Suchkriterium kann keine Indizes verwenden, aber es ist möglich...

SELECT
  *
FROM
  yourTable
WHERE
  N-M <= CASE WHEN yourTable.field1 = searchValue1 THEN 1 ELSE 0 END
       + CASE WHEN yourTable.field2 = searchValue2 THEN 1 ELSE 0 END
       + CASE WHEN yourTable.field3 = searchValue3 THEN 1 ELSE 0 END
       ...
       + CASE WHEN yourTable.fieldN = searchValueN THEN 1 ELSE 0 END

Ebenso, wenn sich Ihre Suchkriterien in einer anderen Tabelle befinden...

SELECT
  *
FROM
  yourTable
INNER JOIN
  search
    ON N-M <= CASE WHEN yourTable.field1 = search.field1 THEN 1 ELSE 0 END
            + CASE WHEN yourTable.field2 = search.field2 THEN 1 ELSE 0 END
            + CASE WHEN yourTable.field3 = search.field3 THEN 1 ELSE 0 END
            ...
            + CASE WHEN yourTable.fieldN = search.fieldN THEN 1 ELSE 0 END

(Sie müssen den Wert von N-M eingeben selbst)

BEARBEITEN:

Ein langwierigerer Ansatz, der einige machen kann Verwendung von Indizes...

SELECT
    id,  -- your table would need to have a primary key / identity column
    MAX(field1)   AS field1,
    MAX(field2)   AS field2,
    MAX(field3)   AS field3,
    ...
    MAX(fieldN)   AS fieldN
FROM
(
    SELECT * FROM yourTable WHERE field1 = searchValue1
    UNION ALL
    SELECT * FROM yourTable WHERE field2 = searchValue2
    UNION ALL
    SELECT * FROM yourTable WHERE field3 = searchValue3
    ...
    SELECT * FROM yourTable WHERE fieldN = searchValueN
)
    AS unioned_seeks
GROUP BY
    id
HAVING
    COUNT(*) >= N-M

Wenn Sie einen Index für jedes Feld einzeln haben und wenn Sie eine relativ geringe Anzahl von Übereinstimmungen für jedes Feld erwarten, kann dies der Fall sein die erste Option übertreffen, auf Kosten von sehr sich wiederholendem Code.