Mysql
 sql >> Datenbank >  >> RDS >> Mysql

Holen Sie sich die am häufigsten wiederholten ähnlichen Felder in der MySQL-Datenbank

Worüber Sie sprechen, ist ein Text-Clustering-Prozess. Sie versuchen, ähnliche Textteile zu finden, und wählen willkürlich einen davon aus. Ich kenne keine Datenbank, die diese Form des Text-Mining durchführt.

Für das, was Sie beschreiben, würde wahrscheinlich eine ziemlich einfache Text-Mining-Technik funktionieren. Erstellen Sie eine Term-Dokument-Matrix mit allen Wörtern außer den Benutzernamen. Verwenden Sie dann die Einzelwertzerlegung, um den größten Einzelwert und Vektor zu erhalten (dies ist die erste Hauptkomponente der Korrelationsmatrix). Die ähnlichen Aktivitäten sollten sich entlang dieser Linie bündeln.

Wenn Sie nur über einen begrenzten Wortschatz verfügen und die Begriffe in einer Tabelle haben, können Sie den Abstand zwischen zwei Aktionen anhand des Anteils der sich überschneidenden Wörter messen. Haben Sie eine Liste aller Wörter in den Aktionen?