Java-Heap-Größenfehler beim Versuch, 15980-Dokumente über carrot2workbench zu clustern

Ihr Verdacht ist richtig, es handelt sich um ein Heap-Größenproblem oder genauer gesagt um eine Skalierbarkeitsbeschränkung. Direkt aus den FAQs von carrot2:http://project.carrot2.org/faq.html#scalability

Wie skaliert das Carrot2-Clustering in Bezug auf die Anzahl und Länge der Dokumente? Das wichtigste zu beachtende Merkmal der Carrot2-Algorithmen ist, dass sie In-Memory-Clustering durchführen. Aus diesem Grund sollte Carrot2 als Faustregel bis zu tausend Dokumente mit jeweils wenigen Absätzen erfolgreich bewältigen. Für Algorithmen, die entwickelt wurden, um Millionen von Dokumenten zu verarbeiten, sollten Sie sich das Mahout-Projekt ansehen.

Ein Entwickler hat darüber auch hier gepostet:https://stackoverflow.com/a/28991477

Während die Entwickler Mahout empfehlen und dies wahrscheinlich der richtige Weg ist, da Sie nicht an die Einschränkungen des In-Memory-Clusters wie in Karotte2 gebunden sind, gibt es möglicherweise andere Möglichkeiten:

Wenn Ihnen carrot2 sehr gefällt, Sie aber nicht unbedingt k-means benötigen, können Sie sich das kommerzielle Lingo3G ansehen, basierend auf dem Feld „Time of clustering 100000 snippets [s]“ und der (***)-Bemerkung zu http://carrotsearch.com/lingo3g-comparison es sollte in der Lage sein, mehr Dokumente zu bearbeiten. Überprüfen Sie auch deren FAQ-Eintrag zu "Was ist die maximale Anzahl an Dokumenten, die Lingo3G gruppieren kann?" auf http://carrotsearch.com/lingo3g-faq
Versuchen Sie, die Größe Ihrer Labels zu minimieren, auf denen k-means das Clustering durchführt. Anstatt über den gesamten Inhalt des Dokuments zu gruppieren, versuchen Sie, die Zusammenfassung/Zusammenfassung zu gruppieren oder wichtige Schlüsselwörter zu extrahieren und darauf zu gruppieren.