Eine andere zu versuchende Idee könnte darin bestehen, allgemeine Zeichenketten zu identifizieren und sie mit einer Bitmap darzustellen. Haben Sie zum Beispiel zwei Bits, um das Protokoll darzustellen (http, https, ftp oder etwas anderes), ein weiteres Bit, um anzugeben, ob die Domain mit "wwww" beginnt, zwei Bits, um anzugeben, ob die Domain mit ".com" endet, ". org", ".edu" oder etwas anderes. Sie müssten Ihre Daten analysieren und sehen, ob diese sinnvoll sind und ob es andere gängige Zeichenfolgen gibt, die Sie identifizieren können.
Wenn Sie viele URLs zu derselben Site haben, können Sie Ihre Tabelle auch in zwei verschiedene aufteilen, von denen eine die Domain und die andere den domainrelativen Pfad (und die Abfragezeichenfolge und die Fragment-ID, falls vorhanden) enthält. Sie hätten eine Linktabelle mit der ID der URL, der ID der Domäne und der ID des Pfads, und Sie würden Ihre ursprüngliche URL-Tabelle durch eine Ansicht ersetzen, die die drei Tabellen verknüpft. Die Domänentabelle müsste nicht auf die Domäne beschränkt sein, Sie könnten so viel URL wie üblich einschließen (z. B. „http://stackoverflow.com/questions“). Dies würde nicht zu viel Code zum Implementieren erfordern und hat den Vorteil, dass es immer noch lesbar ist. Ihre numerische Kodierung könnte effizienter sein, sobald Sie es herausgefunden haben, müssen Sie Ihre Daten analysieren, um zu sehen, welche sinnvoller ist.