Postgresql - Leistung bei der Verwendung von Arrays in großen Datenbanken

Ich denke, Sie sollten ein elements verwenden Tabelle:

Postgres wäre in der Lage, Statistiken zu verwenden, um vorherzusagen, wie viele Zeilen übereinstimmen, bevor die Abfrage ausgeführt wird, sodass es in der Lage wäre, den besten Abfrageplan zu verwenden (es ist wichtiger, wenn Ihre Daten nicht gleichmäßig verteilt sind);
Sie können Abfragedaten mithilfe von CLUSTER elements USING elements_id_element_idx lokalisieren;
Wenn Postgres 9.2 veröffentlicht wird, können Sie nur Index-Scans nutzen;

Aber ich habe einige Tests für 10 Millionen Elemente gemacht:

create table elements (id_item bigint, id_element bigint);
insert into elements
  select (random()*524288)::int, (random()*32768)::int
    from generate_series(1,10000000);

\timing
create index elements_id_item on elements(id_item);
Time: 15470,685 ms
create index elements_id_element on elements(id_element);
Time: 15121,090 ms

select relation, pg_size_pretty(pg_relation_size(relation))
  from (
    select unnest(array['elements','elements_id_item', 'elements_id_element'])
      as relation
  ) as _;
      relation       | pg_size_pretty 
---------------------+----------------
 elements            | 422 MB
 elements_id_item    | 214 MB
 elements_id_element | 214 MB



create table arrays (id_item bigint, a_elements bigint[]);
insert into arrays select array_agg(id_element) from elements group by id_item;

create index arrays_a_elements_idx on arrays using gin (a_elements);
Time: 22102,700 ms

select relation, pg_size_pretty(pg_relation_size(relation))
  from (
    select unnest(array['arrays','arrays_a_elements_idx']) as relation
  ) as _;
       relation        | pg_size_pretty 
-----------------------+----------------
 arrays                | 108 MB
 arrays_a_elements_idx | 73 MB

Andererseits sind Arrays kleiner und haben einen kleineren Index. Ich würde ungefähr 200 Millionen Elementtests durchführen, bevor ich eine Entscheidung treffe.