Speicher
Da der DataVault für die Indizierung von Dokumenten diese vollständig herunterladen muss, ist es wichtig, dass besonders für den ersten, vollständigen Indexierungslauf genügend Speicherplatz für die komplette Datenmenge zur Verfügung zu steht. Die komplette Textmenge, die aus Dateien extrahiert wird, muss in der Vektordatenbank gespeichert werden, daher muss für die Vektor-DB entsprechend ausreichend Speicherplatz zur Verfügung stehen, um die gestamte Textmenge plus die Vektordaten für jedes Textfragment zu speichern.In der Vektordatenbank wird nur der aus den Originaldateien extrahierte Text
gespeichert, nicht die Originaldateien selbst. Je nach Ausgangsformat der
Dateien reicht also ein Bruchteil des Speicherplatzes der Originaldateien, da
z.B. aus einem mehrere MB großen PDF oft nur wenige KB an Text extrahiert
werden.