Systemanforderungen
Überblick über die Systemanforderungen für ein DataVault-Deployment
Speicher
Da der DataVault für die Indizierung von Dokumenten diese vollständig herunterladen muss, ist es wichtig, dass besonders für den ersten, vollständigen Indexierungslauf genügend Speicherplatz für die komplette Datenmenge zur Verfügung zu steht.
Die komplette Textmenge, die aus Dateien extrahiert wird, muss in der Vektordatenbank gespeichert werden, daher muss für die Vektor-DB entsprechend ausreichend Speicherplatz zur Verfügung stehen, um die gestamte Textmenge plus die Vektordaten für jedes Textfragment zu speichern.
In der Vektordatenbank wird nur der aus den Originaldateien extrahierte Text gespeichert, nicht die Originaldateien selbst. Je nach Ausgangsformat der Dateien reicht also ein Bruchteil des Speicherplatzes der Originaldateien, da z.B. aus einem mehrere MB großen PDF oft nur wenige KB an Text extrahiert werden.
Arbeitsspeicher
Für den DataVault selber werden ca. 4-8 GB RAM benötigt, abhängig von der Größe und Anzahl der zu verarbeitenden Dokumente.
Für die Vektor-Datenbank hängt die benötigte Speichermenge von verschiednen Faktoren ab, unter anderem die gesamtmenge
CPU und GPU
Wenn kein Embedding-Modell lokal betrieben wird, werden keine zusätzlichen Anforderungen an die CPU oder GPU gestellt.
Für lokale Modelle kann es jedoch sinnvoll sein, eine GPU oder moderne CPU mit Unterstützung für AVX2-Befehle zu verwenden, da diese Modelle mehr Dimensionen in den Vektoren erzeugen und somit mehr Rechenleistung benötigen.
Was this page helpful?