Für den Betrieb des DataVaults ist ein Embedding-Modell notwendig. Dieses wandelt die Texte in mathematische Vektoren um, die dann für die semantische Suche verwendet werden können.

Embedding-Modell auswählen

Das Embedding-Modell kann entweder lokal oder bei einem Cloud-Provider betrieben werden. Dabei gilt es folgende Aspekte zu beachten:

Lokaler Betrieb:

  • Höhere Datensicherheit, da die Daten das eigene System nicht verlassen
  • Benötigt entsprechende Hardware-Ressourcen (CPU/GPU, Arbeitsspeicher)
  • Langsamere Verarbeitung im Vergleich zu Cloud-Lösungen

Cloud-Provider:

  • Schnellere Verarbeitung
  • Keine zusätzliche Hardware erforderlich
  • Daten werden zur Verarbeitung an den Provider übermittelt

Unterstütze Provider

OpenAI

OpenAI ist der wohl bekannteste Anbieter für KI-Modelle und hat einige der führenden Modelle auf dem Markt. Mit text-embedding-3-small und text-embedding-3-large können sehr gute Ergebnisse erzielt werden.

Allerdings findet die Verarbeitung der Daten hier ggf. in Rechenzentren in den USA statt, sodass nicht der höchste Datensicherheitsstandard eingehalten werden kann.

Azure

Azure bietet als OpenAI-Partner ebenfalls die text-embedding-3-small und text-embedding-3-large Modelle an, die bei Azure auch in EU-Rechenzentren gehosted werden können. Hier fließen also garantiert keine Daten in die USA, allerdings gehört Azure zu Microsoft und ist somit ebenfalls ein US-amerikanischer Anbieter.

Nebius

Nebius ist ein europäischer Cloud-Provider, der neben anderen Diensten auch Embedding-Modelle anbietet. Die Daten werden in EU-Rechenzentren verarbeitet, und es besteht keine Beziehung zu einem US-amerikanischen Mutterkonzern. Ein API-Key für Nebius kann unter https://studio.nebius.ai/ erworben werden.

HuggingFace

HuggingFace ist ein Online-Repository für open source KI-Modelle und bietet eine Breite auswahl an KI-Modellen an. Die aktuell besten Embedding-Modelle können auch im Leaderboard der MTEB-Benchmark gefunden werden.

Dabei ist aber zu beachten, dass die am besten performenden Modelle oft auch die größten sind und dadurch einen hohen Speicherbedarf und eine lange Latenz haben. Zudem nutzen diese Modelle oft mehr Dimensionen in den Vektoren, was den Speicherbearf und die Suchgeschwindigkeit beeinflusst.

Embedding-Modelle sind zwar im durchschnitt deutlich kleiner als LLMs, große Modelle können aber immer noch viele GB an Arbeitsspeicher benötigen und brauchen ggf. eine GPU für die effiziente Verarbeitung.