Data Vault Architektur Dokumentation

Der Data Vault ermöglicht es Ihnen, Ihre Daten sicher vor Ort zu verarbeiten und gleichzeitig cloudbasierte KI-Dienste zu nutzen - ohne Kompromisse beim Datenschutz.

Einführung

Willkommen zur technischen Dokumentation unserer Data Vault Architektur. Diese Anleitung richtet sich an IT-Fachkräfte, die verstehen möchten, wie der Data Vault funktioniert und wie er in ihre Infrastruktur integriert werden kann.

Der Data Vault bietet eine einzigartige Lösung, die es Ihnen ermöglicht, Daten sicher vor Ort zu speichern und zu verarbeiten, während Sie cloudbasierte KI-Dienste nutzen. Er gewährleistet Datenschutz, indem sensible Informationen innerhalb Ihrer eigenen Infrastruktur bleiben.

1. Übersicht des Data Vaults

Der Data Vault ist ein lokaler Dienst, der Ihre Daten sicher innerhalb Ihrer eigenen Infrastruktur speichert und verarbeitet. Er verbindet sich mit unseren cloudbasierten KI-Diensten, um fortschrittliche Datenverarbeitung, Suche und Analysen zu ermöglichen, ohne den Datenschutz zu gefährden.

Datenschutz

Hält Ihre Daten innerhalb Ihrer Infrastruktur

Verschlüsselung

Alle Verbindungen zwischen Data Vault und Cloud sind verschlüsselt

Skalierbarkeit

Unterstützt mehrere Datenpools und Mandanten

Compliance

Unterstützt bei der Einhaltung regulatorischer Anforderungen

2. Schlüsselkomponenten

Cloud Plattform: Diese Plattform verwaltet Benutzeranfragen, definiert Datenpools und koordiniert mit dem Data Vault. Die KI-Komponente verarbeitet Benutzeranfragen und generiert Antworten basierend auf den Daten aus dem Data Vault.

Data Vault Service: Dies ist die Hauptanwendung, die auf Ihrer eigenen Infrastruktur läuft. Sie ist verantwortlich für die Datenaufnahme, -verarbeitung und -speicherung. Eine lokale Datenbank (z. B. PostgreSQL) speichert die verarbeiteten Daten und Embeddings.

3. Funktionsweise des Data Vaults

Der Data Vault arbeitet in mehreren Schritten, um sicherzustellen, dass Ihre Daten sicher und effizient verarbeitet werden:

  1. Datenaufnahme: Der Data Vault empfängt Daten aus verschiedenen Quellen, wie Cloud-Speicher, Kollaborationsplattformen und Protokollen. Diese Daten werden sicher und verschlüsselt übertragen.

  2. Datenverarbeitung: Nach der Aufnahme werden die Daten in kleinere Abschnitte (Chunks) aufgeteilt und in Text umgewandelt. Diese Textabschnitte werden dann in Embeddings umgewandelt, die in der Vault-Datenbank gespeichert werden.

  3. Datenbank-Speicherung: Die verarbeiteten Daten und Embeddings werden in einer lokalen Datenbank (z. B. PostgreSQL) gespeichert. Diese Datenbank ermöglicht eine schnelle und effiziente Suche und Abfrageverarbeitung.

  4. Anfrageverarbeitung: Wenn eine Benutzeranfrage eingeht, durchsucht der Data Vault die Datenbank nach relevanten Datenabschnitten. Diese Abschnitte werden an die Cloud-Plattform zurückgesendet, die sie an die KI-Komponente weiterleitet, um eine Antwort zu generieren.

  5. Antwortgenerierung: Die KI-Komponente verarbeitet die Datenabschnitte und generiert eine Antwort, die an den Benutzer zurückgesendet wird.

Durch diese Schritte stellt der Data Vault sicher, dass Ihre Daten sicher und effizient verarbeitet werden, während der Datenschutz gewährleistet bleibt.

Datenpool-Synchronisation

Der Data Vault synchronisiert Daten aus verschiedenen unterstützten Diensten wie Cloud-Speicher, Kollaborationsplattformen und lokalen Dateispeichern. Diese Daten werden in regelmäßigen Abständen oder nach Bedarf abgerufen und in den Data Vault übertragen. Dabei werden alle Daten sicher und verschlüsselt übertragen, um den Datenschutz zu gewährleisten. Die synchronisierten Dateien werden in Text umgewandelt, in kleinere Abschnitte (Chunks) aufgeteilt und anschließend in Embeddings umgewandelt. Diese Embeddings werden dann in der Vault-Datenbank gespeichert, um sie für KI-gestützte Analysen und Anfragen bereitzustellen.

Suche und Anfrageverarbeitung

Die Suche im Data Vault ermöglicht es Benutzern, relevante Informationen schnell zu finden. Benutzeranfragen werden an die Cloud-Plattform gesendet, die sie an den Data Vault weiterleitet. Der Data Vault durchsucht die Datenbank nach passenden Datenabschnitten und sendet diese zurück an die Cloud-Plattform. Die Cloud-Plattform nutzt dann die KI-Komponente, um eine präzise Antwort zu generieren und an den Benutzer zurückzusenden.

4. Integration mit bestehenden Diensten

Der Data Vault bietet verschiedene Möglichkeiten zur Integration mit bestehenden Diensten und Systemen. Durch standardisierte Schnittstellen und Protokolle können Sie den Data Vault nahtlos in Ihre bestehende IT-Infrastruktur einbinden und mit einer Vielzahl von Datenquellen verbinden.

Unterstützte Dienste

Collaboration

  • Microsoft SharePoint
  • Microsoft OneDrive
  • Google Drive
  • pCloud

Cloud Storage

  • Amazon S3 (oder S3-kompatibel)
  • Google Cloud Storage
  • Microsoft Azure Blob Storage
  • Backblaze B2

Lokale Dateien

  • FTP/SFTP
  • WebDAV
  • SMB

Datenbanken

  • PostgreSQL (kommt bald)
  • MySQL (kommt bald)

Direkte API-Schnittstelle

Der Data Vault bietet eine direkte API-Schnittstelle für die Integration mit Ihren eigenen Anwendungen. Die RESTful API ermöglicht aktuell folgende Grundfunktionen:

  • Dokumente hochladen
  • Bestehende Dokumente aktualisieren
  • Dokumente löschen

Die API verwendet standardmäßig HTTPS und authentifiziert Anfragen über API-Schlüssel. Weitere API-Funktionen wie Metadaten-Management und Suchfunktionen sind in Entwicklung.

5. Sicherheit und Compliance

Datenschutz

  • Lokale Speicherung aller Daten
  • Kontrollierter Zugriff
  • Verschlüsselte Übertragung

Credentials Management

  • Sichere lokale Speicherung
  • Minimale Cloud-Credentials
  • Regelmäßige Rotation

6. Einrichtung des Data Vaults auf der eigenen Infrastruktur

Der Vault ist gerade in der Beta-Phase und wird in Kürze verfügbar sein.

Um den Data Vault optimal zu betreiben, stellen Sie sicher, dass Ihre Infrastruktur die folgenden Mindestanforderungen erfüllt:

  • Speicherplatz: Mindestens 100 GB lokaler Speicher
  • CPU: 8 CPU-Kerne
  • RAM: 32 GB Arbeitsspeicher

Zusätzlich können Sie den Data Vault mit Docker Compose einrichten, um die Verwaltung und Skalierung der Dienste zu erleichtern. Ein Beispiel für eine docker-compose.yml-Datei könnte wie folgt aussehen:

Komponentenbeschreibung

Der Data Vault besteht aus mehreren wichtigen Komponenten, die zusammenarbeiten, um eine sichere und effiziente Datenverwaltung zu gewährleisten:

  • Data Vault Service: Der zentrale Dienst, der alle Datenoperationen koordiniert und verwaltet.
  • PostgreSQL: Eine relationale Datenbank, die zur Speicherung von Metadaten und Konfigurationsinformationen verwendet wird.
  • Connection Agent: Ein Agent, der für die Datenübertragung und -synchronisation zwischen Cloud & Vault verantwortlich ist.

Der Connection Agent operiert in einer sicheren Netzwerkumgebung durch ein mehrstufiges Proxy-System:

  • Alle Verbindungen werden über einen dedizierten Proxy-Server und WebSocket-Proxy geleitet
  • Eingehende Verbindungen werden durch den WebSocket-Proxy authentifiziert und verschlüsselt
  • Der Agent selbst benötigt keine direkten Firewall-Regeln oder offenen Ports
  • Die Architektur ermöglicht sichere bidirektionale Kommunikation bei maximaler Netzwerksicherheit Diese Implementierung gewährleistet sowohl höchste Sicherheitsstandards als auch optimale Performance bei der Datenübertragung.

7. Häufig gestellte Fragen

Für weitere Fragen oder Unterstützung wenden Sie sich bitte an unser technisches Team unter support@meingpt.com