Datenquellen (RAG)

Datenquellen sind die Basis für Retrieval-Augmented Generation (RAG) in meinGPT. Inhalte aus angebundenen Quellen werden indexiert und stehen Deinen Assistenten als Wissen zur Verfügung. Du kannst eine Datenquelle aber auch direkt in einem Chat anhängen, wenn Du nur einmal etwas darin nachlesen möchtest.

Wie die Suche funktioniert

Kunden-Wissensbestände sind oft groß. Hunderte oder tausende Gigabyte an Word-, PDF- und anderen Dateien sind keine Seltenheit. Jede Suchanfrage durch alle Dateien zu schicken wäre viel zu langsam. Deshalb wird vorab ein Suchindex aufgebaut. Funktioniert ähnlich wie Google, nur eben für Deine internen Dokumente.

Die initiale Indexierung kann je nach Datenmenge Stunden bis Tage dauern. Word-, PDF- und ähnliche Formate sind binär aufgebaut, der Text muss erst extrahiert werden. Dieser einmalige Aufwand zahlt sich danach in schnellen Suchergebnissen aus.

Eigenschaften der Suche:

Semantisch: Dokumente werden in mathematische Repräsentationen umgewandelt (sogenannte Embeddings), die den inhaltlichen Sinn erfassen, nicht nur einzelne Wörter.
Sortierung nach Relevanz: Treffer werden nach inhaltlicher Passung sortiert, nicht nach Häufigkeit eines Suchbegriffs. Ein Dokument, das thematisch zur Frage passt, kann höher ranken als eines mit dem exakten Schlüsselwort.
Anzahl der Treffer: Standardmäßig werden die zehn relevantesten Quellen zurückgegeben. Die Anzahl ist in den Einstellungen konfigurierbar.
Dateinamen-Suche: Neben dem Inhalt kann auch gezielt nach Dateinamen gesucht werden, etwa "Zeig mir Datei XY".

Eckdaten der Cloud-Datenquelle

Für die meisten Teams ist die cloud-basierte Datenquelle die richtige Wahl.

Eigenschaft	Wert
Hosting	meinGPT Cloud (Hetzner, Deutschland)
Sync-Intervall	Alle 15 Minuten
Suchergebnisse pro Anfrage	Standardmäßig 10, einstellbar
Suchverfahren	Semantisch (Embeddings, sortiert nach Relevanz)
Verfügbarkeit	Im Standardpaket enthalten

Dateiformate

Gut unterstützt sind alle Formate, die primär aus Text bestehen:

Office-Dokumente: DOCX, PPTX, XLSX (mit Einschränkungen, siehe unten)
PDF
TXT, Markdown, HTML
Code-Dateien

Excel-Tabellen sind ein Sonderfall. Beim Aufteilen in durchsuchbare Abschnitte (sogenanntes Chunking) geht der Tabellenkontext verloren. Eine einzelne Datenzeile ohne ihre Spaltenheader ergibt oft keinen Sinn mehr. Für Berechnungen, Auswertungen und Visualisierungen aus Excel-Dateien nutze stattdessen den Excel-Modus, der die Originaldatei direkt verarbeitet.

OneNote-Workaround. OneNote-Dateien werden derzeit nicht direkt indexiert, weil das Format proprietär ist. Workaround: OneNote-Inhalte regelmäßig automatisiert exportieren, etwa via Make oder n8n, als PDF oder Text. Die exportierten Dateien lassen sich dann ganz normal als Quelle anbinden.

Zugriffskontrolle

Datenquellen können auf bestimmte Teams eingeschränkt werden. Du legst Teams in der Admin-Oberfläche an und ordnest sie spezifischen Datenquellen zu. So steuerst Du, welche Nutzergruppen welche Daten sehen.

Details zum Anlegen und Verwalten von Teams: Team-Management.

Wie meinGPT mit Dateien arbeitet (3-Stufen-Modell)

Nicht jede Anfrage erfordert die gleiche Verarbeitungstiefe. meinGPT entscheidet pro Anfrage automatisch, wie tief es gehen muss. Es gibt drei Stufen:

Stufe	Was passiert	Reicht für
1. Suche	Die Plattform durchsucht alle konfigurierten Quellen und liefert Snippets sowie Dateinamen zurück	Einfache Fragen wie "Gibt es ein Dokument zu Thema X?"
2. Volltext laden	Das Modell lädt den kompletten Inhalt einzelner Dateien, die nach Stufe 1 relevant erscheinen	Inhaltliche Fragen zu einzelnen, nicht zu großen Dokumenten
3. Code Sandbox	Die Originaldatei wird in einem abgeschotteten Bereich (Sandbox) geöffnet und mit Python verarbeitet	Berechnungen, Auswertungen, Diagramme aus großen oder strukturierten Dateien (z. B. Excel mit vielen Zeilen)

Du brauchst nichts manuell zu konfigurieren. Mehr Details zur Sandbox: Code Sandbox.

Hinweis für On-Premise-Setups: Stufe 3 (Sandbox) lädt Originaldateien temporär in die meinGPT Cloud, weil die Sandbox-Umgebungen dort laufen. Die Dateien werden nach der Verarbeitung sofort gelöscht. Bei datenschutzsensiblen Setups solltest Du das Deinen Stakeholdern transparent kommunizieren.

SharePoint Connector vs. Datenquelle: wann was?

Wenn Du SharePoint-Daten in meinGPT nutzen willst, hast Du zwei Optionen: den nativen Microsoft 365 Connector oder eine Datenquelle mit SharePoint als Quelle. Beide haben ihre Stärken.

Kriterium	Microsoft 365 Connector	Datenquelle mit SharePoint-Quelle
Suchverfahren	Direktzugriff in Echtzeit	Vorab-Index, Sync alle 15 Minuten
Berechtigungen	Respektiert SharePoint-Permissions automatisch (auf Nutzer-Ebene über OAuth)	Admin konfiguriert manuell. SharePoint-Permissions greifen nicht automatisch
Authentifizierung	Jeder Nutzer authentifiziert sich individuell	Zentral konfiguriert
Skalierung	Gut für gezielte Recherche in einzelnen Sites oder Ordnern	Skaliert auf große Datenmengen, mehrere Quellen kombinierbar
Quellen kombinieren	Nur SharePoint und OneDrive	Mehrere Quellen in einer Datenquelle (SharePoint, lokale Dateien, Drive, …)

Faustregel:

Microsoft 365 Connector für die meisten SharePoint-Anwendungsfälle. Vor allem dann, wenn jeder Nutzer nur das sehen soll, was er auch in SharePoint selbst sehen darf.
Datenquelle, wenn Du große Bestände zentral indexieren willst, mehrere Quellen mischen musst oder eine zentrale Wissensdatenbank ohne individuelle Permissions brauchst.

Konfiguration & Empfehlungen

Daten gezielt eingrenzen

Es gibt kein hartes Datenlimit. Aber je mehr Daten eine Datenquelle umfasst, desto stärker konkurrieren irrelevante Treffer mit den passenden. Empfehlung:

Pro Datenquelle gezielt 500 bis 1.000 relevante Dateien anbinden, nicht den gesamten SharePoint
Lieber mehrere spezialisierte Datenquellen als eine riesige, zum Beispiel "HR-Richtlinien", "Produkt-Spezifikationen", "Vertriebs-Material"
Je präziser eine Datenquelle, desto besser die Treffer

Kurzbeschreibung sorgfältig formulieren

Die Kurzbeschreibung einer Datenquelle ist nicht nur Doku. Sie wird vom Modell genutzt, um zu entscheiden, ob eine Datenquelle für eine Anfrage relevant ist. Eine schlechte Beschreibung führt dazu, dass Datenquellen bei passenden Fragen nicht durchsucht werden.

Gut: "Enthält alle internen HR-Richtlinien, Prozessbeschreibungen und Onboarding-Dokumente."

Weniger gut: "HR-Dokumente."

Tool-Referenz im System-Prompt

In Assistenten-Instruktionen lohnt es sich, Datenquellen explizit anzusprechen. Zum Beispiel: "Starte jede Konversation damit, relevante Informationen aus der angebundenen Datenquelle abzurufen." Das macht die Nutzung der Datenquelle zuverlässiger.

Advanced: Customer-Managed Data Vault (On-Premise)

Wenn Du eine eigene On-Premise-Wissensinfrastruktur betreiben willst, etwa für regulierte Branchen oder besondere Sicherheitsanforderungen, kannst Du einen eigenen Data Vault deployen. Daten verlassen Dein Netzwerk dann nicht. Ausnahme ist die temporäre Sandbox-Verarbeitung, siehe oben.

Netzwerkmodell wählen: On-Premise Connections
Vault-Betrieb und Konfiguration: /integrations/vault

Sources

Alle unterstützten Quellen findest Du hier:

Data Sources

Typische Quellen:

SharePoint und OneDrive
Google Drive
Confluence
Amazon S3
SMB und WebDAV
Lokale Filesysteme

Custom Data Preparation Pipelines

Ein eigenes Muster mit S3-Übergabepunkt für Drittsysteme findest Du hier:

Custom Data Preparation Pipelines

Overview