Overview
Überblick zu Datenquellen, RAG und Quellenanbindung
Datenquellen (RAG)
Datenquellen sind die Basis für Retrieval-Augmented Generation (RAG) in meinGPT. Inhalte aus angebundenen Quellen werden indexiert und stehen Deinen Assistenten als Wissen zur Verfügung. Du kannst eine Datenquelle aber auch direkt in einem Chat anhängen, wenn Du nur einmal etwas darin nachlesen möchtest.
Wie die Suche funktioniert
Kunden-Wissensbestände sind oft groß. Hunderte oder tausende Gigabyte an Word-, PDF- und anderen Dateien sind keine Seltenheit. Jede Suchanfrage durch alle Dateien zu schicken wäre viel zu langsam. Deshalb wird vorab ein Suchindex aufgebaut. Funktioniert ähnlich wie Google, nur eben für Deine internen Dokumente.
Die initiale Indexierung kann je nach Datenmenge Stunden bis Tage dauern. Word-, PDF- und ähnliche Formate sind binär aufgebaut, der Text muss erst extrahiert werden. Dieser einmalige Aufwand zahlt sich danach in schnellen Suchergebnissen aus.
Eigenschaften der Suche:
- Semantisch: Dokumente werden in mathematische Repräsentationen umgewandelt (sogenannte Embeddings), die den inhaltlichen Sinn erfassen, nicht nur einzelne Wörter.
- Sortierung nach Relevanz: Treffer werden nach inhaltlicher Passung sortiert, nicht nach Häufigkeit eines Suchbegriffs. Ein Dokument, das thematisch zur Frage passt, kann höher ranken als eines mit dem exakten Schlüsselwort.
- Anzahl der Treffer: Standardmäßig werden die zehn relevantesten Quellen zurückgegeben. Die Anzahl ist in den Einstellungen konfigurierbar.
- Dateinamen-Suche: Neben dem Inhalt kann auch gezielt nach Dateinamen gesucht werden, etwa "Zeig mir Datei XY".
Eckdaten der Cloud-Datenquelle
Für die meisten Teams ist die cloud-basierte Datenquelle die richtige Wahl.
| Eigenschaft | Wert |
|---|---|
| Hosting | meinGPT Cloud (Hetzner, Deutschland) |
| Sync-Intervall | Alle 15 Minuten |
| Suchergebnisse pro Anfrage | Standardmäßig 10, einstellbar |
| Suchverfahren | Semantisch (Embeddings, sortiert nach Relevanz) |
| Verfügbarkeit | Im Standardpaket enthalten |
Dateiformate
Gut unterstützt sind alle Formate, die primär aus Text bestehen:
- Office-Dokumente: DOCX, PPTX, XLSX (mit Einschränkungen, siehe unten)
- TXT, Markdown, HTML
- Code-Dateien
Excel-Tabellen sind ein Sonderfall. Beim Aufteilen in durchsuchbare Abschnitte (sogenanntes Chunking) geht der Tabellenkontext verloren. Eine einzelne Datenzeile ohne ihre Spaltenheader ergibt oft keinen Sinn mehr. Für Berechnungen, Auswertungen und Visualisierungen aus Excel-Dateien nutze stattdessen den Excel-Modus, der die Originaldatei direkt verarbeitet.
OneNote-Workaround. OneNote-Dateien werden derzeit nicht direkt indexiert, weil das Format proprietär ist. Workaround: OneNote-Inhalte regelmäßig automatisiert exportieren, etwa via Make oder n8n, als PDF oder Text. Die exportierten Dateien lassen sich dann ganz normal als Quelle anbinden.
Zugriffskontrolle
Datenquellen können auf bestimmte Teams eingeschränkt werden. Du legst Teams in der Admin-Oberfläche an und ordnest sie spezifischen Datenquellen zu. So steuerst Du, welche Nutzergruppen welche Daten sehen.
Details zum Anlegen und Verwalten von Teams: Team-Management.
Wie meinGPT mit Dateien arbeitet (3-Stufen-Modell)
Nicht jede Anfrage erfordert die gleiche Verarbeitungstiefe. meinGPT entscheidet pro Anfrage automatisch, wie tief es gehen muss. Es gibt drei Stufen:
| Stufe | Was passiert | Reicht für |
|---|---|---|
| 1. Suche | Die Plattform durchsucht alle konfigurierten Quellen und liefert Snippets sowie Dateinamen zurück | Einfache Fragen wie "Gibt es ein Dokument zu Thema X?" |
| 2. Volltext laden | Das Modell lädt den kompletten Inhalt einzelner Dateien, die nach Stufe 1 relevant erscheinen | Inhaltliche Fragen zu einzelnen, nicht zu großen Dokumenten |
| 3. Code Sandbox | Die Originaldatei wird in einem abgeschotteten Bereich (Sandbox) geöffnet und mit Python verarbeitet | Berechnungen, Auswertungen, Diagramme aus großen oder strukturierten Dateien (z. B. Excel mit vielen Zeilen) |
Du brauchst nichts manuell zu konfigurieren. Mehr Details zur Sandbox: Code Sandbox.
Hinweis für On-Premise-Setups: Stufe 3 (Sandbox) lädt Originaldateien temporär in die meinGPT Cloud, weil die Sandbox-Umgebungen dort laufen. Die Dateien werden nach der Verarbeitung sofort gelöscht. Bei datenschutzsensiblen Setups solltest Du das Deinen Stakeholdern transparent kommunizieren.
SharePoint Connector vs. Datenquelle: wann was?
Wenn Du SharePoint-Daten in meinGPT nutzen willst, hast Du zwei Optionen: den nativen Microsoft 365 Connector oder eine Datenquelle mit SharePoint als Quelle. Beide haben ihre Stärken.
| Kriterium | Microsoft 365 Connector | Datenquelle mit SharePoint-Quelle |
|---|---|---|
| Suchverfahren | Direktzugriff in Echtzeit | Vorab-Index, Sync alle 15 Minuten |
| Berechtigungen | Respektiert SharePoint-Permissions automatisch (auf Nutzer-Ebene über OAuth) | Admin konfiguriert manuell. SharePoint-Permissions greifen nicht automatisch |
| Authentifizierung | Jeder Nutzer authentifiziert sich individuell | Zentral konfiguriert |
| Skalierung | Gut für gezielte Recherche in einzelnen Sites oder Ordnern | Skaliert auf große Datenmengen, mehrere Quellen kombinierbar |
| Quellen kombinieren | Nur SharePoint und OneDrive | Mehrere Quellen in einer Datenquelle (SharePoint, lokale Dateien, Drive, …) |
Faustregel:
- Microsoft 365 Connector für die meisten SharePoint-Anwendungsfälle. Vor allem dann, wenn jeder Nutzer nur das sehen soll, was er auch in SharePoint selbst sehen darf.
- Datenquelle, wenn Du große Bestände zentral indexieren willst, mehrere Quellen mischen musst oder eine zentrale Wissensdatenbank ohne individuelle Permissions brauchst.
Konfiguration & Empfehlungen
Daten gezielt eingrenzen
Es gibt kein hartes Datenlimit. Aber je mehr Daten eine Datenquelle umfasst, desto stärker konkurrieren irrelevante Treffer mit den passenden. Empfehlung:
- Pro Datenquelle gezielt 500 bis 1.000 relevante Dateien anbinden, nicht den gesamten SharePoint
- Lieber mehrere spezialisierte Datenquellen als eine riesige, zum Beispiel "HR-Richtlinien", "Produkt-Spezifikationen", "Vertriebs-Material"
- Je präziser eine Datenquelle, desto besser die Treffer
Kurzbeschreibung sorgfältig formulieren
Die Kurzbeschreibung einer Datenquelle ist nicht nur Doku. Sie wird vom Modell genutzt, um zu entscheiden, ob eine Datenquelle für eine Anfrage relevant ist. Eine schlechte Beschreibung führt dazu, dass Datenquellen bei passenden Fragen nicht durchsucht werden.
Gut: "Enthält alle internen HR-Richtlinien, Prozessbeschreibungen und Onboarding-Dokumente."
Weniger gut: "HR-Dokumente."
Tool-Referenz im System-Prompt
In Assistenten-Instruktionen lohnt es sich, Datenquellen explizit anzusprechen. Zum Beispiel: "Starte jede Konversation damit, relevante Informationen aus der angebundenen Datenquelle abzurufen." Das macht die Nutzung der Datenquelle zuverlässiger.
Advanced: Customer-Managed Data Vault (On-Premise)
Wenn Du eine eigene On-Premise-Wissensinfrastruktur betreiben willst, etwa für regulierte Branchen oder besondere Sicherheitsanforderungen, kannst Du einen eigenen Data Vault deployen. Daten verlassen Dein Netzwerk dann nicht. Ausnahme ist die temporäre Sandbox-Verarbeitung, siehe oben.
- Netzwerkmodell wählen: On-Premise Connections
- Vault-Betrieb und Konfiguration: /integrations/vault
Sources
Alle unterstützten Quellen findest Du hier:
Typische Quellen:
- SharePoint und OneDrive
- Google Drive
- Confluence
- Amazon S3
- SMB und WebDAV
- Lokale Filesysteme
Custom Data Preparation Pipelines
Ein eigenes Muster mit S3-Übergabepunkt für Drittsysteme findest Du hier:
Verwandte Seiten
- Code Sandbox: Stufe 3 der Dateiverarbeitung
- Excel-Modus: strukturierte Tabellen-Analyse
- Microsoft 365 Connector: direkter SharePoint-, Outlook- und Teams-Zugriff
- Team-Management: Zugriffskontrolle pro Datenquelle
- Data Sources: vollständige Liste der Quelltypen