WebsitePlatform Login

Overview

Überblick zu Datenquellen, RAG und Quellenanbindung

Datenquellen (RAG)

Datenquellen sind die Basis für Retrieval-Augmented Generation (RAG) in meinGPT. Inhalte aus angebundenen Quellen werden indexiert und stehen Deinen Assistenten als Wissen zur Verfügung. Du kannst eine Datenquelle aber auch direkt in einem Chat anhängen, wenn Du nur einmal etwas darin nachlesen möchtest.

Wie die Suche funktioniert

Kunden-Wissensbestände sind oft groß. Hunderte oder tausende Gigabyte an Word-, PDF- und anderen Dateien sind keine Seltenheit. Jede Suchanfrage durch alle Dateien zu schicken wäre viel zu langsam. Deshalb wird vorab ein Suchindex aufgebaut. Funktioniert ähnlich wie Google, nur eben für Deine internen Dokumente.

Die initiale Indexierung kann je nach Datenmenge Stunden bis Tage dauern. Word-, PDF- und ähnliche Formate sind binär aufgebaut, der Text muss erst extrahiert werden. Dieser einmalige Aufwand zahlt sich danach in schnellen Suchergebnissen aus.

Eigenschaften der Suche:

  • Semantisch: Dokumente werden in mathematische Repräsentationen umgewandelt (sogenannte Embeddings), die den inhaltlichen Sinn erfassen, nicht nur einzelne Wörter.
  • Sortierung nach Relevanz: Treffer werden nach inhaltlicher Passung sortiert, nicht nach Häufigkeit eines Suchbegriffs. Ein Dokument, das thematisch zur Frage passt, kann höher ranken als eines mit dem exakten Schlüsselwort.
  • Anzahl der Treffer: Standardmäßig werden die zehn relevantesten Quellen zurückgegeben. Die Anzahl ist in den Einstellungen konfigurierbar.
  • Dateinamen-Suche: Neben dem Inhalt kann auch gezielt nach Dateinamen gesucht werden, etwa "Zeig mir Datei XY".

Eckdaten der Cloud-Datenquelle

Für die meisten Teams ist die cloud-basierte Datenquelle die richtige Wahl.

EigenschaftWert
HostingmeinGPT Cloud (Hetzner, Deutschland)
Sync-IntervallAlle 15 Minuten
Suchergebnisse pro AnfrageStandardmäßig 10, einstellbar
SuchverfahrenSemantisch (Embeddings, sortiert nach Relevanz)
VerfügbarkeitIm Standardpaket enthalten

Dateiformate

Gut unterstützt sind alle Formate, die primär aus Text bestehen:

  • Office-Dokumente: DOCX, PPTX, XLSX (mit Einschränkungen, siehe unten)
  • PDF
  • TXT, Markdown, HTML
  • Code-Dateien

Excel-Tabellen sind ein Sonderfall. Beim Aufteilen in durchsuchbare Abschnitte (sogenanntes Chunking) geht der Tabellenkontext verloren. Eine einzelne Datenzeile ohne ihre Spaltenheader ergibt oft keinen Sinn mehr. Für Berechnungen, Auswertungen und Visualisierungen aus Excel-Dateien nutze stattdessen den Excel-Modus, der die Originaldatei direkt verarbeitet.

OneNote-Workaround. OneNote-Dateien werden derzeit nicht direkt indexiert, weil das Format proprietär ist. Workaround: OneNote-Inhalte regelmäßig automatisiert exportieren, etwa via Make oder n8n, als PDF oder Text. Die exportierten Dateien lassen sich dann ganz normal als Quelle anbinden.

Zugriffskontrolle

Datenquellen können auf bestimmte Teams eingeschränkt werden. Du legst Teams in der Admin-Oberfläche an und ordnest sie spezifischen Datenquellen zu. So steuerst Du, welche Nutzergruppen welche Daten sehen.

Details zum Anlegen und Verwalten von Teams: Team-Management.

Wie meinGPT mit Dateien arbeitet (3-Stufen-Modell)

Nicht jede Anfrage erfordert die gleiche Verarbeitungstiefe. meinGPT entscheidet pro Anfrage automatisch, wie tief es gehen muss. Es gibt drei Stufen:

StufeWas passiertReicht für
1. SucheDie Plattform durchsucht alle konfigurierten Quellen und liefert Snippets sowie Dateinamen zurückEinfache Fragen wie "Gibt es ein Dokument zu Thema X?"
2. Volltext ladenDas Modell lädt den kompletten Inhalt einzelner Dateien, die nach Stufe 1 relevant erscheinenInhaltliche Fragen zu einzelnen, nicht zu großen Dokumenten
3. Code SandboxDie Originaldatei wird in einem abgeschotteten Bereich (Sandbox) geöffnet und mit Python verarbeitetBerechnungen, Auswertungen, Diagramme aus großen oder strukturierten Dateien (z. B. Excel mit vielen Zeilen)

Du brauchst nichts manuell zu konfigurieren. Mehr Details zur Sandbox: Code Sandbox.

Hinweis für On-Premise-Setups: Stufe 3 (Sandbox) lädt Originaldateien temporär in die meinGPT Cloud, weil die Sandbox-Umgebungen dort laufen. Die Dateien werden nach der Verarbeitung sofort gelöscht. Bei datenschutzsensiblen Setups solltest Du das Deinen Stakeholdern transparent kommunizieren.

SharePoint Connector vs. Datenquelle: wann was?

Wenn Du SharePoint-Daten in meinGPT nutzen willst, hast Du zwei Optionen: den nativen Microsoft 365 Connector oder eine Datenquelle mit SharePoint als Quelle. Beide haben ihre Stärken.

KriteriumMicrosoft 365 ConnectorDatenquelle mit SharePoint-Quelle
SuchverfahrenDirektzugriff in EchtzeitVorab-Index, Sync alle 15 Minuten
BerechtigungenRespektiert SharePoint-Permissions automatisch (auf Nutzer-Ebene über OAuth)Admin konfiguriert manuell. SharePoint-Permissions greifen nicht automatisch
AuthentifizierungJeder Nutzer authentifiziert sich individuellZentral konfiguriert
SkalierungGut für gezielte Recherche in einzelnen Sites oder OrdnernSkaliert auf große Datenmengen, mehrere Quellen kombinierbar
Quellen kombinierenNur SharePoint und OneDriveMehrere Quellen in einer Datenquelle (SharePoint, lokale Dateien, Drive, …)

Faustregel:

  • Microsoft 365 Connector für die meisten SharePoint-Anwendungsfälle. Vor allem dann, wenn jeder Nutzer nur das sehen soll, was er auch in SharePoint selbst sehen darf.
  • Datenquelle, wenn Du große Bestände zentral indexieren willst, mehrere Quellen mischen musst oder eine zentrale Wissensdatenbank ohne individuelle Permissions brauchst.

Konfiguration & Empfehlungen

Daten gezielt eingrenzen

Es gibt kein hartes Datenlimit. Aber je mehr Daten eine Datenquelle umfasst, desto stärker konkurrieren irrelevante Treffer mit den passenden. Empfehlung:

  • Pro Datenquelle gezielt 500 bis 1.000 relevante Dateien anbinden, nicht den gesamten SharePoint
  • Lieber mehrere spezialisierte Datenquellen als eine riesige, zum Beispiel "HR-Richtlinien", "Produkt-Spezifikationen", "Vertriebs-Material"
  • Je präziser eine Datenquelle, desto besser die Treffer

Kurzbeschreibung sorgfältig formulieren

Die Kurzbeschreibung einer Datenquelle ist nicht nur Doku. Sie wird vom Modell genutzt, um zu entscheiden, ob eine Datenquelle für eine Anfrage relevant ist. Eine schlechte Beschreibung führt dazu, dass Datenquellen bei passenden Fragen nicht durchsucht werden.

Gut: "Enthält alle internen HR-Richtlinien, Prozessbeschreibungen und Onboarding-Dokumente."

Weniger gut: "HR-Dokumente."

Tool-Referenz im System-Prompt

In Assistenten-Instruktionen lohnt es sich, Datenquellen explizit anzusprechen. Zum Beispiel: "Starte jede Konversation damit, relevante Informationen aus der angebundenen Datenquelle abzurufen." Das macht die Nutzung der Datenquelle zuverlässiger.

Advanced: Customer-Managed Data Vault (On-Premise)

Wenn Du eine eigene On-Premise-Wissensinfrastruktur betreiben willst, etwa für regulierte Branchen oder besondere Sicherheitsanforderungen, kannst Du einen eigenen Data Vault deployen. Daten verlassen Dein Netzwerk dann nicht. Ausnahme ist die temporäre Sandbox-Verarbeitung, siehe oben.

Sources

Alle unterstützten Quellen findest Du hier:

Typische Quellen:

  • SharePoint und OneDrive
  • Google Drive
  • Confluence
  • Amazon S3
  • SMB und WebDAV
  • Lokale Filesysteme

Custom Data Preparation Pipelines

Ein eigenes Muster mit S3-Übergabepunkt für Drittsysteme findest Du hier:

Verwandte Seiten

Auf dieser Seite