Import von Studieninformationen
Die Datengrundlage von CATS basiert neben Benutzereingaben der Community auf dem automatischen Import von Studieninformationen aus Quellsystemen. Durch die Automatisierung soll der Aufwand für Benutzer möglichst gering gehalten werden: CATS erstellt Studien automatisch, befüllt sie mit Informationen und hält diese aktuell. Mitglieder der Community ergänzen und korrigieren diese Informationen bei Bedarf. Dabei bleibt jede Änderung eindeutig nachvollziehbar. Das Vorgehen bei dieser Übernahme von Informationen wird im Abschnit zur Importstrategie näher beschrieben.
Quellsysteme
Diese Systeme stellen in ihrer Funktion als Studienregister grundlegende Informationen zu klinischen Studien bereit. Derzeit werden folgende Register als Quellsysteme verwendet:
- ClinicalTrials.gov: Von der U.S. National Library of Medicine betriebenes Register für klinische Studien
- Deutsches Register Klinischer Studien (DRKS): Als Primärregister für die Registrierung aller in Deutschland durchgeführten Studien zuständig
Importstrategie
Primäre Informationsquelle ist ClinicalTrials.gov. Dort gefundene Studien, welche die für CATS relevanten Kriterien erfüllen, werden zum Import vorgemerkt. Hinzu kommen Studien, die sich bereits in der CATS Datenbank befinden, aber bei der ersten Suche auf ClinicalTrials.gov nicht gefunden wurden. Für jede der zum Import vorgemerkten Studien wird erst die Information von ClinicalTrials.gov bezogen und über eine Extract Transform Load (ETL) Pipeline in das FHIR-Format überführt. Anschließend wird das DRKS nach dieser Studie durchsucht. Wird dort ein Eintrag gefunden, so werden auch die dort vorhandenen, zusätzlichen Informationen extrahiert und zur transformierten Studie hinzugefügt.
Dieser Prozess läuft in regelmäßigen Zeitabständen immer wieder im Hintergrund ab, so dass in den Quellsystemen neu registrierte Studien zeitnah in CATS aufgenommen und bestehende Studien aktualisiert werden können.
Geolokation
CATS ermöglicht es die Suche von Studien mit beteiligten Studieneinrichtungen in einem gewissen Umkreis von einem gegebenen Ort einzugrenzen. Dafür werden Standortinformationen in Form von Koordinaten für jede Einrichtung im CATS-System benötigt. Ein vom eigentlichen Importprozess unabhängiger, ebenfalls regelmäßig ablaufender Prozess ist für die Geolokation zuständig. Darunter wird im Kontext von CATS die Annotierung von Studieneinrichtungen mit Standortinformationen bezeichnet.
Es werden also regelmäßig alle bei CATS bekannten Einrichtungen auf vorhandene Koordinaten überprüft. Besitzt eine Einrichtung keine Koordinaten, so wird versucht, diese automatisch zu ermitteln. Zu diesem Zweck wird derzeit der Service OpenStreetMap verwendet.
Leider existieren für eine Einrichtung oft mehrere verschiedene Schreibweisen und Namensvarianten, was die Suche auf OpenStreetMap erschweren kann. Mittels Levenshtein-Matching wird versucht, diesem Umstand soweit möglich Rechnung zu tragen. Dennoch können nicht für alle Einrichtungen die genauen Koordinaten ermittelt werden. Alternativ wird versucht, die Koordinaten anhand der Stadt zu verwedenen, in der sich die jeweilige Einrichtung befindet. Ist keine Stadt angegeben oder können die Koordinaten nicht eindeutig ermittelt werden (z.B. wenn nur "Frankfurt" angegeben ist, statt "Frankfurt an der Oder" oder "Frankfurt am Main"), so bleibt die Einrichtung ohne Koordinaten.
Redundante Informationen
Aufgrund verschiedener Faktoren kann es zu redundanten Informationen bei Studien kommen. Beispielsweise können leicht unterschiedliche Schreibweisen eines Namens bei den Kontaktinformationen zu doppelten Einträgen führen.
CATS versucht mit heuristischen Ansätzen (z.B. Vergleich von Email und Telefonnummer bei Kontakten, Leventshtein-Distanz bei Einrichtungsnamen), diese Duplikate zu vermeiden. Da eine möglichst vollständige Übernahme der verfügbaren Informationen jedoch Vorrang hat, können derzeit nicht alle Duplikate vermieden werden. Falls Sie ein Duplikat entdecken, melden Sie dieses bitte an unsere Support E-Mail.
Importierte Informationen
Automatisch importiert werden in CATS zur Zeit die folgenden Informationen:
- Titel und Kurztitel
- Rekrutierungsstatus
- Kontaktinformationen
- Identifier für ClinicalTrials.gov, DRKS und EudraCT (European Union Drug Regulating Authorities Clinical Trials Database)
- Beteiligte Einrichtungen in Deutschland und deren Rekturierungsstatus laut ClinicalTrials.gov
- Diagnosen (bisher nur vom DRKS)
- Interventionen
Limitierungen
Einige Informationen liegen in den Quellsystemen nicht strukturiert vor, so dass ein automatischer Import derzeit nicht möglich ist. Dies betrifft insbesondere die Kohorteninformationen: Anzahl der Kohorten, Ein- und Ausschlusskriterien abgesehen von Interventionen und Diagnosen (Diagnosen können derzeit nur vom DRKS bezogen werden), Zuordnung von Ein- und Ausschlusskriterien zu Kohorten. Solche Informationen können von Communitymitgliedern ergänzt werden.