Chaque moteur Scrutari permet de récupérer au format ScrutariData les données qu'il a lui-même collecté. L'avantage de cette récupération, c'est que ces données ont été nettoyées d'erreurs éventuelles.
Pour la Coredem, cette liste est accessible à l'adresse sct1.scrutari.net/sct/coredem/export/source-list.html.
On pourra prendre comme exemple simple lexicommon qui ne propose qu'un seul corpus avec comme seul champ de texte le titre. Des sources comme socioeco (site Socioeco.org) ou citego (site Citégo) vont être plus complètes avec différents corpus et thésaurus (plusieurs Mio chacune).
Autre exemple plus complexe, l'export d'Autour du 1er mai qui comprend de nombreux champs complémentaires et d'attributs, notamment dans les fiches films avec le texte complet d'une fiche : sct1.scrutari.net/sct/premiermai/export/data-premiermai.xml (plus d'une dizaine de Mio).