Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
scrutaridata:index [2009/06/02 17:26] vincentscrutaridata:index [2012/10/14 01:55] (Version actuelle) vincent
Ligne 14: Ligne 14:
 ===== Termes employés ===== ===== Termes employés =====
  
-Un fichier au format ScrutariData correspond à une **base** spécifique. Une base possède un nom et des intitulés dans diverses langues. Une base est comprend des **corpus** et des **thésaurus**.+Un fichier au format ScrutariData correspond à une **base** spécifique. Une base est qualifiée par un nom et des intitulés dans diverses langues et comprend des **corpus** et des **thésaurus**.
  
-Un **corpus** est un ensemble de **fiches** d'un même format (par exemple, les fiches d'analyse, les fiches d'expérience, etc.). Ce qu'on appelle « fiche » ici peut s'appeler article, page ou document dans d'autres systèmes. À chaque fiche correspond un URL avec tout le contenu disponible puisquerappelons-le, le format ScrutariData ne s'intéresse qu'aux méta-données.+Un **corpus** est un ensemble de **fiches** d'un même format (par exemple, les fiches d'analyse, les fiches d'expérience, etc.). Ce qu'on appelle « fiche » ici peut s'appeler article, page ou document dans d'autres systèmes. À chaque fiche correspond une URL, c'est vers cette URL qu'aboutira en final l'internaute après sa recherche.
  
 Un **thésaurus** est un ensemble de **mots-clés** d'un même type. Les mots-clés servent à **l'indexation** des fiches. Un **thésaurus** est un ensemble de **mots-clés** d'un même type. Les mots-clés servent à **l'indexation** des fiches.
  
  
-===== Le fichier d'entête ===== 
  
-Comme un fichier au format ScrutariData contient toutes les ressources d'un site, sa taille peut rapidement dépasser le Mio voire plus. Par conséquent, le serveur Scrutari ne va pas le lire toutes les heures mais une seule fois par jour. En outre, pour éviter de récupérer un fichier d'un site qui n'a peut-être pas été modifié récemment, le serveur Scrutari lit d'abord un fichier d'entête qui doit contenir deux informations : 
- 
-  * la date de dernière mise à jour des données du site 
-  * l'URL du fichier complet au format ScrutariData du site 
- 
-Cela donne le format suivant : 
-<code xml> 
-<?xml version='1.0' encoding='UTF-8'?> 
-<header> 
-   <date>2005-11-03</date> 
-   <path>export/donnees-interne.xml</path> 
-</header> 
-</code> 
- 
-L'élément racine est l'élément !!<header>!! qui contient deux éléments : !!<date>!! avec la date de dernière mise à jour au format ISO et !!<path>!!  le chemin du fichier des données qui peut être absolu ou relatif par rapport à l'URL du fichier d'entête. 
- 
-Ce fichier d'entête doit être fourni par le site qui s'abonne au serveur Scrutari (dans le cas du moteur de la Coredem, il est possible de se dispenser de fournir ce fichier d'entête, le moteur charge alors automatiquement la nouvelle version une fois par semaine). 
  
  
  
scrutaridata/index.1243956417.txt.gz · Dernière modification : 2009/12/17 11:26 (modification externe)
CC Attribution-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0