Journal de recherche pour un mois donné

Il est possible d'obtenir le journal des recherches effectuées sur le serveur Scrutari à l'adresse suivante : /explore/lists/log_{code du mois}.xml où le code du mois est sous la forme annéé-mois (aaaa-mm, par exemple, « 2009-96 »). C'est un fichier XML codé en UTF-8 qui comprend, d'une part, les recherches effectuées sur Scrutari et, d'autre part, des statistiques qui permettent de suivre l'évolution du contenu du serveur Scrutari.

Structure du format XML

L'élément racine est l'élément <log> qui possède les attributs suivants :

@y : année du mois en question
@m : numéro du mois en question de 1 à 12 (avec 0 pour devant pour les mois à un chiffre)
@c : expression complète de l'année et du mois sous la forme : aaaa-mm

Un élément <log> contient des éléments <day>, un pour chaque jour où a été effectué au moins une recherche. L'élément <log> sera donc vide si aucune recherche n'a été effectuée sur le serveur Scrutari pour le mois en question. Un élément <day> possède les attributs suivants :

@n : numéro du jour en question sous forme numérique (i.e. sans 0 devant pour les jours à un chiffre)
@s : numéro du jour en question avec un 0 devant pour les jours à un chiffre
@fiche : nombre total de fiches traitées par le serveur à la date du jour en question
@motcle : nombre total de mots-clés traités par le serveur à la date du jour en question
@corpus : nombre total de corpus traités par le serveur à la date du jour en question
@thesaurus : nombre total de thésaurus traités par le serveur à la date du jour en question
@base : nombre total de bases auxquelles le le serveur à la date du jour en question
@lexie : nombre de mots relevés dans les fiches et mots-clés des différentes bases à la date du jour en question
@indexation : nombre total des liens entre fiches et mots-clés à la date du jour en question

Un élément <day> comprend ensuite un nombre illimité d'éléments <q> qui décrivent les recherches effectuée. Ces éléments <q> possèdent uniquement des attributs qui sont les suivants :

@seq : recherche effectuée par l'internaute
@site : site d'où est originaire la recherche ; cette valeur est transmise par le client au serveur Scrutari, elle peut être absente suivant la politique adoptée
@ref : page d'où provient la recherche, cette valeur est transmise par le client au serveur Scrutari ; en général, elle n'est transmise que si le site (voir l'attribut @site précédent) n'a pas pu être identifié ; cet attribut peut donc être absent
@fc : nombre total de fiches qui ont répondu aux critères de recherche
@fm : nombre maximum de fiches sur lesquelles ont été effectuées la recherche, cet attribut n'est renseigné que si un filtre préalable à la recherche proprement dite a été effectué (par exemple, si la recherche n'a porté que sur les fiches d'un corpus donné ou pour une langue particulière)
@cmc : nombre total de mots-clés qui répondent entièrement aux critères de recherche (i.e. dont les libellés contiennent tous les mots de la séquence de recherche)
@amc : nombre total de mots-clés dont les libellés contiennent au moins un mot de la séquence de recherche

Exemple

<log y="2009" m="06" c="2009-06">
	<day n="2" s="02" fiche="18360" motcle="5284" corpus="50" thesaurus="28" base="16" lexie="53678" indexation="79988">
		<q seq="ecologie industrielle" site="coredem" fc="15" fm="1478" cmc="3" amc="15"/>
	</day>
	...
</log>

DTD

<!ELEMENT log (day*)>
   <!ATTLIST log y NMTOKEN #REQUIRED
                 m NMTOKEN #REQUIRED
                 c NMTOKEN #REQUIRED >
 
<!ELEMENT day (q+)>
   <!ATTLIST day n NMTOKEN #REQUIRED
                 s NMTOKEN #REQUIRED
                 fiche NMTOKEN #REQUIRED
                 motcle NMTOKEN #REQUIRED
                 corpus NMTOKEN #REQUIRED
                 thesaurus NMTOKEN #REQUIRED
                 base NMTOKEN #REQUIRED
                 lexie NMTOKEN #REQUIRED
                 indexation NMTOKEN #REQUIRED >
 
<!ELEMENT q EMPTY>
   <!ATTLIST q seq CDATA #REQUIRED
               site NMTOKEN #IMPLIED
               ref CDATA #IMPLIED
               fc NMTOKEN #REQUIRED
               fm NMTOKEN #IMPLIED
               cmc NMTOKEN #REQUIRED
               amc NMTOKEN #REQUIRED >