Accueil Recherche | Plan Technique | Liens | Actualités | Formation | Emploi | Forums | Base
logo CERIG NOTE TECHNIQUE cerig.efpg.inpg.fr 
Vous êtes ici : Accueil >Technique > Internet et le web > De l'imprimé au web           Révision : 17 avril 2001
Note précédente Liste des notes     De l'imprimé au web
(une histoire de filtre)
    Page technique Note suivante
 
Jean-Claude Sohm (CERIG / EFPG)
(23 janvier 2001)
 

Office 2000, nous répète-t-on, est orienté Internet. De plus, il intègre FrontPage, ce qui facilite la transformation d'un document saisi dans Word en page HTML. Le Cerig a fait le test pour vous : le résultat n'est pas triste ! La moins mauvaise solution consiste à importer le fichier Word dans FrontPage. Ainsi, certains éléments de la mise en page sont conservés, sans que du code HTML inutile soit généré pour autant.

Introduction

La plupart des auteurs qui travaillent pour le web écrivent directement dans un éditeur HTML tel que Dreamweaver (Macromedia), FrontPage (Microsoft), ou GoLive (Adobe). On peut cependant être amené à publier sur le web un document initialement créé dans un traitement de texte. Le cas se présente, par exemple, dans les secrétariats qui alimentent un serveur d'intranet avec des documents qui sont également distribués sous forme imprimée. Ce "cross-publishing" (ou "repurposing", ou "prepurposing") -- en français : réhabilitation, ou réorientation -- pose souvent problème, parce que la mise en page de l'imprimé et celle de l'affiché utilisent des techniques différentes, et que les deux supports d'information (le papier et l'écran du moniteur) ont des propriétés franchement différentes. Le problème posé par les figures est bien connu : les navigateurs n'acceptent que les formats GIF et JPEG, et on utilise des résolutions distinctes pour l'imprimé (300 dpi) et pour l'affiché (72 dpi). Mais le texte lui aussi pose problème, ce dont on se doute peut-être un peu moins.
 

Word et les pages web

Le logiciel de traitement de texte Word possède une fonction intitulée "Fichier / Enregistrer en tant que Page Web...". La version Office 97 produisait un code presque utilisable. Je ne résiste pas au plaisir de vous montrer ce que la version Office 2000 fournit désormais. A partir d'un texte de départ fort court ("Ceci est un essai de transfert de texte entre Word et FrontPage"), voici ce que l'on obtient :

<html xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 9">
<meta name=Originator content="Microsoft Word 9">
<link rel=File-List href="./essai01_fichiers/filelist.xml">
<title>Essai de transfert de texte entre Word et FrontPage</title>
<!--[if gte mso 9]><xml>
 <o:DocumentProperties>
  <o:Author>sohm</o:Author>
  <o:LastAuthor>sohm</o:LastAuthor>
  <o:Revision>1</o:Revision>
  <o:TotalTime>3</o:TotalTime>
  <o:Created>2001-01-23T13:20:00Z</o:Created>
  <o:LastSaved>2001-01-23T13:23:00Z</o:LastSaved>
  <o:Pages>1</o:Pages>
  <o:Company>efpg</o:Company>
  <o:Lines>1</o:Lines>
  <o:Paragraphs>1</o:Paragraphs>
  <o:Version>9.2812</o:Version>
 </o:DocumentProperties>
</xml><![endif]--><!--[if gte mso 9]><xml>
 <w:WordDocument>
  <w:HyphenationZone>21</w:HyphenationZone>
 </w:WordDocument>
</xml><![endif]-->
<style>
<!--
 /* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
      {mso-style-parent:"";
      margin:0cm;
      margin-bottom:.0001pt;
      mso-pagination:widow-orphan;
      font-size:12.0pt;
      font-family:"Times New Roman";
      mso-fareast-font-family:"Times New Roman";}
@page Section1
      {size:595.3pt 841.9pt;
      margin:70.85pt 70.85pt 70.85pt 70.85pt;
      mso-header-margin:35.4pt;
      mso-footer-margin:35.4pt;
      mso-paper-source:0;}
div.Section1
      {page:Section1;}
-->
</style>
</head>
    
<body lang=FR style='tab-interval:35.4pt'>
    
<div class=Section1>
    
<p class=MsoNormal style='text-indent:18.0pt'>Ceci est un essai de
transfert de texte entre Word et FrontPage.</p>
    
</div>
    
</body>
    
</html>

Tout le monde comprend ce qui se passe : le filtre utilisé pour passer de Word au code HTML jargonne tant qu'il peut, utilisant tour à tour le XML et les feuilles de style. Résultat : un fichier de 1829 octets pour contenir une phrase de 12 mots. Certes, les navigateurs (IE 5.5 et NS 6) avalent cette salade et affichent la phrase initiale, respectant scrupuleusement le retrait de première ligne, la police et la taille des caractères. Mais, quand on pense au mal que l'on se donne pour créer des pages web qui ne pèsent pas trop lourd afin qu'elles se téléchargent rapidement, on reste confondu devant tout ce verbiage inutile.
 

Le copier-coller dans Office 2000

Reste, pour passer de Word au HTML, la bonne vieille méthode du copier-coller, du traitement de texte vers l'éditeur de pages web. Avec Word 97, peu de problèmes. Avec Word 2000, c'est une autre affaire. Tous semble d'abord se passer sans histoires, mais si l'on regarde le code, voici ce que l'on observe :

<p><span style="font-size:12.0pt;font-family:"Times New Roman";
mso-fareast-font-family:"Times New Roman";mso-ansi-language:FR;
mso-fareast-language:FR;mso-bidi-language:AR-SA">
Ceci est un essai de transfert de texte entre Word et FrontPage.</span></p>

Pour reproduire une petite phrase écrite en Times (la police par défaut des navigateurs) de corps 12 (la taille par défaut des navigateurs), faut-il cette longue balise SPAN ? Après quelques dizaines de transferts par copier-coller, la page web obtenue regorge de code redondant et inutile.
 

Cross-publishing...

La solution ? Un remède de cheval : on enregistre le fichier Word de départ au format TXT, ce qui fait disparaître la majeure partie de la mise en page. On ouvre le fichier correspondant dans un éditeur ASCII tel que le Bloc-notes ou WordPad. Par copier-coller, de cet éditeur vers FrontPage, on obtient le code suivant :

<p><font SIZE="2">
Ceci est un essai de transfert de texte entre Word et FrontPage.</font></p>

Ouf ! on respire : à part la réduction de la taille des caractères, inutile mais simple à corriger, tout le verbiage a disparu. Reste à refaire la mise en forme de la page web. Une tâche inévitable, comme chacun sait.

Tout de même, on peut faire mieux. Par importation du fichier Word dans FrontPage (en utilisant le glisser-déplacer, par exemple), on conserve certains éléments de la mise en page (nature de la police, taille des caractères) sans générer de code HTML inutile. Le passage par le format RTF (commun à tous les traitements de texte) donne un résultat identique, parce que l'importation de Word vers FrontPage utilise ce format.

Au Cerig, nous ne sommes ni anti- ni pro-Microsoft. Nous ne sommes pas assez sots pour prendre parti dans des querelles qui ne nous regardent pas, et nous traitons l'éditeur de Redmond comme nos autres fournisseurs. Mais tout de même, cette histoire de filtre, nous la trouvons un peu forte de café.

Note précédente Liste des notes Page technique  Note suivante 
 
Accueil | Technique | Liens | Actualités | Formation | Emploi | Forums | Base
 
Copyright © CERIG/EFPG 1996-2002
Mise en page : J.C. Sohm