0   Commentaires

La numérisation de la presse

IFLA International Newspaper Conference 2012
11 – 13 avril 2012
Paris, BnF, Grand auditorium
Compte rendu de la première journée consacrée à la numérisation de la presse
 
 
Matinée : numérisation de masse de la presse
 
Introduction : les enjeux de la numérisation
 
Emmanuel Hoog, président de l’AFP (ancien directeur de l’INA)
 
L'histoire de l'AFP remonte à la création en 1835 de l'agence Havas, pionnière des agences de presse internationales.
Les agences de presse sont confrontées aujourd’hui à un ensemble de défis communs au monde de la presse. Avec la mort annoncée du papier et des agences de presse, l’AFP doit faire face à trois grands défis :
- La vitesse : les agences de presse sont nées dans un monde où la circulation était lente. Elles ont inventé l’information en continu et ont longtemps gardé le monopole de la vitesse.
- La masse d’information : les agences de presse sont nées dans un monde où l’information était rare. Aujourd’hui, on est dans une société de « l’hyper-information » et des mass-médias.
- L’image : l’information a longtemps été fondée sur le texte.
 
Comment répondre à ces défis ?
- La profondeur : aujourd’hui la vitesse étant largement atteinte, « l’avant-garde » c’est la profondeur. Il faut comprendre et non plus apprendre.
- La hiérarchie, le choix, la sélection : ils reposent sur l’indépendance rédactionnelle et la fiabilité.
- Le croisement des sources d’information (texte, image, photo) pour contextualiser l’image.
 
Dans ce contexte, la numérisation des archives est capitale. Car le vrai défi est culturel : il faut offrir de la profondeur en passant par l’histoire et la mémoire via la numérisation.
 
Patrick Eveno, professeur d’histoire à la Sorbonne, historien des médias.
 
Immensité de la production journalistique. En 1912 paraissaient 7000 titres de presse en France parmi lesquels 300 quotidiens. Impossible pour l’historien de tout analyser.
 
La numérisation permet de retrouver le journal comme source et témoin de l’histoire.
 
Jusqu’à présent les études de presse portaient sur deux axes :
- analyse des contenus (sciences politiques, sensibilité populaire, etc.)
- analyse de l’objet contenant, la forme journalistique.
Depuis, 30 ans, les études sur la radio et la TV montrent qu’il y a moins d’information et plus de divertissement que dans la presse. L’historien doit dorénavant envisager la culture de masse dans son ensemble. Avec Internet, cette approche doit être encore élargie.
 
La numérisation va permettre de transformer notre appréhension ainsi que les méthodes de l’objet de presse.
 
Les apports de la numérisation :
- Vérifier (exemple : vérification des dates de parution du journal La Croix qui s’est arrêté de paraitre pendant la guerre).
- Renouveler les analyses de la presse (jusque là on comparait des pourcentages des matières traitées, titres, etc.)
- Travail à faire sur l’espace de la presse papier situé dans le temps de l’actualité
- Feuilletage, recherche en TI, dans les petites annonces, etc.
- Comparer d’un journal à l’autre les polémiques de presse (exemple : Le Matin/ L’Intransigeant)
- Comparer (périodes, évolutions des maquettes, illustrations, traitement et hiérarchisation de l’information, traitement de la publicité
- Voir les comptes, les archives des organes de presse
 
La numérisation va permettre un renouveau des études de presse et de l’objet « journal » pour l’appréhender dans une histoire globale. Au-delà, il sera possible d’étudier le rapport entre la presse et son public, de confronter les médias (radio, presse, TV).
 
Première session : numérisation par les éditeurs de presse
 
Introduction par Philippe Mezzasalma, responsable du service de la presse de la BnF, commissaire de l’exposition La presse à la une, de la gazette à Internet, 11 avril 2012 – 15 juillet 2012
- Succès constaté dans tous les pays de la numérisation de la presse auprès des publics (France, Grande-Bretagne, Australie, etc.)
- Numérisation souvent portée par les établissements documentaires à vocation patrimoniale notamment pour les titres morts
- Positionnement des éditeurs sur la question des titres vivants
- Numériser pour conserver, valoriser, faire connaître
 
Sébastien Carganico, responsable du centre de documentation du journal Le Monde, chef de projet de la numérisation du Monde
 
Objectifs de la numérisation :
conservation et valorisation patrimoniales
développement éditorial
intérêt économique et atout concurrentiel
 
Tâtonnements dans la méthode :
- Commencer par numériser les dossiers de presse constitués et indexés par les documentalistes du centre ? Solution non retenue car lourde matériellement (déplier les coupures, papier altéré par la colle) donnant une vision restreinte et subjective.
- Numérisation de la collection complète page à page avec nouvelle indexation postérieure à la numérisation ? Solution non retenue car couteuse en termes d’indexation (25 à 30 personnes).- 
- Numériser et océriser la totalité de la collection (journal et suppléments). Indexation manuelle limitée compensée par le choix d’un moteur de recherche sémantique.

Solution retenue.
 
Prestataire retenu : Flashcopy qui réalise déjà les microfilms (numérisation effectuée en Alsace,  OCR à Madagascar).
 
Choix techniques :
Numérisation effectuée à partir du papier, de meilleure qualité que les microfilms du journal pour l’OCR (la qualité de la numérisation dépend de la qualité des matrices). Années 1944 à 2002 numérisées. A partir de 2003, récupération des PDF natifs. 440 000 pages numérisées en trois ans en Jpeg couleur (deux formats cibles : niveaux de gris ; PDF compressé).
Pages rédactionnelles des années 1944 à 1986 océrisées. Taux d’erreur accepté : 0.01%
Indication de l’ordre dans lequel les blocs de textes doivent être lus. Double relecture mot à mot des pages. Un fichier XML par article, un PDF par page. Une DTD pour intégration dans moteur de recherche documentaire.
Sauvegardes : Bandes magnétiques LCO dans des locaux techniques.
 
Planning (par ordre de priorité) :
- En interne, phase de recette et intégration dans les bases de données du Monde pour permettre à la rédaction de travailler sur les fonds et préparer des hors séries.
- Monétisation sur le Monde.fr via les abonnés.
- Exploitation commerciale hors médias : des séries de « unes » historiques vont être disponibles en numérique.
- Diffusion via agrégateurs de presse pour les communautés enseignantes et universitaires.
- D’autres exploitations seront envisagées dans le respect de la déontologie et de la marque Le Monde.
 
Jacek Brzezinski, secrétaire général de Ouest-France
 
Problématique : conservation et numérisation des titres du groupe.
Complexité de la fabrication : journal qui édite le plus d’éditions locales au monde (50 éditions, 631 pages éditées chaque nuit). Ouest-France édite autant de pages que Le Monde, le Figaro et la Croix à la fois.
 
Conservation :
Le papier est conservé. Microfilmage des pages au jour le jour depuis 1962. Support numérique depuis 2008.
Depuis 1990 est entamée une sauvegarde rétrospective : les périodes Ouest-Eclair (1899-1944) et Ouest-France (1944-1961) sont achevées.
Financements : la quasi-totalité est financée par le journal. Quelques aides (la DRAC a financé 5% du surcoût pour la période 1944-1961).
Exemples de coûts : 1 100 000 pages microfilmées de l’Ouest-Eclaire ont coûté 1 200 000 €.
 
Le microfilmage assure une conservation longue durée mais n’est pas accessible au grand public. D’où la décision de numérisation.
 
Numérisation :
Droits d’auteur : pour réduire les obstacles, numérise 70 ans après la date de publication. Si Problème de droit d’auteur, on retire la page.
Difficulté structurelle liée aux différentes éditions. Choix du Tiff non compressé (pour OCR le plus fin et archivage divisé par deux). Sauvegarde sur bandes.
Pour limiter les coûts, on est reparti des microfilms (permet de diviser les coûts par trois par rapport au papier) pour numériser. Total des coûts de l’opération : 1.8 millions d’euros.
Au total, 10.3 millions de pages à traiter : 3.8 sont numérisées ; 6.5 sont microfilmées et en attente de numérisation (respect de 70 ans après la date de publication pour 1941/1944 – 2000). Depuis 2000, les pages sont accessibles sur internet car depuis l’avènement d’internet, les journalistes écrivent à la fois pour le papier et le web.
Volumes : 60 terra bits (à condition que les images soient compressées, sinon insuffisants).
 
Partenariat :
Convention avec la Bnf (collections sur Gallica), convention avec la région Basse Normandie (met en ligne les collections alors que Ouest-France assure l’archivage), partenariat avec l’EPCC Livre et lecture en Bretagne.
 
Modèles économiques :
Parutions des dernières années : payantes
Parutions anciennes (au-delà de 70 ans) : payant ou gratuit
Parutions entre 1942 et 2000 : intouchables aujourd’hui.
 
Numérisation des archives de la Corriere della Sera) : Walter Colombo, Chef de projet DACS (DigitalizzioneArchivio Corriere della Sera), Claudio Albanese, IDM (Integra Document Management), Italy, and Shalev Vayness, ISAKO, France
 
Création du journal en 1876 (4 pages ; deux éditions). En 1903, quatre éditions (2 le matin et 2 l’après-midi). A partir de 1970, trois collections de microfilms (2 pour l’édition du matin, une pour celle de l’après-midi). Editions géographies (page 11 est différente), édition romaine (6 pages différentes).
 
Numérisation à partir des microfilms (plus rapide et moins cher). Quand la qualité de la microfilm n’était pas bonne, on repartait du papier.
Taux d’erreur accepté : 0% dans le titre ; 5% dans le corps du texte.
Deux partenaires principaux : IDL, ISAKO pour traiter les étapes du processus :
- Flux de travail
- Gestion des différentes éditions
- Délivrables : images, PDF, Alto/METSet XML éditorial.
 
Formats numériques :
- XML pour intégrer facilement les publications online
- ALTO : information sémantique et éditoriale
- METS et NITF : relier des éléments physiques distincts d’un même article dans un article logique unique.
 
Questions/réponses
L’OCR pose problème notamment dans les publicités (différentes typographies).
 
Après-midi :
Deuxième session : numérisation par les institutions publiques
 
Introduction par Denis Bruckmann, directeur du département des collections de la BnF
Numérisation : priorité donnée à la presse à la BnF
La presse intéresse tous les types de bibliothèques.
 
Pascal Sanz, directeur du département Droit Economie de la BnF : programme de numérisation de la presse de la BnF.
 
Programmes :
 
- Programme élaboré en 2004 et mis en œuvre en 2005.
Numérisation des grands titres de la presse quotidienne. La presse étant une œuvre collective, les numéros sont mis en ligne 70 ans après leur publication (respect du droit d’auteur), soit jusqu’en 1941/1944.
 
Résolution : dans un premier temps en 300 dpi et niveaux de gris, puis en 400 dpi.
3.5 millions de pages concernés.
21 titres nationaux + l’Ouest-Eclair et le Monde Diplomatique (à la demande de l’éditeur). Le Canard enchainé a été numérisé mais ne peut être mis en ligne pour raison de droits d’auteur des illustrations.
 
- Programmes complémentaires
Journaux de tranchées (1er guerre mondiale). Mené avec bibliothèques françaises et allemandes.
Journaux clandestins de la Résistance (Seconde guerre mondiale). Convention avec la fondation nationale de la Résistance.
 
- Numérisation à partir des microformes
2007-2010 : 1200 titres numérisés et océrisés
2011-2014 (deuxième marché) : numérisation de journaux à l’exception des quotidiens (formats spéciaux). Exemple : presse ouvrière du 19ème siècle.
3ème marché : achever le programme de numérisation de la presse quotidienne.
 
- Numérisation de sauvegarde
Constitution d’un corpus thématique de journaux en vue de leur reproduction argentique ou numérique : bascule progressive vers le numérique.
« Sauvegarde dérivée » : numérisation à la demande des lecteurs.
 
Financements :
 
- Apports extérieurs (majorité du financement pour la numérisation de la presse) : legs Pasteur Valley Radot ; Subventions du Sénat et du CNL.
 
- Budget propre à la BnF (essentiellement des crédits de personnel).
 
- Perspectives de partenariat public/privé
2009-2010 : grand emprunt. 22 milliards d’euros. 5 priorités dont économie numérique.
2011 : appel à partenariat de la BnF. 16 corpus à numériser dont un pour la presse (complémentarité microfilm et papier). Les industriels sont intéressés par la numérisation à partir du microfilm (rapide, moins cher). Mais à partir du papier, les modèles économiques sont difficiles à construire pour équilibre entre juste produit des entrepreneurs, redevances pour la BnF et accès gratuit.
Elément nouveau : ACRPP est en liquidation. Transmet à la BnF l’essentiel de ses collections de microfilms (autour de 80 millions de pages). Une expertise est en cours. Des nouvelles possibilités de partenariat sont probables.
 
Au-delà du financement :
Autres types de partenariats :
- Projet européen : agrégation de contenus de presse dans Européana. La BnF sera un des principaux fournisseurs. Océrisation des pages et affinement de l’indexation.
- Réseau francophone numérique (RFN) : www.rfbnn.org/p/accueil.html
- 800 titres de journaux locaux et régionaux sont numérisés en France. Créer un portail national sous l’égide de la tutelle.
 
 
La Bibliothèque nationale de l’Afrique du Sud et la numérisation des premières années de la presse noire : Douwe Drijfhout, services de conservation, Bibliothèque Nationale d’Afrique du Sud
 
1948 : début de la fin de la presse noire. Il restait un seul journal africain à cette époque.
Objet de la numérisation : donner accès aux contenus sociaux et politiques.
 
Numérisation des collections de la presse francophone d’Egypte au Centre d’Etudes Alexandrines (CNRS USR 3134) : Jessie Maucor, Responsable du département de numérisation, CEAlex, Alexandria, Egypt
 
Dans les années 1860, le français est la langue courante imposée dans l’administration par le Khédive. A peu près 300 titres de journaux francophones étaient publiés en Egypte jusqu’en 1950. Aujourd’hui, il en reste deux : Le Progrès Egyptien et Al Ahram.
Les journaux numérisés sont en accès libre sur Internet au format PDF.
http://www.cealex.org/pfe/
 
Troisième session : partenariats public / privé pour mener les programmes de numérisation
 
Introduction par Gérald Grunberg, responsable de la Délégation aux Relations Internationales de la BnF
Pour la presse, le modèle économique est plus complexe à élaborer que pour le livre. L’accès aux fonds numérisés peut se faire selon plusieurs modèles :
- plates-formes créées spécifiquement
- licences d’accès aux plates-formes
- partenariats pour autre types d’accès
- sites commerciaux
 
Un partenariat public / privé : le cas de la British Library (BL) : Patrick Fleming, Directeur adjoint de la British Library, and Chris van der Kuyl, Chief Executive Officer, Brightsolid, UK
 
Partenaire de la BL : Brightsolid.
Objectifs de la BL : mettre en place une plate-forme de la connaissance en 2020 pour les générations futures, contribuer à accroitre la base de connaissance du monde.
 
Contexte :
La collection de journaux de la BnF est loin du centre de Londres. Elle est conservée à St Pancras (1500 places de lecture). Les journaux représentent : 53 198 imprimés, 800 millions de pages, 370 000 microfilms ( ?), 30 000 lecteurs par an, 200 titres étrangers.
 
Loi de 1972 : stocker les contenus pour la nation.
15% des collections de journaux étaient inutilisables, 19% à risque. Enfin, le bâtiment était saturé.
 
Numérisation :
En 2007 est lancée l’idée de créer un service intégré de journaux à St Pancras avec des conditions d’accès contrôlées. Solution mixte d’un accès gratuit et payant pour les usagers.
 
Comment payer ? Le gouvernement soutient mais ne paie pas. D’où le partenariat.
 
Remarque : le partenaire privé, Brighsolid est responsable de la sélection des journaux numérisés ! [si j’ai bien compris]
 
http://www.Britishnewspaperarchives.co.uk
 
L’héritage culturel suisse en ligne : partenariat public/privé (PPP) pour la numérisation des journaux en Suisse : Geneviève Clavel, Directrice adjointe de la Bibliothèque nationale de Suisse, responsable de la coopération nationale et internationale :
 
La majorité des collections sont sous droits. Pas de loi fédérale sur le dépôt légal, mais des accords sont passés avec les éditeurs pour collecter une copie des éditions. 26 bibliothèques fédérales collectent également une copie.
 
Objectifs 2015 : offrir une sélection de journaux en ligne.
Critères de choix des documents :
- fragiles et fréquemment utilisés
- correspondant à des besoins et des demandes des usagers
- rentrant dans le cadre de programmes nationaux ou internationaux
 
Principes de base :
- respect du copyright
- accès universel
 
Partenariat public privé : Le Temps (Le Journal de Genève, La Gazette de Lausanne, Le Nouveau quotidien) la bibliothèque de Genève, la BN de Suisse auxquels il faut ajouter des sponsors de banques.
Période concernées : 1828 – 1996. Le Temps souhaitait que toute la collection jusqu’en 1998 soit en ligne.
Dans le partenariat, la gestion des droits est laissée aux éditeurs. Pas de problème jusqu’à présent.
 
Plate-forme d’information sur les projets de numérisation suisses :
http://www.digicoord.ch
 
 
Plate-forme de consultation des journaux numérisés des éditions du Temps :
http://www.letempsarchives.ch
 
Plate-forme des revues numérisées :
http://retro.seals.ch
 
 
Les modèles de partenariat pour la numérisation de journaux : synthèse / Edmund King, ancien secrétaire de la section des journaux de l’IFLA, Directeur des collections de journaux de la British Library, UK :
 
Numérisation des archives : rendre le journal tel que publié à l’origine.
Rappeler le pourquoi de la création de ces journaux.
Difficulté de la numérisation due à la quantité du matériau.
Très grande richesse des journaux en ligne et imprimés.
Depuis 2000, deux types de numérisation sont menées :
- par les institutions publiques : accès gratuit aux ressources en ligne
- en partenariat avec le secteur privé : différents modèles d’accès.
 
Exemples :
Grande-Bretagne :
En partenariat avec la BL, Gale Cengage a numérisé et mis en ligne plus de 1200 journaux. L’accès est gratuit à la BL, payant à l’extérieur.
http://gale.cengage.co.uk/
 
USA :
www.readex.com
http://newspaperarchive.com/
 
Russie :
http://www.integrumworld.com/
 
 
 
Captcha: