Patrimoines numériques, environnements informatiques par Francis Lemaitre

Preview:

DESCRIPTION

Support de cours, séance du 15 février 2013 par Francis Lemaitre

Citation preview

PATRIMOINES NUMÉRIQUES

ENVIRONNEMENTS INFORMATIQUES

Francis LemaitreFondation Maison des Sciences de l’Homme (FMSH)

Equipe Sémiotique Cognitive et Nouveaux Médias (ESCoM)

lemaitre@msh-paris.fr

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

PATRIMOINES NUMÉRIQUES

PLAN DU COURS

I. IntroductionII. MédiasIII. Description IV. OntologiesV. PublicationVI. Architectures

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Un patrimoine numérique est constitué d’un ensemble de ressources Contenus (textes, images, vidéos, sons) Descriptions de ces contenus Ressources métalinguistiques pour le contrôle des

descriptions (« Ontologies ») Thésaurii (ou entités nommées) Modèles de descriptions (que décrit-on?)

Ces ressources doivent être accessibles À distance : publiées sur le web Localement : bibliothèques, INA, etc.

I. INTRODUCTION

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Plusieurs approches de description Un contenu = une description (à priori objective)

=> documentation (Bibliothèques, INA) Un contenu peut également être décrit selon différentes

approches (ESCoM)

Plusieurs méthodes de stockage En dur (métadonnées du média: Itunes, Wikipédia, etc.) Fiches (fichiers texte, xml, rdf, etc.) Base de données

Permet la recherche sémantique et la ré-exploitation des contenus

I. INTRODUCTION

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

I. INTRODUCTION

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

I. INTRODUCTION

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

I. INTRODUCTION

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

RESSOURCES

Contenus (Médias)

Publications

Descriptions / Indexations

Ontologies

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIAS

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASLES DIFFÉRENTS TYPES DE MÉDIAS Texte

Doc, pdf, html Image

Les plus courants pour le web : Png, jpeg, gif Bmp, tiff

Vidéo Beaucoup de formats, cela dépend du contexte C’est une suite d’images (25 par seconde)

Son C’est une vidéo sans images

=> Les formats des médias doivent être choisis en fonction de l’utilisation qu’on veut en faire !

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASENCODAGE Les images et vidéos sont dans des formats compressés

Il faut un encodeur pour les compresser Il faut un décodeur pour les lire Peu de soucis pour les images, ça se complique avec les

vidéos

La compression consiste à encoder les informations les plus utilisées sur un minimum d’octets

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASIMAGES Encodeurs: Photoshop, Paint, etc. Décodeurs: Photoshop, Visionneuse

Windows, Navigateur web Attention aux formats web : png, jpeg, gif Toujours compresser pour le web Une bonne pratique :

2 formats d’image : un pour les miniatures (80*60 px) et un autre pour grand écran (1024*768 px)

Réduire la taille de l’image dans le code HTML ne réduit pas le poids du fichier !

<img src=« img1024px.png" width="60px"><img src=« img60px.png">

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASVIDÉOS 3 caractéristiques :

Vidéo Audio Container

Vidéo Codec (encodeur) : wmv, flv, h.264, mpeg4, etc. Résolution : 320*240 px (image) Bitrate: en octets/seconde (quantité d’informations par

senconde: joue sur la qualité, notamment lors du passage en plein écran) En général, la qualité (et donc le poids) de la vidéo dépend de sa

résolution et de son bitrate. Attention, l’utilisateur a besoin d’un bon débit internet pour la HD !

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASVIDÉOS Audio

Codec (encodeur) : wma, mp3, aac, ac3, etc. Bitrate : en octets/seconde Fréquence d’échantillonage : en Hertz (fréquences

« perdues », un taux plus élévé est nécessaire pour la musique, moins pour la parole)

Mono ou stereo

Container Indique le format du document audiovisuel pour les logiciels

qui le lisent En général, avant compression, format avi

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASVIDÉOS Quelques exemples

Liste (non-exhaustive) d’outils d’encodage Pro: Final Cut, Adobe Premiere Gratuits: iMovie, MediaCoder, Free Video Converter, Format

Factory, Free Video Cutter, ESCoM ffCoder Service tout compris : Youtube, Dailymotion, Vimeo

Container Vcodec ACodec

WMV Wmv Wma

Flash Flv Mp3 (Mpeg III)

MPEG Mpeg-1 Mpeg I, Mpeg II, aac

MPEG 2 (DVD) Mpeg-2 Mpeg II, Mpeg III, aac

MPEG 4 H.264 Mpeg III, aac

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASVIDÉOS ESCoM ffCoder – exemples

Flash bas débit Windows Media haut débit

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASVIDÉOS Diffusion de la vidéo sur le web

Download (http) Progressive download (http) Streaming (mms, rtmp) http streaming (rtmpt)

Pour le streaming, il faut un serveur spécifique Windows Media Service (mms, wmv) Adobe Media Server, Wowza, Red5 (flash, mpeg-4)

Pour diffuser une vidéo sur une page web Composants extérieurs qui nécessitent un plugin (<object>,

<embed> ou <script>) : WMPlayer, JWPlayer (Flash), VLC HTML 5 Service tout compris : Youtube, Dailymotion, Vimeo

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASVIDÉOS HTML 5

Standard pour embarquer une vidéo dans une page (plus besoin de plugin)

Balise <video>, comme <img> pour les images

Compatible tous navigateurs, tous matériels (PCs, smartphones, tablettes, etc.)

Possibilité d’intéragir avec le player (sous-titres, logos, synchronisation de textes/images, etc.)

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASVIDÉOS HTML 5

Mais de nouveaux formats vidéos !

Source: http://en.wikipedia.org/wiki/HTML5_video

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASVIDÉOS HTML 5

Standard pour embarquer une vidéo dans une page (plus besoin de <embed>, <object> ou Javascript)

Balise <video>, comme <img> pour les images

Compatible tous navigateurs, tous matériels (PCs, smartphones, tablettes, etc.)

Possibilité d’intéragir avec le player (sous-titres, logos, synchronisation de textes/images, etc.). Exemple:

<video> <source src="wtfpopcorn.mp4" type="video/mp4">

<source src="wtfpopcorn.webm" type="video/webM"> <source src="wtfpopcorn.ogv" type="video/ogg"> </video>

Source: http://popcornjs.org

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASARCHITECTURE POUR LES AAR

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASARCHITECTURE POUR LES SERVICES « TOUT COMPRIS »

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

II. MEDIASÀ RETENIR Les images et vidéos doivent être compressés dans des

formats compatibles web, et dans une résolution adaptée à la connection des utilisateurs

Aujourd’hui Flash est le plus répandu mais HTML 5 est l’avenir (et à priori MPEG-4)

Certaines caractéristiques du corpus audiovisuel peuvent entrainer des contraintes techniques (et économiques) fortes: format (ré-encoder un corpus existant est complexe), durée,

nécessité de chapitrer, Haute Définition, etc. L’idéal est de bénéficier de services « pro » comme

Youtube ou Vimeo, mais ces solutions sont coûteuses lorsque le corpus est trop important et/ou s’agrandit

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IIII. DESCRIPTION

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IIII. DESCRIPTION Il existe beaucoup de manière de décrire un contenu

numérique, parfois standardisées, parfois non… Quelques exemples connus, non standardisés :

Document Word

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IIII. DESCRIPTION Bibliothèque iTunes/Windows Media

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

III. DESCRIPTION Systèmes propriétaires:Youtube, Facebook, INA, AAR, etc.

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

III. DESCRIPTION Les standards (modèles de données)

Dépendent du contexte (éducationnel, institutionnel, archivistique, etc.)

Dépendent de ce qu’on veut décrire (le discours, le média, les techniques audiovisuelles, etc.)

Quelques exemples connus : SUDOC pour les bibliothèques Dublin Core et LOM fr pour les ressources pédagogiques OAI pour les ressources scientifiques MPEG-7 pour les documents audiovisuels (mais peut utilisé)

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

III. DESCRIPTION Les outils

En général, dédié à un modèle de données (standardisé ou propriétaire)

Peuvent se révéler complexes si on veut annoter des parties d’un document (surtout pour les images et les vidéos)

Quelques exemples : Moodle (Dublin Core) : e-learning OCLC (propriétaire) pour les bibliothèques Europeana (ESE) : ressources numériques européennes ISIDORE (OAI) : ressources numériques des SHS Outils propriétaires développés par l’INA, Youtube, Facebook,

ou bien l’ESCoM (Interview)…

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

III. DESCRIPTIONEXEMPLE: ESCOM-INA INTERVIEW Segmentation

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

III. DESCRIPTIONEXEMPLE: ESCOM-INA INTERVIEW 3 niveaux : méta-description, vidéo et segment Description:

Document audiovisuel Acteurs Plans visuels & acoustiques Plans thématiques (discours) Rhétorique Usages Ressources Traductions Copyrights

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

III. DESCRIPTIONEXEMPLE: ESCOM-INA INTERVIEW

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

III. DESCRIPTIONEXEMPLE: ESCOM-INA INTERVIEW Les descriptions sont enregistrées au format propriétaire

mdxml (Meta-Description XML) Egalement stockées dans une base de données

(approche la plus courante, surtout avec les app. web)

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIES

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIES Se révèlent nécessaires dans plusieurs cas :

Afin de controller le vocabulaire utilisé par les utilisateurs (thesaurus)

Afin de modéliser les procédures d’indexation (modèles de description

Afin de modéliser les exploitations des contenus (modèles de publication) Dans la plupart des cas, seul le thésaurus est utilisé

Quelques exemples de thesaurus : RAMEAU (entités nommées) DEWEY (classification bibliothécaire) ISO 3166 (nom des pays) DbPedia (wikipedia)

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIES Formats :

La plupart du temps en xml et/ou base de données Pour les plus évoluées, RDF/OWL et bases triple store

Exemples d’outils : Protégé http://protege.stanford.edu ESCoM OntoEditor

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIESEXEMPLE : THESAURUS ASA

Type de vidéo Ecrivains

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIESEXEMPLE: THÉSAURUS ASA Catégorisation d’un individu

Individus d’une facette

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIESEXEMPLE: THÉSAURUS ASA Version RDF (vue depuis Protégé)

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIESEXEMPLE: MODÈLES DE DESCRIPTION ASA

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIESEXEMPLE: MODÈLES DE DESCRIPTION ASA

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIESEXEMPLE: MODÈLES DE DESCRIPTION ASA

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIESEXEMPLE: MODÈLES DE DESCRIPTION ASA

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

IV. ONTOLOGIESEXEMPLE: MODÈLES DE DESCRIPTION ASA Formats :

La plupart du temps en xml et/ou base de données Pour les plus évoluées, RDF/OWL et bases triple store

Exemples d’outils : Protégé ESCoM OntoEditor

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

V. PUBLICATION

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

V. PUBLICATION Nécessite de développer des applications web

dynamiques Avec du code qui se connecte à la base de données

IIS/SQL Server (C#, B.Net, ASP.Net) Apache/MySQL (PHP, Java)

Les temps de réponse peuvent être lents, d’où la nécessité de mettre en place des systèmes de cache

Quelques exemples : http://www.youtube.com http://www.ina.fr http://www.rechercheisidore.fr http://moodle.univ-paris5.fr http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

V. PUBLICATIONLE CACHE Certaines ressources (images, css, scripts) sont déjà

automatiquement enregsitrées dans le cache du navigateur des internautes. Pas le résultat des requêtes…

Plusieurs solutions : Site entièrement statique. Un programme regénère les pages

régulièrement (compliqué, surtout pour les liens) Le serveur web met les pages en cache après la première

connexion. Une routine génère ce cache. L’utilisation d’Ajax, qui permet de ne pas afficher tout de

suite une partie de la page Optimisation des bases de données, voire utilisation de base

« NO SQL » Beaucoup de serveurs et de puissance de calcul !

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

V. PUBLICATIONLE CACHE. EXEMPLE: SEMIOSPHERE Solutions choisies pour faire face à la lourdeur des requêtes

Redis server pour accéder plus rapidement aux données (http://redis.io/ ) Mongo Db pour la mise en cache (http://www.mongodb.org/ ) Serveur interne qui simule la navigation sur les pages pour forcer la mise en

cache Réinitialisé toutes les nuits

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Un environnement de publication (ASP.Net) Portails multilingues (français, anglais, espagnol) Différents types d’accès aux contenus audiovisuels (vidéos

ET chapitres)(par genre, langue, sujet, terme du thésaurus, dossier personnalisé, etc.)

Navigation à travers les vidéos et chapitres (« vidéo-livre »)

Un environnement de gestion Utilisant Umbraco, un CMS open-source (http://umbraco.com )

Droits des utilisateurs Personnalisation des portails et des accès audiovisuels Gestion de contenu (articles, actualités, images, etc.) Bientôt : gestion des vidéos

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Modèles de publication La vidéothèque Le thésaurus Les sujets du domaine Le vidéo-livre Le dossier audiovisuel

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Vidéothèque Accès par type de discours, genre filmique, type d’analyse, type d’usage, participant, plan visuel ou sonore, langue, etc. Accès par zone géographique utilisant Google Map Bientôt: accès par date ou période (frise temporelle)

Il est possible de personnaliser les intitulés et l’ordre de chacun de ces accès, pour chaque portail (voire même de retirer certains accès)

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

V. PUBLICATIONEXEMPLE: SEMIOSPHERE - ACCÈS GÉOGRAPHIQUE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Thésaurus Accès par termes d’une facette du thésaurus Les facettes accessibles sont définies pour chaque portail

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Sujets du domaine Chaque portail est associé à un domaine d’analyse Les requêtes renvoient les descripteurs (sélectionné depuis le

thésaurus, ou textes libres) filtrés par sujet du domaine, puis par séquence de description.

Il s’agit de lourdes requêtes, car ces descriptions sont basées sur des modèles dynamiques, variant d’un domaine à un autre

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Le vidéo-livre Chaque vidéo est publiée avec son chapitrage L’onglet « chapitre » est synchronisé avec le player Les diverses informations de l’analyse sont affichées (sauf les plans

thématiques, à venir) Vidéos similaires: vidéos de même genre, ou du même auteur

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Gestion du contenu (CMS) La technologie Umbraco nous a permis d’intégrer nos

modèles de publication dans un véritable CMS, pouvant s’adapter parfaitement à nos besoins

On retrouve les fonctionnalités CMS classiques: Modération, Publication, Gestion des images et des documents, Ajout/modification/suppression de contenus, Personnalisation des menus, Utilisation de thèmes pour le style et la mise en forme de chaque

portail, Etc.

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Types de contenu On peut définir des types de contenu, auxquels ont associés

des modèles de publication: Page Page d’articles, pouvant contenir

Articles Contacts Évènements Pages d’articles

Dossier audiovisuel, pouvant contenir Videos Dossiers audiovisuels

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

V. PUBLICATIONEXEMPLE: SEMIOSPHERE Exemple: page

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

V. PUBLICATIONEXEMPLE: SEMIOSPHERE Exemple: page d’articles

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Le dossier audiovisuel Selon le même principe, on peut construire des « dossiers

audiovisuels » Il suffit de sélectionner une méta-description dans la base à

l’aide d’un moteur de recherche

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Les macros Elles permettent d’afficher une liste d’articles ou le contenu

d’un dossier audiovisuel sur une autre page (la page d’accueil, par exemple)

V. PUBLICATIONEXEMPLE: SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

VI. ARCHITECTURES

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

VI. ARCHITECTURESAAR - PUBLICATION DE BASE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

VI. ARCHITECTURESAAR - PUBLICATION SÉPCIALISÉES

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

VI. ARCHITECTURESASA-SHS / SEMIOSPHERE

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

Le multilinguisme est à prendre en compte dès le début, il est ensuite techniquement difficile d’y revenir

En amont doivent être faits les choix des formats des médias, des standards, des thésaurii et des modèles de description.

Ceux-ci doivent être choisis en fonction des exploitations - donc des types de publications - qu’on souhaite faire du patrimoine. La meilleure solution pour le stocker ne sera pas forcément la meilleure pour le publier/le requêter.

QUELQUES REMARQUES

http://www.archivesaudiovisuelles.fr http://www.semiosphere.fr

MERCI DE VOTRE ATTENTION !

Francis LemaitreFondation Maison des Sciences de l’Homme (FMSH)

Equipe Sémiotique Cognitive et Nouveaux Médias (ESCoM)

lemaitre@msh-paris.fr