M19 - Thibaud - Gestion électronique de documents
XML : Extensible Markup Language
XML = méta-langage = Langage utilisé pour décrire un autre langage. Un métalangage ne décrit pas seulement la syntaxe, il sert aussi à décrire la
sémantique.
-
XML méthode pour structurer des données
-
ressemble un peu à HTML
-
est du texte
-
c'est nouveau
-
xml conduit html à XHTML
-
Xml est modulire
-
xml est le fondement de RDF(métadonnéées)
-
xml est libre de droits et indépendant des platsformes
-
et du web semantiques
XML (
Extensible Markup Language (en) « langage de balisage extensible ») est un langage informatique de
balisage générique. Il sert essentiellement à stocker/transférer des données de type texte
Unicode structuré en champs arborescents. Le
World Wide Web Consortium (W3C), promoteur de standards favorisant l'échange d'informations sur
Internet, recommande la syntaxe XML pour exprimer des langages de balisages
spécifiques. De nombreux langages respectent la syntaxe XML :
XHTML,
SVG,
XSLT, etc.
-
Son objectif initial est de faciliter l'échange automatisé de contenus entre systèmes d'informations hétérogènes (interopérabilité). XML est une simplification de SGML dont il retient les principes essentiels comme :
- la structure d'un document XML est définissable et validable par un schéma,
- un document XML est entièrement transformable dans un autre document XML.
Cette syntaxe est reconnaissable par son usage des chevrons (< >).
Implémenter : c'est réaliser la phase finale d'élaboration d'un système qui permet au matériel, aux logiciels et aux procédures d'entrer en fonction.
-----------------------------------------
La norme ASCII [askiː] (American Standard Code for Information Interchange « Code américain normalisé pour l'échange d'information ») est la norme de codage de caractères en informatique la plus connue et la plus largement compatible. C'est également la variante américaine du codage de caractères ISO/CEI 646. ASCII contient les caractères nécessaires pour écrire en anglais. Elle a été inventée par l'américain Bob Bemer en 1961. Elle est à la base de nombreuses autres normes comme ISO 8859-1 et Unicode qui l'étendent.
Évolutions de l'ASCII vers l'Unicode :
Le premier codage largement répandu fut l'
ASCII. Pour des raisons historiques (les grandes sociétés associées pour mettre au point l'ASCII étaient américaines) et techniques (7 bits disponibles seulement pour coder un caractère), ce codage ne prenait en compte que 27 soit 128 caractères. De ce fait, l'ASCII ne comporte pas les caractères accentués, les cédilles, etc. utilisés par des langues comme le français. Ceci devint vite inadapté et un certain nombre de méthodes ad-hoc furent utilisées pour l'étendre.
L'ISO a donc défini de nouvelles normes, ISO 8859-1, ISO 8859-2, etc. jusqu'à ISO 8859-15. Ces jeux de caractères permettent de coder la plupart des langues occidentales. Le français utilise le plus souvent ISO 8859-1, aussi nommé latin1, ou ISO 8859-15 (latin9), qui a l'avantage de contenir des caractères comme le « œ » ou le « € ». Selon les langues utilisées, on peut trouver des centaines d'autres codages (EUC-JP est par exemple bien adapté au Japonais).
Le besoin de supporter de multiples écritures, incluant celles de la famille CJC, demandait un nombre nettement plus élevé de caractères supportés et nécessitait une approche systématique du codage de caractère utilisé, plutôt que les méthodes ad-hoc précédentes. Le codage Unicode a pour ambition d'être un surensemble de tous les autres, et est souvent représenté en UTF-8 ou en UTF-16.
Le répertoire complet d'Unicode contient près de 100 000 caractères, chacun possédant un unique code entier compris entre 0 et hexadécimal 10FFFF (soit un peu plus de 1,1 million - il existe donc des entiers auxquels aucun caractère n'est associé). Deux autres répertoires fréquemment utilisés, le code ASCII et l'ISO 8859-1, sont respectivement identiques aux 128 et 256 premiers caractères d'Unicode.
-----------------------------------------
UNICODE http://fr.wikipedia.org/wiki/Unicode
Unicode est une norme informatique, développée par le Consortium Unicode, qui vise à donner à tout caractère de n’importe quel système d’écriture de langue un nom et un identifiant numérique, et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel.
les outils bureautiques ont intégré le XML
ODF???
CALS (
Continuous
Acquisition and
Life-cycle
Support) Normalisé tous les documentaires : Définiton du mot CALS, Projet initié par la défense américaine, dans le but de l'amélioration des échanges de données techniques. Utilise le langage sgml et le cgm. SGML decoule de CAPS.
http://en.wikipedia.org/wiki/CALS_(DOD)
DOD défense américaine : The United States Department of Defense (DOD or DoD) is the federal department charged with coordinating and supervising all agencies and functions of the government relating directly to national security and the military. The organization and functions of the DOD are set forth in Title 10 of the United States Code.
-----------------------------------------
Mosaic : 1er navigateur internet NCSA Mosaic est un
navigateur web développé à partir de fin 1992 au centre de recherches américain NCSA (
National Center for Supercomputing Applications), d'abord pour les plateformes X Window (X Mosaic), puis Macintosh (Mac Mosaic) et enfin Windows. C'est le navigateur qui a rendu le World Wide Web populaire.
1998 début du XML 1.0
XMLtrès facile et très portable sur tous les systèmes d'exploitation
XML indépendant des systèmes et des applications.
Bases de données il existe 3 types de base : hierarchique - relationnelle - et objet
XML documentaire different du Xml informatique
-----------------------------------------
Une DTD indique les noms des éléments pouvant apparaître et leur contenu, c'est-à-dire les sous-éléments et les attributs. En dehors des attributs, le contenu est spécifié en indiquant le nom, l'ordre et le nombre d'occurrences autorisées des sous-éléments. L'ensemble constitue la définition des hiérarchies valides d'éléments et de texte. En revanche, les DTD ne permettent pas de poser des contraintes sur la valeur du texte comme « le contenu de l'élément X est un entier en décimal », ou encore «dans l'élément Y, toutes les séquences de blancs sont équivalentes à un seul espace».
XML Schema publié comme recommandation par le W3C en mai 2001 est un langage de description de format de document XML permettant de définir la structure d'un document XML. La connaissance de la structure d'un document XML permet notamment de vérifier la validité de ce document. Un fichier de description de structure (XML Schema Description en anglais, ou fichier XSD) est donc lui-même un document XML.
Une instance d'un XML Schema est un peu l'équivalent d'une définition de type de document (DTD). XML Schema amène cependant plusieurs différences avec les DTD : il permet par exemple de définir des domaines de validité pour la valeur d'un champ, alors que cela n'est pas possible dans une DTD ; en revanche, il ne permet pas de définir des entités ; XML Schema est lui même un document XML, alors que les DTD sont des documents SGML.
Ce langage de description de contenu de documents XML est lui-même défini par un schéma, dont les balises de définition s'auto-définissent (c'est un exemple de définition récursive).
Niveau de conformance c'est à dire conforme à
Html est une application de SGML => Xhtml est une réécriture du html
XML est un métalangage est issu de SGML
DTD Instances
Ascii 128 caractères pas les carractères accents
tables Caractères Iso 88596-1
ATA 100 applcation
SOAP protocole web services pour le web interactif
XML 1.2 va certainement inclute les balises avec des caractères accentués
XML est basé sur UNICODE
ACID 3 SAFARI Webkit KHTML
Firefox utilise le Cairo
Opera 80% compatible standard
tester les standards
Firefox 3.1 ou 3.5 intégrera toute la vidéo
ISO norme toutes normes confondus
Afnor en france
Le W3C publie des recommandations qui deviennent des normes
Fichier.ODP extension openoffice pour.doc
Mimetype associe des extension à des programmes
.docx c'est du openXML mettre un .zip au document pour voir la composition xml du documents
ODF pour openoffice OD c'est comme XML
ODF est une norme pour traiter tout ce qui es bureautique?
Koffice Kword
Xml ne remplace pas le html il est complémentaire
web sémentique en xml
W3C gérer par MIT états unis INRIA europe Kéo Japon
les normes ont une révision tous les 3 ans Valble pour l'ISO
W3C publie de nombreux rapports techniques
OASIS standard gérer les tableaux comment on lit un tableau par colonne ou par ligne?
Tableau Format CALS
Classification des standard
Le format SVG permet du dessin vectoriel D2 en XML
Standard RDF dublin Core utiliser dans le documentaire gestion des méta-données
Xpath
Implémentation :
SAX application API for XML lecture séquentiel
api DOM Document Object model arborescence plus rapide mais besoin de ressources
P3P pour la documentation et les imprimeurs Job ticket toutes les infos pour l'impression rotatives
Publication :
XSL pour la mise en forme XSL-T() XSL-FO(format object)
VoiceXML Applicayion vocae pour l'accessibilité non voyant
XMT extensible MPEG4 textual format
Smil pour faire de l'interactivité
Xforms pour les formulaires
Les standards
XUL interface langage
le html : Tel qu’il a été formalisé par le W3C, le HTML ne sert pas à décrire le rendu final des pages web. En particulier, contrairement à la
publication assistée par ordinateur, HTML n’est pas conçu pour spécifier l’apparence visuelle exacte des documents. HTML est plutôt conçu pour donner du
sens aux différentes parties du texte : titre, liste, passage important, citation, etc. Le langage HTML a été développé avec l’intuition que les appareils de toutes sortes devaient pouvoir utiliser les informations sur le web : les ordinateurs personnels avec des écrans de résolution et de profondeur de couleurs variables, les téléphones portables, les appareils de synthèse et de reconnaissance de la parole, les ordinateurs avec une bande passante faible comme élevée, et ainsi de suite. HTML est conçu pour optimiser l’
interopérabilité des documents.
HTML 5 => Canvas intègre la vidéo
Le
projet de loi « Création et Internet », parfois baptisé « loi Hadopi », ou encore « loi
Olivennes » d'après son principal inspirateur, est un
projet de loi français concernant principalement les droits d'auteur sur Internet. Il propose la création d'une autorité administrative indépendante qui aura pour rôle la mise en œuvre d'une « réponse graduée » contre le téléchargement numérique illégal.
-------------------------------
fichier XML est composée de :
1 ligne prologue designe la version et l'enconding
UTF8 unicode moins lourd codé sur 1 bits <128 et sur 2 bits > à 128 caractères
UTF16
<br> s'écrit <br/> en xhtml applique les normes d'xml
UNICODE codé sur 16 bits
different d'ASCII
IL n'existe pas de fontes unicode trop complexe à réaliser car travail monumental
en XML un retour chariot n'a pas de signification
Syntxe système des poupées russe
Parser : analyseur syntaxique
10% des cas ou on a besoin d'une DTD
Schema XML c'est également un schema pour base de données
notion attribut en XML c'est un typge basique
Attibut en XML
Xrunner moteur xul interface
AIR pour Adobe Silverlight pour MIcrosoft et JAVA FX est open source
RIA faire des interfaces "FullWeb"
interface graphique RIA aussi riche que sur mon informatique ces technologies utilisent le XML pour l'interface graphique
Xpath ce n'est pas du xml => DOM arborescence
un sitemap est un fichier XML qui liste les urls d'un site web avec en plus quelques meta données renseignant chaque url : la date de sa dernière mise à jour, selon quelle fréquence change l'url, quelle importance elle a relativement aux autres urls du site. Ces informations aident les moteurs de recherche à crawler votre site web intelligemment.
http://fr.wikipedia.org/wiki/Robot_d'indexation
Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.
Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des pourriels.