Download pdf - Info1 cours 4-alphanum-v4

Transcript
Page 1: Info1  cours 4-alphanum-v4

Codage et représetation de l'information

Taha Zerrouki

MI, semestre 1

• Université de Bouira

Page 2: Info1  cours 4-alphanum-v4

Programme

• Représentation des nombres ● BCD● Exces 3● Code Gray

• Représentation des caractères● ASCII● Unicode

Page 3: Info1  cours 4-alphanum-v4

Codage des caractèresترميز الحروف

Page 4: Info1  cours 4-alphanum-v4

Codage d’information

65A 01000001

Page 5: Info1  cours 4-alphanum-v4

Codage d’information

Ada b

65 100 97 32 98

A d a b

01000001 01100100 01100001 00100000 01100010

Page 6: Info1  cours 4-alphanum-v4

Codage des caractères

Un nombre correspond à une Lettre

65 <===> A66 <===> B

Page 7: Info1  cours 4-alphanum-v4

Codage des caractères

Un nombre correspond à une Lettre

65 <===> A66 <===> B

Page 8: Info1  cours 4-alphanum-v4

Code ASCII

American Standard Code for Information Interchange

الترميز المعياري المريكي لتبادل المعلومات

Page 9: Info1  cours 4-alphanum-v4

ASCII

● 7 bits => 128 caractères ● + 1 bit de vérification

Page 10: Info1  cours 4-alphanum-v4

ASCII

!"#$%&'()*+,-./0123456789:;<=>?

@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_

`abcdefghijklmnopqrstuvwxyz{|}

Page 11: Info1  cours 4-alphanum-v4

codes

Page 12: Info1  cours 4-alphanum-v4

Caractères spéciaux

Page 13: Info1  cours 4-alphanum-v4

Caractères spéciaux

● SP : 20 espace ● CR : 13 retour à la ligne● HT : 09 Tabulation● BS ; 08 Back space● BEL : 07 sonnette ● NUL : 00 null● DEL : 127 supprimer ●

Page 14: Info1  cours 4-alphanum-v4

Exercice

● Décoder le message suivant● 42 6f 75 69 72 61 20 31 30

Page 15: Info1  cours 4-alphanum-v4

Exercice

● Décoder le message suivant● 42 6f 75 69 72 61 20 31 30 ● B o u i R a 1 0

Page 16: Info1  cours 4-alphanum-v4

Exercice

● Coder le message suivant● L'Algérie

Page 17: Info1  cours 4-alphanum-v4

Exercice

● Coder le message suivant● L ' A l g é r i e● 4c 27 41 6c 67 ?? 72 69 65

Page 18: Info1  cours 4-alphanum-v4

Problèmes● Il Représente que l'anglais● Manque des caractères accentués ● Pas des caractères multilingues

يمثل الجنجليزية فقط●ل حروف منقطة●ل حروف من لغات غير لتينية●

Page 19: Info1  cours 4-alphanum-v4

● Utiliser 8 bits● 8 bits = 256 caractères● 0-127 => ascii ● 128-255 => extension توسيع

ASCII étendu

Page 20: Info1  cours 4-alphanum-v4

ASCII étendu

Page 21: Info1  cours 4-alphanum-v4

ASCII étendu Arabe

Page 22: Info1  cours 4-alphanum-v4

ASCII étendu russe

Page 23: Info1  cours 4-alphanum-v4

ASCII étendu thaïlandais

Page 24: Info1  cours 4-alphanum-v4

Problèmes

● Multitude des codes تعدد الترميزات● Langues avec des nombreux caractères

مشكلة اللغات ذات الحروف الكثيرة●

Page 25: Info1  cours 4-alphanum-v4

Problèmes

● Multitude des codes تعدد الترميزات● Langues avec des nombreux caractères

مشكلة اللغات ذات الحروف الكثيرة●

Page 26: Info1  cours 4-alphanum-v4

Différents codes

Page 27: Info1  cours 4-alphanum-v4

Différents codes

Page 28: Info1  cours 4-alphanum-v4

ححد الترميز العالمي المو

Unicode

Page 29: Info1  cours 4-alphanum-v4

Unicode

16 bits = 65 535 caractères

Multilingue

Page 30: Info1  cours 4-alphanum-v4

Unicode

A 65

ض 1560

11619

40201

Page 31: Info1  cours 4-alphanum-v4

Unicode

Page 32: Info1  cours 4-alphanum-v4

Unicode

• Codage multilingue ترميز متعدد اللغات • 2 octets = 16 bits

• Extensible قابل للرثراء

Unicode.org

Page 33: Info1  cours 4-alphanum-v4

Unicode

Page 34: Info1  cours 4-alphanum-v4

Unicode chinois

Page 35: Info1  cours 4-alphanum-v4

Tifinagh

The Unicode Standard,

Version 6.3

Page 36: Info1  cours 4-alphanum-v4

Unicode Math

Page 37: Info1  cours 4-alphanum-v4

Unicode symboles

Page 38: Info1  cours 4-alphanum-v4

Unicode Hiéroglyphique

Page 39: Info1  cours 4-alphanum-v4

L'arabe et l'Unicode

Arabe standard العربية الساسيةCoranique Marques العلمات القرآجنية Arabe étendue العربية الموسعة• الفارسية

• الردو

• البشتو

• الكردية

• اللغات الفريقية

Ligature ل ، لم التراكيب مثل

Page 40: Info1  cours 4-alphanum-v4

Unicode arabe

Page 41: Info1  cours 4-alphanum-v4

Exercice

• Décoder le message suivant

• 062c 0627 0645 0650 0639 0629 064c

Page 42: Info1  cours 4-alphanum-v4

Exercice

• Décoder le message suivant

• 062c 0627 0645 0650 0639 0629 064c

ج ا62c 627 645 650 639 629 64c

ج ا م كسرة

ع ة ضمتان

Page 43: Info1  cours 4-alphanum-v4

Exercice

• Coder le message suivant

ييرة البو

Page 44: Info1  cours 4-alphanum-v4

Exercice

• Coder le message suivant

ييرة البوu0627 0644 0628 0648 064a 0652 0631 0629

Page 45: Info1  cours 4-alphanum-v4

العلمات القرآجنية في اليوجنيكود

Page 46: Info1  cours 4-alphanum-v4

Caractères de contrôle

Page 47: Info1  cours 4-alphanum-v4

Affichage

رثنائية التجاه•تشبيك الحروف•

Page 48: Info1  cours 4-alphanum-v4

Bidirectionalité

Page 49: Info1  cours 4-alphanum-v4

Directions

• المنغولية• Mongolien

Page 50: Info1  cours 4-alphanum-v4

Directions

• الصينية• الياباجنية• الكورية

Page 51: Info1  cours 4-alphanum-v4

Caractères de contrôle

Page 52: Info1  cours 4-alphanum-v4

Exemple

• <title>&#x202B; )المشروع(تجريبي &#x202C;</title>

PDFRLE

Page 53: Info1  cours 4-alphanum-v4

Affichage

رثنائية التجاه•

تشبيك الحروف•Attachement des lettres

Page 54: Info1  cours 4-alphanum-v4

Attachement

اختيار شكل الحرف المناسب حسب السياق•يجرى عادة على مستوى الخط •

Page 55: Info1  cours 4-alphanum-v4

Hinduتشابك الحروف في الهندية

Page 56: Info1  cours 4-alphanum-v4

Représentation BiDi

0 1 2 3 4 5 6ا ل ع ر ب ي ة

Dans la mémoireAffichage

Traitementالعربية

Page 57: Info1  cours 4-alphanum-v4

Caractères de contrôle d'attachement• هـ1436كتابة التاريخ الهجري :

ـهه + ـ = • ه= ZWJه + •

• Zero width joiner

• U+200D

Page 58: Info1  cours 4-alphanum-v4

Exemple d'attachement

ويك لول الصبر ما كنـ ـت ملت الكيس تبرا•

Page 59: Info1  cours 4-alphanum-v4

Interdire l'attachement

الجمهورية الجزائرية الديقراطية الشعبية

ججدشج.ج.دش

دش => ج ج دشZWNJجZWNJج

ZWNJ = Zero width non joiner

Page 60: Info1  cours 4-alphanum-v4

Représentation

• Unicode utilise 3 représentation :• UTF-8• Un octet pour l'ascii, 2à 4 octets pour les autres• بايت إذا كاجنت 1وهو المفضل لدى مبرمجي الويب ، حيث يستخدم

بايت للرموز 4 إلى 2وتستخدم ، ASCII الرموز موجودة في ترميز.المعقدة

• UTF-16 بايت للترميز إذا كاجنت الرموز موجودة2 هذا الترميز يستخدم إما

بايت للرموز الغير4و (Basic Multilingual Plane) BMP في.موجودة

• UTF-32 : بايت على الدوام4 يستخدم utilise 4 octets toujours .

Page 61: Info1  cours 4-alphanum-v4

UTF

A א 好

Code point U+0041 U+05D0 U+597D U+233B4

UTF-8 41 D7 90 E5 A5 BD F0 A3 8E B4

UTF-16 00 41 05 D0 59 7D D8 4C DF B4

UTF-32 00 00 00 41 00 00 05 D0 00 00 59 7D 00 02 33 B4

Page 62: Info1  cours 4-alphanum-v4

UTF