33
نسانی وه علوم ا پژوهشگا مطالعات فرهنگی تیرماه۱۳۹۱

مدل انتزاعی نوشتهنگاری برای خط فارسی‐عربی

Embed Size (px)

DESCRIPTION

خط فارسی‐عربی یکی از پرکاربردترین خط‌های جهان می‌باشد که زبان‌های بسیاری با الفباها و قلم‌های گوناگون با آن نگارش می‌شوند و به همین دلیل قواعد و استثناءهای متنوعی برای آن به‌وجود آمده است. کدگذاریِ معناییِ این خط و راه‌کارهای نمایش متن در رایانه‌ها نیز پیچیدگی‌هایی به این خط افزوده است، تا حدّی که درک و استفاده از این خط در محیط‌های رایانه‌ای را دچار مشکل کرده است. در این‌جا به تعریف اصولِ نوشته‌نگاریِ خط فارسی‐عربی و نحوه‌ی تعریف آن‌ها در محیط‌های رایانه‌ای می‌پردازیم. سپس ایراداتِ راه‌کارهای فعلی را بررسی کرده و به مسائلِ کاربردی‌ای می‌پردازیم که با راه‌کارهای موجود قابل رفع نمی‌باشند. در انتها مدلِ انتزاعیِ نوشته‌نگاری را برای خط فارسی‐عربی تعریف کرده و با آن به حل مسائل کاربردی می‌پردازیم.

Citation preview

۱۳۹۱تیرماه ‐مطالعات فرهنگی پژوهشگاه علوم انسانی و

عربی‐چالش های خط فارسی

زبان ها و قلم ها

گردش اطالعات بین کاربر و محیط رایانه ای

مشکالت فعلی

2 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

زبان ها و قلم ها

(غرب آفریقاجنوب و غرب آسیا تا شمال و از )تعداد زیاد زبان ها 0

هر زبانی حروفی را تغییر داده یا حروف جدیدی اضافه کرده است0

حرف در آخرین نسخه ی استانداردها ۲۰۰بیش از 0

نگارش متفاوتیا شیوه های قلم ها 0

شکسته نستعلیقکوفی، نسخ، ثلث، محقق، ریحان، رقاع، توقیع، دیوانی، تعلیق، نستعلیق و

مردممنطقه ی جغرافیایی و زبان وابستگی به 0

اما عناصر مشترکی در همه ی این قلم ها وجود دارد !عربی را تعریف می کنند‐که خط فارسی

3 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

گردش اطالعات بین کاربر و محیط رایانه ای

نمایش متن( ۲ ذخیره( ۱

ورود متن( ۴ متن نوشته شده( ۳

4 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

مشکالت فعلی

آشنایی کاربران با تعداد محدودی از الفباها0

اطالعات ناقص برای طراحی و پیاده سازی فونت0

تک زبانه یا چندزبانه0

هم نشینی زبان ها و الفباها در محیط های رایانه ای0

(اینترنتینام های دامنه های مانند )نام ها در کاربردها، وب گاه ها و فضاهای نام گذاری 0

نبود روش مناسب برای مقایسه ی ظاهری کلمات0

نمی توان از مقایسه ی حروف به تشابه کلمات پی برد0

5 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

مهلک کلمه کمهل ملکه

ترد نرد

ردت ردن

عربی‐اصول نوشته نگاری خط فارسی

شکل گیری کلمه

انواع حروف در خط

تنوع حروف در الفباها

انواع اتصال و انفصال

شکل های پایه و کمکی

نشانه های آوانمایی

6 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

کلمهشکل گیری

7 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

… ریاگن هتشون …

کلمه

پاره کلمه

فاصله ی میان کلمه میان کلمهفاصله ی

حروف در خطانواع

ء تک نمودییا جدا0 دونمودییا راست وصل0

…و ؤ …د ذ …ر ز ژ … ا أ إ وارد0 …ة ےئ ناقص0

…ص …س …ج …ب چهارنمودییا دووصل0

… ڪک …ف ق …ع …ط …ه …ن …م …ل …ی ئ

8 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

تنوع حروف در الفباها

آن هاست نمودهایو حروفشامل الفباهر 0

هم شکلی حروف در چند نمود0

ی ی ی ی حرف یا فارسی0 ي ي ی ی حرف یا عربی0

ی ی ى ى حرف الف مقصوره چند شکل برای یک نمود یک حرف0

ے/ی ے / ی ی ی حرف یا فارسی0 ی ی ی ی حرف یا اردو0

ے ے حرف یای بری حرف کامل و حرف ناقص0

ه ه ه ه حرف ها عربی/فارسی0 ه ه ‐ ‐ حرف ئه اویغور 0

9 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

انواع اتصال و انفصال

(عربی)اتصال اجباری 0

(فارسی، اردو)اتصال اختیاری 0

نوشتهنگاری ≠ نوشته نگاری الفبایینفصال ا0

خانهای ≠ خانه ای

«ها » واج ← چهارنمودی در فارسی « ه»حرف

«ئه » واج ← دونمودی

میرود ≅ می رود انفصال دستوری0

10 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

کمکیشکل های پایه و

11 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

شکل های کمکی

نشانه های آوانمایی

در باال یا پایین حروف قرار می گیرند0

ممکن است با هم ترکیب شوند0

+ =

جدیدی می سازندآوانمایی با حروف ترکیب شده و حروف گاهی نشانه های 0

ۇ= + و

12 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

عربی‐خط فارسیکدگذاری

معناییکدگذاری های شکلی و

یونی کدعربی در ‐خط فارسی

نویسه هامشخصه های

پیچیدگی های مدل یونی کد

13 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

شکلی و معناییکدگذاری های

یا شکلنمود ←نویسه شکلیکدگذاری های 0 بر اساس استانداردها و دوفاکتوهای ماشین های تحریر . روش قدیمی0

متنبیشتر در هنگام پردازش پیچیدگی 0

0xDA ← س/ س 0xDB ← س/ س

حرف یا نشانه ←نویسه کدگذاری های معنایی0 (منطقی)ذخیره و انتقال حروف به ترتیب معنایی . روش فعلی0

تشخیص نمود بر اساس مشخصه های حرف و نویسه های قبل و بعدش0

اتصالنویسه های تنظیم انفصال و به نیاز 0

0x0633 ← س/ س/ س / س

14 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

عربی در یونی کد‐خط فارسی

الگوریتم ها و مشخصه ها برای نمایش متن0

:گام ها

س ل ا م کدگذاری معنایی‐ ۱ م ا ل س الگوریتم دوجهته‐ ۲ م ا ل س الالگوریتم اتص‐ ۳ م ال س جایگزینی لیگاتورها‐ ۴

15 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

جهت ذخیره سازی داده

مشخصه های نویسه ها

نوع اتصال نویسه0 فاصل، راست وصل، دووصل نویسه های حرفی

شفاف نویسه های نشانه های آوانمایی واصل نویسه های اتصال مجازی

فاصل نویسه های فاصله ی مجازی

گروه اتصال نویسه0

شکل پایه ی یکسان در همه ی نمودها0

16 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

پیچیدگی های مدل یونی کد

می کندعربی در یونی کد از الفباهای زیادی پشتیبانی ‐خط فارسی0

می باشندوجود دارند که در چند نمود خاص کامال هم شکل نویسه هایی ( ۱

در دو نمود پیش پاره و میان پاره هم شکل اندیای فارسی و یای عربی در الفبایی معادل یک حرف واحد ( در همه ی نمودهایشان)وجود دارند که نویسه هایی ( ۲

می باشندمی باشند، ولی در الفبایی دیگر معادل دو حرف

در الفبای فارسی معادل یک حرف اندبری اردو یای یا و

شودخاص به شکلی دیگر نمایش داده زبانی /قلمینویسه ممکن است در یک ( ۳

نمود ته پاره یا تک پاره به شکل یک یای فارسی با حلقه ای در زیرش ظاهر می شود، در در حرف یای کشمیری

استقلم نستعلیق به شکل یک یای فارسی می باشد که انتهای آن بریده شده

ترکیب یک نویسه ی حرفی با یک نویسه ی آوانمایی ممکن است به تغییر ظاهر نویسه ی ( ۴

بیانجامدحرفی

شود باید بدون نقطه ظاهر شودهمراه که با نشانه ی همزه ی باال هنگامی حرف یای عربی

17 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

(۲)یونی کد پیچیدگی های مدل

نویسه های حرفی ای وجود دارند که از نظر شکل با ترکیب یک نویسه ی حرفی و یک ( ۵

نمی شوندنشانه ی آوانمایی کامال یکسان می باشند، اما از نظر یونی کد هم ارز شناخته

نمی باشد« ـ»و همزه ی باال « ح»هم ارز با دنباله ی حرف با همزه ی باال ح

روش توصیف شکل های نویسه ها، گروه اتصال، دارای چند ایراد بنیادی است0

تنها به شکل پایه ی حروف اهمیت داده است و هیچ اطالعی از جزئیات ظاهری حروف ( ۶

در اختیار نمی گذارد

Farsi_Yehو Yehنویسه های گروه های

از شکل های پایه می دهداطالع کمی ( ۷

نمودهای ابتدایی و میانی یکسان دارند Farsi_Yehو Beh، Noon ،Yehگروه های

یونی کداضافه شدن نویسه های جدید در نسخه های متوالی ( ۸

است، اما شکل پایه ی جدیدی تعریف نمی شودتعداد گروه های اتصال همیشه در حال افزایش

18 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

مسائل کاربردی

فونتطراحی و پیاده سازی

چندزبانهمحیط های

نیازها

19 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

طراحی و پیاده سازی فونت

عدم وجود اطالعات کافی برای سازندگان فونت ها0

فونت هاصحت عدم وجود روشی برای بررسی 0

عربی‐کمبود اطالعات ساخت یافته برای نویسه های فارسی0

تک پاره برای نمودهای مرجع شکل 0

از نویسه هابرخی یادداشت هایی برای 0

استثناءهاتوضیحاتی در مورد 0

هستندفونت با مشکل مواجه طراحان 0

استناهمگون موجود رفتار فونت های 0

20 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

«ها»شکل های ممکن برای نمودهای حروف خانواده ی

21 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

محیط های چندزبانه

مشکالت در تشخیص و واردکردن متن0

کاربر با همه ی نویسه ها آشنا نیست0

الفباها آماده نیستهمه ی سامانه برای نمایش و ورود درست هیچ گاه 0

استفاده پذیری و امنیتی0

22 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

<د > ق ,ی ,ق ,

<د > ق ,ي ,ق ,

قیدق

قیدق

کاربر فارسی زبان

نمایش متن

کاربر عربی زبان

ورود متن

<د > ق ,ي ,ق ,

<د > ق ,ی ,ق ,

نیازها

آوانمایی خطو حرفی نویسه های اطالعات شکلی تمامی 0

شکل های نمودهااطالعات ساخت یافته ی کافی در مورد جزئیات 0

قلممستقل از توصیف جزئیات شکل ها 0

در کدام زبان ها یا قلم ها کاربرد دارد( از یک نمود)هر شکل 0

23 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

مدل انتزاعی نوشته نگاری

انتزاعیشکل های

نویسه هارابطه ی شکل های انتزاعی پایه و

شکلیدنباله های

هم شکل و مشابهکلمات

24 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

شکل های انتزاعی

استشکل پایه هر نمود از حروف دارای حداقل یک 0

(۲۵)تک پاره (۲۴)ته پاره (۱۱)میان پاره (۱۱)پیش پاره : چهار گروه0

می باشندنیز شکل های کمکینمودها دارای برخی از 0

آوانمایی دقیقا یک شکل کمکی دارندنویسه های 0

(۲)روی (۳)انتها (۲۰)پایین (۳۲)باال :چهار گروه0

دنباله ی شکل داردهر نمود حرفی یا نویسه ی آوانمایی یک یا چند 0

لیگاتورها در این مدل نیاز به تعریف شکل های انتزاعی ندارند0

25 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

پایه و نویسه هاانتزاعی رابطه ی شکل های

26 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

«ای»دنباله های شکلی برای چند نویسه ی حرفی نمونه از خانواده ی

دنباله ی شکلی انتزاعی گروه قلم ها زبان ها (ها)نام نویسه (ها)کد نویسه

U+0649 ARABIC LETTER ALEF MAKSURA

YehIsol تک پاره YehFina ته پاره

BehInit پیش پاره BehMedi میان پاره

U+064A ARABIC LETTER YEH

YehIsol, TwoDotsBelow تک پاره YehFina, TwoDotsBelow ته پاره

BehInit, TwoDotsBelow پیش پاره BehMedi, TwoDotsBelow میان پاره

U+06CC ARABIC LETTER FARSI YEH

YehIsol تک پاره YehFina ته پاره

BehInit, TwoDotsBelow پیش پاره BehMedi, TwoDotsBelow میان پاره

U+06CD ARABIC LETTER YEH WITH TAIL تک پاره YehIsol, TailEnd

YehFina, TailEnd ته پاره

27 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

«افک»دنباله های شکلی برای چند نویسه ی حرفی نمونه از خانواده ی

28 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

دنباله ی شکلی انتزاعی گروه قلم ها زبان ها (ها)نام نویسه (ها)کد نویسه

U+0643 ARABIC LETTER KAF

KafIsol, KafchehAbove تک پاره KafFina, KafchehAbove ته پاره

KehInit پیش پاره KehMedi میان پاره

U+06A9 ARABIC LETTER KEHEH

KehIsol تک پاره KehFina ته پاره

KehInit پیش پاره KehMedi میان پاره

U+06A9 ARABIC LETTER KEHEH FA, AR

SwashKafIsol تک پاره SwashKafFina ته پاره

SwashKafInit پیش پاره SwashKafMedi میان پاره

U+06AA ARABIC LETTER SWASH KAF

SwashKafIsol تک پاره SwashKafFina ته پاره

SwashKafInit پیش پاره SwashKafMedi میان پاره

شکلیدنباله های

می شودبرای هر کلمه نیز دنباله های شکلی ای تعریف 0

(آوانماییحرفی و )نویسه ها کلمه توالی دنباله های شکلی 0

شکلینویسه ای برای یک دنباله ی رشته های 0

پیدا کردن رشته های نویسه ای به طوری که دنباله ی شکلی آن ها برابر با 0

باشددنباله ی شکلی مطلوب

29 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

کلمات هم شکل و مشابه

کلمات هم شکل0

با تبدیل رشته ی نویسه های یک کلمه به دنباله های شکل آن، و تبدیل 0

دوباره ی دنباله های شکلی به رشته های نویسه ای آن ها

کلمات مشابه0

شکلیبا تعریف یک تابع متریک برای دنباله های 0

شکل های کمکی را با یکدیگرکرده و پایه را با یکدیگر مقایسه شکل های 0

30 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

کاربردهای مدل انتزاعی

سیب

31 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

کاربردهای مدل انتزاعی

حرفیاطالعات ساخت یافته برای همه ی نمودهای نویسه های 0

قلم هاکافی در مورد زبان ها و جزئیات 0

فونت باشدمی تواند مرجعی کافی برای طراحی ⇐

کردکلمات هم شکل یا مشابه را شناسایی می توان 0

استفاده پذیری قابل پیش گیری خواهند بودامنیتی و مسائل 0

32 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه

پایان

33 عربی‐مدل انتزاعی نوشته نگاری برای خط فارسی ۱۳۹۱ تیرماه