عنوان:مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی
تعداد صفحات : 98
چکیده:
اغلب رویکردهای نوین در حوزه ماشینی از جمله ماشینی آماری، ماشینی مبتنی بر مثال و ماشینی ترکیبی از مجموعه متون هم تحت عنوان پیکرههای متنی موازی به عنوان داده آموزشی اصلی استفاده میکنند. اما برای اغلب زبانها پیکرههای موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات میشوند. در طرف دیگر پیکرههای تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست میآید. پیکرههای تطبیقی شامل متون هم نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی چون محتوا، تاریخ انتشار، عنوان و … با یکدیگر قابل تطبیق هستند.
پیکرههای تطبیقی شامل جملاتی هستند که میتوانند خوبی برای یکدیگر باشند. هدف این رساله ساخت خودکار پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی است. مدلی که در این پژوهش ارائه میشود از سه مرحله اصلی تشکیل میشود: انتخاب جفت جملات کاندیدای موازی بودن با استفاده از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک انتخاب جفت جملات موازی با استفاده از طبقهبند آنتروپی بیشینه و در نظر گرفتن ویژگیهای مربوط به طول دو جمله، کلمات مشترک آنها و ویژگیهای مبتنی بر همترازی در سطح کلمه بین دو جمله بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را میتوان بوسیله محاسبه نزدیکی آن جمله با جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیکترین جمله انجام داد.
در انتها کارآیی مدل ارائه شده در دو بخش ارزیابی طبقهبند آنتروپی بیشینه طراحی شده و ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ماشینی بررسی میشود.
فصل اول: مقدمه
1-1- مقدمه
به دلیل افزایش ارتباطات متقابل منطقهای و نیاز برای تبادل اطلاعات، تقاضا برای زبان بسیار افزایش یافته است. بسیاری از نوشتجات نیاز به دارند از جمله مستندات علمی و فنی، دستورالعملهای راهنما، مستندات حقوقی، کتابهای درسی، بروشورهای تبلیغاتی، اخبار روزنامهها و غیره؛ که برخی از آنها سخت و چالش برانگیز است اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون برای مترجمان حرفهای دشوار است. در چنین موقعیتی ماشینی میتواند به عنوان یک جایگزین به کار گرفته شود.
ماشینی بعد از 65 سال یکی از قدیمیترین کاربردهای کامپیوتر است. در طول سالها، ماشینی مرکز توجه تحقیقات زبانشناسان، روانشناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده است. اغراق نیست اگر بگوییم کارهای جدید در حوزه ماشینی، به طور قابل ملاحظهای در توسعه زمینههایی نظیر زبان شناسی رایانهای، هوش مصنوعی و پردازش زبانهای طبیعی برنامهگرا، مشارکت کرده است.
ماشینی را میتوان به این صورت تعریف کرد: “ از یک زبان طبیعی (زبان مبدأ) به زبان دیگر (زبان مقصد) با استفاده از سیستمهای کامپیوتری شده و به همراه یا بدون کمک انسان”. کار پژوهشی در حوزه ماشینی به هدف بزرگ تمام خودکار با کیفیت بالا (قابل نشر) محدود نمیشود. غالبا های ناهموار برای بازبینی موضوعات خارجی کافی است. تلاشهای اخیر، در جهت ساخت کاربردهای محدودی در ترکیب با تشخیص گفتار به خصوص برای دستگاههای دستی میباشند. ماشینی میتواند به عنوان پایهای برای ویرایشهای بعدی به کار گرفته شود، مترجمها معمولا با ابزارهایی نظیر حافظههای که از فناوری ماشینی استفاده میکنند اما آنها را در کنترل خود قرار میدهند، استفاده میکنند.
ماشینی یکی از حوزههای پژوهشی «زبانشناسی رایانهای» است. تا کنون روشهای مختلفی جهت خودکار کردن ابداع شده است، که در نوشتجات حوزه ماشینی به صورتهای مختلفی دستهبندی شدهاند. شکل 1-1 انواع روشهای ماشینی موجود را در قالب دستهبندی که در آمده است نشان میدهد.
1-1-1- ماشینی مبتنی بر فرهنگ لغت
این نوع ماشینی مبتنی بر مدخلهای فرهنگ لغت است؛ و در آن از معادل کلمه جهت تولید استفاده میشود. اولین نسل ماشینی (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبنای فرهنگ لغتهای الکترونیک بودند. این روش همچنان تا حدی در عبارات و نه جملات مفید است. اکثر روشهایی که بعدا توسعه داده شدند کم یا بیش از فرهنگ لغات دوزبانه بهره میگیرند .
2-1-1- ماشینی مبتنی بر قانون
ماشینی مبتنی بر قانون با اطلاعات ریخت شناسی، نحوی و معنایی زبانهای مبدأ و مقصد سر و کار دارد. قوانین زبانی از این اطلاعات ساخته میشوند. این روش میتواند با پدیدههای مختلف زبانی مقابله کند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشکلاتی به این سیستم میافزاید. همچنین فرآیند پژوهشی آن نیاز به سرمایهگذاری زیادی دارد. هدف ماشینی مبتنی بر قانون تبدیل ساختارهای زبان مبدأ به ساختارهای زبان مقصد است. این روش رویکردهای مختلفی دارد.
– رویکرد مستقیم: کلمات زبان مبدأ بدون عبور از یک نمایش میانی میشوند. در این روش به بستر متن، معنی و دامنه توجه نمیشود.
– رویکرد انتقالی: مدل انتقالی متعلق به نسل دوم ماشینی است (از اواسط دهه 1960 تا دهه 1980). در این مدل، زبان مبدأ به یک انتزاع که نمایشی کمتر مختص به زبان است، انتقال مییابد. سپس یک نمایش معادل برای زبان مقصد (با همان سطح انتزاع) با استفاده از فرهنگ لغات دوزبانه و قوانین گرامری تولید میشود.
– میان زبانی: این روش متعلق به نسل سوم ماشینی است. در این روش زبان مبدأ به یک زبان (نمایش) میانی تغییر شکل میدهد که این زبان میانی مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در است. سپس برای زبان مقصد از این نمایش کمکی به دست میآید. از اینرو در این نوع سیستم تنها به دو ماژول تجزیه و ترکیب نیاز است. همچینن به دلیل مستقل بودن این روش از زبانهای مبدأ و مقصد، بیشتر در ماشینهای چندزبانه استفاده میشود. این روش بر یک نمایش واحد از زبانهای مختلف تأکید میکند.
3-1-1- ماشینی مبتنی بر دانش
این روش با واژهنامهای مفهومیکه یک دامنه را نشان میدهد سر و کار دارد. این روش شامل دو مرحله تحلیل و تولید است. اجزای پایهای یک ماشین مبتنی بر دانش عبارتند از یک آنتولوژی از مفاهیم، واژهنامه و گرامر زبان مبدأ برای فرآیند تحلیل، واژهنامه و گرامر برای زبان مقصد و قوانین نگاشت بین نحو زبان میانی و زبانهای مبدأ و مقصد.
4-1-1- ماشینی مبتنی بر پیکره
رویکرد ماشینی مبتنی بر پیکرههای متنی از سال 1989 ظهور پیدا کرد و به طور وسیعی در حوزه ماشینی به آن پرداخته شد؛ و به دلیل دقت بالای این روش در ، بر دیگر روشها غلبه یافت. در این روش، دانش یا مدل به طور خودکار از پیکرههای متنی (مجموعه متون) دوزبانه گرفته میشود. از آنجایی که این رویکرد با حجم زیادی از دادهها کار میکند، ماشینی مبتنی بر پیکره نامیده شده است. برخی از انواع روشهای مبتنی بر پیکره در ادامه شرح داده میشوند.
ماشینی آماری
با اینکه ایده اولیه ماشینی آماری توسط وارن ویور در سال 1941 معرفی شد، اما از سال 1993 که این روش توسط محققان آی بی ام مدل شد به طور گستردهای مورد استفاده قرار گرفت؛ به طوریکه در حال حاضر ماشینی آماری رایجترین رویکرد در ماشینی به شمار میآید. در روش ماشینی آماری از مدلهای آماری استفاده میشود که پارامترهای این مدلها از متون دوزبانه یا همان «پیکرههای موازی» استخراج میشوند. به عبارت دیگر سیستم ماشینی آماری، احتمالات را از پیکره موازی میآموزد و با استفاده از این احتمالات برای جملات ورودی که در فرآیند آموزش دیده نشدهاند، ای مناسب تولید میکند. در این روش از دو مدل عمده به نام مدلهای مبتنی بر کلمه و مدلهای مبتنی بر عبارت استفاده میشود.
ماشینی مبتنی بر مثال
روشهای ماشینی مبتنی بر مثال، روشهای مبتنی بر حافظه نیز نامیده شدهاند. ایده این روش از سال 1980 در ژاپن شروع شد. این نوع سیستمها تلاش میکنند تا جملهای مشابه جمله ورودی در پیکره موازی پیدا کنند، و سپس با اِعمال تغییراتی بر روی جمله شده که قبلا ذخیره شده، جمله ورودی را تولید کنند.
ایده اولیه در این روش، استفاده از های انسانی موجود برای متنهای جدید است. لذا کافی است متون جدید به قطعههای کوچک شکسته شود و معادل این قطعات، در پایگاه دادهای از قطعات شده جستجو شده و مورد نظر تولید گردد. این روش دارای محدودیت دادگان میباشد. جمعآوری مجموعه مثالهای بسیار بزرگ نیز کل زبان را پوشش نمی دهد. بنابراین معمولا این روش برای زیر مجموعههای محدودی از یک زبان استفاده میشود.