امروز: پنجشنبه 9 تیر 1401
چکیده اغلب رویکردهای نوین در حوزه ماشینی از جمله ماشینی آماری، ماشینی مبتنی بر مثال و ماشینی ترکیبی از مجموعه متون هم‌ تحت عنوان پیکره‌های متنی موازی به عنوان داده آموزشی اصلی استفاده می‌کنند اما برای اغلب زبان‌ها پیکره‌های موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات می‌شوند در
دسته بندی پردازش تصویر
بازدید ها 1,942
فرمت فایل doc
حجم فایل 654 کیلو بایت
تعداد صفحات فایل 98
34,800 تومان
دانلود فایل ورد Word تحقیق مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی

عنوان:مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی

تعداد صفحات : 98

چکیده:

اغلب رویکردهای نوین در حوزه ماشینی از جمله ماشینی آماری، ماشینی مبتنی بر مثال و ماشینی ترکیبی از مجموعه متون هم‌ تحت عنوان پیکره‌های متنی موازی به عنوان داده آموزشی اصلی استفاده می‌کنند. اما برای اغلب زبان‌ها پیکره‌های موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات می‌شوند. در طرف دیگر پیکره‌های تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست می‌آید. پیکره‌های تطبیقی شامل متون هم‌ نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی چون محتوا، تاریخ انتشار، عنوان و … با یکدیگر قابل تطبیق هستند.

پیکره‌های تطبیقی شامل جملاتی هستند که می‌توانند خوبی برای یکدیگر باشند. هدف این رساله ساخت خودکار پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی است. مدلی که در این پژوهش ارائه می‌شود از سه مرحله اصلی تشکیل می‌شود: انتخاب جفت جملات کاندیدای موازی بودن با استفاده از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک  انتخاب جفت جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه و در نظر گرفتن ویژگی‌های مربوط به طول دو جمله، کلمات مشترک آنها و ویژگی‌های مبتنی بر همترازی در سطح کلمه بین دو جمله  بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را می‌توان بوسیله محاسبه نزدیکی آن جمله با جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیک‌ترین جمله انجام داد.

در انتها کارآیی مدل ارائه شده در دو بخش  ارزیابی طبقه‌بند آنتروپی بیشینه طراحی شده و  ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ماشینی بررسی می‌شود.

فصل اول: مقدمه

1-1- مقدمه

به دلیل افزایش ارتباطات متقابل منطقه‌ای و نیاز برای تبادل اطلاعات، تقاضا برای زبان بسیار افزایش یافته است. بسیاری از نوشتجات نیاز به دارند از جمله مستندات علمی و فنی، دستورالعمل‌های راهنما، مستندات حقوقی، کتاب‌های درسی، بروشورهای تبلیغاتی، اخبار روزنامه‌ها و غیره؛ که برخی از آنها سخت و چالش برانگیز است اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون برای مترجمان حرفه‌ای دشوار است. در چنین موقعیتی ماشینی می‌تواند به عنوان یک جایگزین به کار گرفته شود.

ماشینی بعد از 65 سال یکی از قدیمی‌ترین کاربردهای کامپیوتر است. در طول سال‌ها، ماشینی مرکز توجه تحقیقات زبان‌شناسان، روان‌شناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده است. اغراق نیست اگر بگوییم کارهای جدید در حوزه ماشینی، به طور قابل ملاحظه‌ای در توسعه زمینه‌هایی نظیر زبان شناسی رایانه‌ای، هوش مصنوعی و پردازش زبان‌های طبیعی برنامه‌گرا، مشارکت کرده است.

ماشینی را می‌توان به این صورت تعریف کرد: “ از یک زبان طبیعی (زبان مبدأ) به زبان دیگر (زبان مقصد) با استفاده از سیستم‌های کامپیوتری شده و به همراه یا بدون کمک انسان”. کار پژوهشی در حوزه ماشینی به هدف بزرگ تمام خودکار با کیفیت بالا (قابل نشر) محدود نمی‌شود. غالبا ‌های ناهموار برای بازبینی موضوعات خارجی کافی است. تلاش‌های اخیر، در جهت ساخت کاربردهای محدودی در ترکیب با تشخیص گفتار به خصوص برای دستگاه‌های دستی می‌باشند. ماشینی می‌تواند به عنوان پایه‌ای برای ویرایش‌های بعدی به کار گرفته شود، مترجم‌ها معمولا با ابزارهایی نظیر حافظه‌های که از فناوری ماشینی استفاده می‌کنند اما آنها را در کنترل خود قرار می‌دهند، استفاده می‌کنند.

ماشینی یکی از حوزه‌های پژوهشی «زبانشناسی رایانه‌ای» است. تا کنون روش‌های مختلفی جهت خودکار کردن ابداع شده است، که در نوشتجات حوزه ماشینی به صورت‌های مختلفی دسته‌بندی شده‌اند. شکل 1-1 انواع روش‌های ماشینی موجود را در قالب دسته‌بندی که در  آمده است نشان می‌دهد.

1-1-1- ماشینی مبتنی بر فرهنگ لغت

این نوع ماشینی مبتنی بر مدخل‌های فرهنگ لغت است؛ و در آن از معادل کلمه جهت تولید استفاده می‌شود. اولین نسل ماشینی (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبنای فرهنگ لغت‌های الکترونیک بودند. این روش همچنان تا حدی در عبارات و نه جملات مفید است. اکثر روش‌هایی که بعدا توسعه داده شدند کم یا بیش از فرهنگ لغات دوزبانه بهره می‌گیرند .

2-1-1- ماشینی مبتنی بر قانون

ماشینی مبتنی بر قانون با اطلاعات ریخت شناسی، نحوی و معنایی زبان‌های مبدأ و مقصد سر و کار دارد. قوانین زبانی از این اطلاعات ساخته می‌شوند. این روش می‌تواند با پدیده‌های مختلف زبانی مقابله کند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشکلاتی به این سیستم می‌افزاید. همچنین فرآیند پژوهشی آن نیاز به سرمایه‌گذاری زیادی دارد. هدف ماشینی مبتنی بر قانون تبدیل ساختارهای زبان مبدأ به ساختارهای زبان مقصد است. این روش رویکردهای مختلفی دارد.

– رویکرد مستقیم: کلمات زبان مبدأ بدون عبور از یک نمایش میانی می‌شوند. در این روش به بستر متن، معنی و دامنه توجه نمی‌شود.

– رویکرد انتقالی: مدل انتقالی متعلق به نسل دوم ماشینی است (از اواسط دهه 1960 تا دهه 1980). در این مدل، زبان مبدأ به یک انتزاع که نمایشی کمتر مختص به زبان است، انتقال می‌یابد. سپس یک نمایش معادل برای زبان مقصد (با همان سطح انتزاع) با استفاده از فرهنگ لغات دوزبانه و قوانین گرامری تولید می‌شود.

– میان زبانی: این روش متعلق به نسل سوم ماشینی است. در این روش زبان مبدأ به یک زبان (نمایش) میانی تغییر شکل می‌دهد که این زبان میانی مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در است. سپس برای زبان مقصد از این نمایش کمکی به دست می‌آید. از اینرو در این نوع سیستم تنها به دو ماژول تجزیه و ترکیب نیاز است. همچینن به دلیل مستقل بودن این روش از زبان‌های مبدأ و مقصد، بیشتر در ماشین‌های چندزبانه استفاده می‌شود. این روش بر یک نمایش واحد از زبان‌های مختلف تأکید می‌کند.

3-1-1- ماشینی مبتنی بر دانش

این روش با واژه‌نامه‌ای مفهومی‌که یک دامنه را نشان می‌دهد سر و کار دارد. این روش شامل دو مرحله تحلیل و تولید است. اجزای پایه‌ای یک ماشین مبتنی بر دانش عبارتند از یک آنتولوژی از مفاهیم، واژه‌نامه و گرامر زبان مبدأ برای فرآیند تحلیل، واژه‌نامه و گرامر برای زبان مقصد و قوانین نگاشت بین نحو زبان میانی و زبان‌های مبدأ و مقصد.

4-1-1- ماشینی مبتنی بر پیکره

رویکرد ماشینی مبتنی بر پیکره‌های متنی از سال 1989 ظهور پیدا کرد و به طور وسیعی در حوزه ماشینی به آن پرداخته شد؛ و به دلیل دقت بالای این روش در ، بر دیگر روش‌ها غلبه یافت. در این روش، دانش یا مدل به طور خودکار از پیکره‌های متنی (مجموعه متون) دوزبانه گرفته می‌شود. از آنجایی که این رویکرد با حجم زیادی از داده‌ها کار می‌کند، ماشینی مبتنی بر پیکره نامیده شده است. برخی از انواع روش‌های مبتنی بر پیکره در ادامه شرح داده می‌شوند.

ماشینی آماری

با اینکه ایده اولیه ماشینی آماری توسط وارن ویور در سال 1941 معرفی شد، اما از سال 1993 که این روش توسط محققان آی بی ام مدل شد به طور گسترده‌ای مورد استفاده قرار گرفت؛ به طوری‌که در حال حاضر ماشینی آماری رایج‌ترین رویکرد در ماشینی به شمار می‌آید. در روش ماشینی آماری از مدل‌های آماری استفاده می‌شود که پارامترهای این مدل‌ها از متون دوزبانه یا همان «پیکره‌های موازی» استخراج می‌شوند. به عبارت دیگر سیستم ماشینی آماری، احتمالات را از پیکره موازی می‌آموزد و با استفاده از این احتمالات برای جملات ورودی که در فرآیند آموزش دیده نشده‌اند، ‌ای مناسب تولید می‌کند. در این روش از دو مدل عمده به نام مدل‌های مبتنی بر کلمه و مدل‌های مبتنی بر عبارت استفاده می‌شود.

ماشینی مبتنی بر مثال

روشهای ماشینی مبتنی بر مثال، روشهای مبتنی بر حافظه نیز نامیده شده‌اند. ایده این روش از سال 1980 در ژاپن شروع شد. این نوع سیستم‌ها تلاش می‌کنند تا جمله‌ای مشابه جمله ورودی در پیکره موازی پیدا کنند، و سپس با اِعمال تغییراتی بر روی جمله شده که قبلا ذخیره شده، جمله ورودی را تولید کنند.

ایده اولیه در این روش، استفاده از ‌های انسانی موجود برای متن‌های جدید است. لذا کافی است متون جدید به قطعه‌های کوچک شکسته شود و معادل این قطعات، در پایگاه داده‌ای از قطعات شده جستجو شده و مورد نظر تولید گردد. این روش دارای محدودیت دادگان می‌باشد. جمع‌آوری مجموعه مثال‌های بسیار بزرگ نیز کل زبان را پوشش نمی دهد. بنابراین معمولا این روش برای زیر مجموعه‌های محدودی از یک زبان استفاده می‌شود.

فایل های مرتبط ( 18 عدد انتخاب شده )

بالا