Abstract
One motivation of Grid computing is to aggregate the power of widely distributed resources, and provide non-trivial services to users. To achieve this goal, an efficient Grid fault tolerance system is an essential part of the grid. Rather than covering the whole Grid fault tolerance area, this survey provides a review of the subject mainly from the perspective of check point. In this review the challenges for fault tolerance are identified. In Grid environments, execution failures can occur for various reasons such as network failure, overloaded resource conditions, or non-availability of required software components. Thus, fault-tolerant systems should be able to identify and handle failures and support reliable execution in the presence of concurrency and failures In scheduling a large number of user jobs for parallel execution on an open-resource Grid system, the jobs are subject to system failures or delays caused by infected hardware, software vulnerability, and distrusted security policy. In this paper we propose a task level fault tolerance. Task-level techniques mask the effects of the execution failure of tasks. Four task level techniques are Retry, alternate resource, Check point and Replication. Check point technique strategy achieves optimal load balance across different grid sites These Fault tolerance task level techniques can upgrade grid performance significantly at only a moderate in extra resources or scheduling delays in a risky Grid computing environment.
Index terms:
Grid computing, Genetic Algorithm, Fault-tolerance, Task scheduling
١- ایده اصلی مقاله
در این مقاله یک روش در سطح-وظیفه برای تحملپذیری خطا در گرید مطرح شدهاست. تکنیکی که برای تحملپذیری خطا در این مقاله از آن استفاده شده، تکنیک نقطهبررسی است که به صورت ترکیبی با الگوریتم ژنتیک مورد استفاده قرار گرفتهاست. که در ادامه تک تک آنها شرح داده شدهاست.
١-١- الگوریتم ژنتیک (GA)
یک تکنیک تکاملی برای جستجو در فضاهای بزرگ محسوب میشود. فرایند کلی جستجوی GA به صورت زیر است.
- تولید جمعیت اولیه: یک جمعیت مجموعهای از کروموزومها است و هر کروموزوم نشاندهنده یک راهحل است که در اینجا یک دنباله نگاشت بین وظیفه ها و ماشین ها محسوب میشود.
- ارزیابی کرورموزوم: هر کرموزوم دارای یک مقدار برازندگی است که کیفیت نگاشت وظیفه-ماشین را برای آن کروموزوم نشان میدهد. هدف جستجوی GA، پیدا کردن کروموزومی با مقدار برازندگی بهینه است.
عملگرهای برش و جهش: عملگر برش یک جفت کروموزوم را به صورت تصادفی انتخاب کرده و یک نقطه تصادفی در کروموزوم اول برمیگزیند و بین دو کرموزوم از آن نقطه تا آخر کروموزومها، ماشینهای نسبت داده شده به هر وظیفه را با هم معاوضه میکند