Failover خودکار فرآیندی است که دسترسی بالا را تضمین میکند. جابجایی به یک نسخه بکاپ باعث میشود سیستم در صورت از کار افتادن سیستم اصلی همچنان کار کند. اگر در مورد نحوه اجرای failover خودکار کنجکاو هستید این مطلب تمام اطلاعاتی را که برای درک این اصطلاح و زمینههای مختلف کاربرد آن نیاز دارید ارائه میدهد.
چرا Auto Failover مهم است؟
کسبوکارها برای اینکه در هنگام خرابیهای اولیه سیستم بهطور روان در حال اجرا بمانند، به Failover خودکار نیاز دارند که تداوم کسب و کار را تضمین میکند. همچنین باعث میشود برنامهها و سرویسهای حیاتی همچنان کاربردی باقی بمانند. خطر از دست دادن دادهها و تاثیر آن بر کاربران را کاهش میدهد. این فناوری برای سازمانهایی که نیاز به داونتایم صفر دارند، کلیدی است.
مزایای Failover خودکار
- افزایش در دسترس بودن سیستم: Failover خودکار تضمین میکند که سیستمها همیشه در دسترس هستند. آنها را در حال اجرا نگه داشته، زمان خرابی را کاهش داده و قابلیت اطمینان سیستم را بهبود میبخشد.
- بهبود بازیابی فاجعه: Auto Failover برای برنامههای بازیابی فاجعه بسیار مهم است و تضمین میکند که سیستمها میتوانند به سرعت در یک فاجعه، بازیابی شوند.
- کاهش داون تایم: به سیستم آماده به کار تبدیل شده و زمان خرابی را به حداقل میرساند.
- تداوم کسب و کار پیشرفته: Auto Failover تضمین میکند که عملیات تجاری بدون وقفه باقی می ماندحتی اگر سیستم اصلی از کار بیفتد.
- بهبود رضایت مشتری: Failover خودکار تضمین میکند که کاربران میتوانند بدون وقفه به برنامه ها و خدمات مهم دسترسی داشته باشند.
Failover خودکار چگونه کار میکند؟
Automatic failover بسیار مهم است. زمانی که سیستم اصلی از کار بیفتد به یک سیستم ریداندنت (Redundant) تغییر میکند. failover زمانی شروع میشود که شرایط از پیش تعریفشده مانند downtime یا high latency را برآورده کنند.
توضیح فرآیند Failover
فرآیند Failover با راه اندازی یک جز ریداندنت آغاز میشود که به عنوان یک حالت آماده به کار برای سیستم اولیه عمل میکند. این سیستم standby به گونهای طراحی شده که در صورت بروز نقص، کنترل را به عهده بگیرد تا عملیات ادامه داشته و حداقل اختلال برای کاربران ایجاد شود.
سیستم ها و منابع اولیه و ثانویه
سیستم اولیه مسئول رسیدگی به حجم کار و ارائه خدمات است. سیستم ثانویه یا standby، یک جزء ریداندنت است که برای کنترل عملیات در صورت خرابی طراحی شده تا همیشه یک سیستم بکاپ وجود داشته باشد و در دسترس بودن بالا را حفظ کرده و زمان خرابی را به حداقل برساند.
نظارت و تشخیص خرابیها
سیستم اولیه به طور مداوم برای علائم خرابی یا تخریب کنترل میشود. این نظارت میتواند از مکانیسم های مختلفی استفاده کند. مکانیسم Failover پس از شناسایی خرابی فعال میشود و سیستم ثانویه عملیات را بر عهده میگیرد.
تغییر مسیر خودکار بارهای کاری
هنگامی که یک failure رخ می دهد، سیستم بکاپ گیری کنترل میشود تا خدمات در دسترس و عملیاتی باقی بمانند. این فرآیند به گونه ای طراحی شده است که بدون درز باشد و کمترین اختلال را برای کاربران ایجاد کند. سیستم پشتیبان میتواند حجم کار را به تنهایی مدیریت نماید که تضمین میکند که سرویس ها قطع نمیشوند.
انواع Failover خودکار
Active-Passive Failover
- Failover اکتیو – پسیو نوعی است که در آن یک سیستم فعال و دیگری غیرفعال است.
- سیستم غیرفعال تا زمانی که سیستم فعال از کار بیفتد، بیکار میماند و در این مرحله کنترل را به دست میگیرد.
- این نوع failover معمولا در تنظیمات سرور استفاده میشود که در آن یک سرور فعال و دیگری در حالت استندبای است.
- Hyper V Replica نمونه آن است.
Active-Active Failover
- Failover اکتیو-اکتیو، چندین سیستم فعال و با هم کار میکنند تا دسترسی بالا را تضمین کنند.
- این نوع failover در لود بالانسینگ متداول است.
Site-To-Site Failover
- در Failover سایت تو سایت، چندین سایت یا مکان به هم متصل میشوند و در صورت خرابی یک سایت میتوانند نقشها را تغییر دهند.
- در بازیابی بلایا (disaster recovery)، سازمانها معمولا از این نوع Failover استفاده میکنند. چندین سایت به هم متصل هستند و می توانند در یک فاجعه جابجا شوند.
Network Failover
- در پیکربندیهای شبکه با چندین دستگاه که ترافیک را مدیریت میکنند، در صورت Failover یکی، میتوانند نقشها را تغییر دهند. این تنظیمات معمولا یک خطای شبکه نامیده میشود.
- دستگاههایی مانند روترها و سوئیچها میتوانند نقشها را تغییر دهند.
Application-Level Failover
- Failover در سطح برنامه نوعی است که در آن برنامهها میتوانند نقشها را در صورت عدم موفقیت تغییر دهند.
- این failover در تنظیمات برنامه رایج است.
Cloud-Based Failover
- در failover مبتنی بر ابر، زیرساخت ابری میتواند نقشها را در صورت عدم موفقیت تغییر دهد.
- این نوع failover در تنظیمات ابری رایج است.
- در این تنظیمات، چندین نمونه از یک برنامه کاربردی میتوانند حجم کار را مدیریت کنند.
Storage Failover
- در این تنظیمات، چندین استوریج، ذخیره سازی دادهها را مدیریت میکنند. آنها میتوانند نقشها را در صورت Failover تغییر دهند.
- این نوع Failover در تنظیمات ذخیره سازی رایج است.
Database Failover
- در حالت Failover دیتابیس، در صورت عدم موفقیت، پایگاه دادهها می توانند نقش ها را تغییر دهند.
- این نوع failover در تنظیمات پایگاه داده رایج است.
پیاده سازی خطای خودکار: ملاحظات کلیدی
در ادامه ملاحظات کلیدی وجود دارد که باید هنگام تنظیم مکانیسمهای Failover خودکار در نظر داشته باشید:
استراتژیهای شکست
- هنگام راه اندازی Failover خودکار، استراتژیهای مختلفی را در نظر بگیرید.
- این موارد عبارتند از active-passive، active-active، site-to-site, network، شبکه، اپلیکیشن، مبتنی بر ابر، ذخیره سازی و database failover.
Failover Testing and Validation
- آزمایش و اعتبارسنجی اطمینان حاصل میکند که Failover خودکار به خوبی کار میکند.
- شامل شبیه سازی شکست (simulating failures) است.
- فرآیند failover را تایید میکند و اطمینان میدهد که دادهها در طول failover ثابت میمانند.
- آزمایش و اعتبار سنجی مکانیسم failover به سازمانها کمک میکند تا قبل از تاثیر بر در دسترس بودن سیستم، مشکلات را برطرف کنند.
رویههای بازگشت مجدد
- رویههای Failback مجدد به همان اندازه هنگام اجرای خطای خودکار مهم هستند.
- Failback بازگشت عملیات به سیستمهای اصلی است.
- زمانی اتفاق میافتد که مشکلی که باعث خرابی شده است برطرف شود.
- رویههای مناسب Failback به عقب به سازمانها کمک میکند تا یکپارچگی سیستم را حفظ کنند.
بهترین روشها برای اجرای Failover خودکار
- بهترین استراتژی شکست را انتخاب کنید. این کار را بر اساس نیازهای سیستم خود و تحمل شما برای خرابی انجام دهید.
- تنظیم failover را اغلب آزمایش کنید. آن را بررسی کنید تا مطمئن شوید که خوب کار می کند.
- رویههای failover و failback سند. این باید روشهایی را برای راهنمایی مدیران سیستم در مواقع اضطراری شرح دهد.
- برای شناسایی مسائل یا ناهنجاریها و رسیدگی سریع به آنها، عملکرد مکانیسم failover را به طور مداوم نظارت کنید.
- آموزش کارکنان در رویههای Failover. آنها را در مورد Failover و Failback آموزش دهید. این اطمینان حاصل می کند که آنها می توانند در هنگام خرابی سیستم به خوبی پاسخ دهند.
خطرات و چالشهای Failover خودکار
- محدودیتهای از دست دادن دادهها: خطر از دست دادن دادهها به تنظیمات failover و حالت همگام سازی بستگی دارد. به عنوان مثال، در همانندسازی ناهمزمان، داده هایی که در سیستم آماده به کار کپی نشدهاند ممکن است در صورت وقوع یک شکست از بین بروند.
- ملاحظات پنجره Failover: مدت زمان فرآیند failover را failover window هم مینامند. اگر پنجره شکست کوتاهتر باشد، میتواند منجر به توقف طولانیتر شود و بر تجربه کاربر تاثیر بگذارد.
- پیچیدگی تنظیمات و اتوماسیون خرابی: راه اندازی Failover خودکار می تواند سخت باشد. این به ویژه برای سیستم های بزرگ و پیچیده صادق است. همچنین باید زیرساخت های لازم را راه اندازی کنید.
- پتانسیل برای Failover Storms: گاهی اوقات، خرابی در یک قسمت از سیستم می تواند باعث ایجاد یک آبشار از خرابی ها شود که منجر به failover storm شود. این میتواند زمانی اتفاق بیفتد که سیستم ها یا برنامه ها به یکدیگر وابسته باشند. خرابی در یک سیستم باعث شکست در سیستم دیگر می شود که باعث ایجاد یک اثر دومینو می شود.
- افزایش هزینه و منابع مورد نیاز: راه اندازی failover خودکار به سخت افزار، نرم افزار و منابع اضافی نیاز دارد. برای ایجاد و حفظ سیستم failover به آنها نیاز دارید. این می تواند هزینه ها را برای سازمان ها، به ویژه سازمان هایی که دارای سیستم های بزرگ و پیچیده هستند، افزایش دهد.
راهکارهای Failover خودکار
راهکارهای Failover حیاتی هستند. آنها سیستم های حیاتی را در دسترس نگه می دارند و زمان خرابی را محدود می کنند. در ادامه برخی از فروشندگان و محصولات پیشرو در بازار آورده شده است:
- VMware Site Recovery Manager (SRM) یک راه حل کامل برای بازیابی فاجعه است. Failover و Failback را برای محیط های مجازی خودکار می کند.
- Microsoft Failover Cluster در دسترس بودن بالا و failover خودکار را فراهم می کند. این به برنامه هایی مانند Exchange و SQL Server کمک می کند.
- Oracle Data Guard: قابلیتهای خودکار Failover و Failback را برای پایگاههای داده Oracle ارائه میدهد.
- CA XOsoft، DoubleTake و Marathon راه حل های اختصاصی هستند. آنها failover خودکار را برای برنامه ها و سرویس های حیاتی ارائه می دهند.
ارزیابی و انتخاب راهکار مناسب
- سیستم مورد نیاز: اطمینان حاصل کنید که راه حل نیازهای سیستم شما را برآورده می کند. اینها شامل نوع برنامه، حجم داده و عملکرد است.
- هزینه و پیچیدگی: هزینه و پیچیدگی راه حل، از جمله سخت افزار، نرم افزار و منابع مورد نیاز را ارزیابی کنید.
- مقیاس پذیری و انعطاف پذیری: راه حلی را انتخاب کنید که بتواند با سازمان شما رشد کند. باید با نیازهای در حال تغییر سازگار شود.
- ادغام راه حل با زیرساخت: بررسی کنید که راه حل با زیرساخت ها و برنامه های موجود شما یکپارچه شود.
جمع بندی
Failover کلیدی در فناوری اطلاعات مدرن است. کسب و کار را در حال اجرا نگه می دارد و زمان خرابی را کاهش می دهد. این کار را با انتقال عملیات به سیستم های پشتیبان انجام می دهد. این از برنامه های کاربردی، داده ها و خدمات حیاتی در برابر خرابی های غیرمنتظره محافظت می کند. اجرای failover خودکار نیاز به برنامه ریزی و آزمایش دقیق دارد. همچنین برای کاهش ریسک ها و چالش ها به رعایت بهترین شیوه ها نیاز دارد.