تیم تحریریه استاد آی تی گزارش می دهد: در عصر حاضر که وابستگی کسب و کارها به خدمات ابری و شبکه جهانی اینترنت به اوج خود رسیده است، پایداری و قابلیت اطمینان زیرساخت های حیاتی از اهمیت ویژه ای برخوردار است. شرکت هایی مانند Cloudflare که ستون فقرات بخش بزرگی از اینترنت را تشکیل می دهند، با چالش های منحصر به فردی در مدیریت عملیات روزانه خود مواجه هستند. این چالش ها به ویژه در زمان انجام عملیات نگهداری و به روزرسانی زیرساخت ها، که پتانسیل ایجاد اختلال در خدمات را دارند، به مراتب پیچیده تر می شوند.
چالش پایداری در مقیاس جهانی: از مدیریت دستی تا نیاز به هوش مصنوعی
Cloudflare دارای یک شبکه جهانی گسترده با بیش از ۳۳۰ مرکز داده در شهرهای مختلف جهان است. در چنین مقیاسی، هرگونه عملیات نگهداری مخرب (Disruptive Maintenance) نیازمند برنامه ریزی بسیار دقیق و هماهنگی پیچیده است. با رشد سریع شبکه، مدیریت این پیچیدگی ها از طریق هماهنگی دستی میان متخصصان عملیات شبکه و زیرساخت عملاً غیرممکن شد.
دیگر امکان پذیر نبود که یک انسان بتواند تمامی درخواست های نگهداری هم پوشان را ردیابی کند یا تمامی قوانین مسیریابی خاص مشتریان را به صورت لحظه ای در نظر بگیرد. این وضعیت منجر به نقطه ای شد که نظارت دستی به تنهایی نمی توانست تضمین کند که یک به روزرسانی سخت افزاری ساده در یک منطقه، به طور ناخواسته با یک مسیر حیاتی در منطقه ای دیگر تداخل پیدا نکند. نیاز به یک “مغز” متمرکز و خودکار برای نظارت بر کل وضعیت شبکه به عنوان یک محافظ، امری ضروری بود.
معماری Serverless Workers و غلبه بر محدودیت های حافظه
Cloudflare برای ساخت این سیستم زمان بندی نگهداری (Maintenance Scheduler) از پلتفرم Serverless خود یعنی Cloudflare Workers استفاده کرد. این پلتفرم به آنها اجازه داد تا محدودیت های ایمنی را به صورت برنامه نویسی اعمال کنند و اطمینان حاصل نمایند که سرعت توسعه هرگز منجر به کاهش پایداری خدمات نمی شود. با این حال، پیاده سازی اولیه با یک چالش فنی بزرگ مواجه شد.
راهکار ساده و اولیه برای بارگذاری تمامی داده های زیرساخت، پیکربندی محصولات و معیارهای سلامت در یک Worker واحد، به دلیل خطاهای “خارج از حافظه” (Out of Memory) شکست خورد. این امر نشان داد که حتی در محیط های Serverless، باید به محدودیت های پلتفرم توجه داشت. راهکار، بارگذاری تنها داده هایی بود که برای پردازش منطق تجاری محدودیت ها کاملاً ضروری بودند. به عنوان مثال، اگر درخواستی برای نگهداری یک روتر در فرانکفورت آلمان وجود داشت، نیازی به بارگذاری داده های مربوط به استرالیا نبود.
نظریه گراف (TAO) در قلب زمان بندی نگهداری خودکار
برای حل مشکل بارگذاری داده و پردازش کارآمد روابط پیچیده در زیرساخت، Cloudflare از یک رویکرد مبتنی بر نظریه گراف استفاده کرد. این رویکرد با الهام از مقاله تحقیقاتی TAO فیس بوک، یک رابط گراف را بر روی داده های زیرساخت و محصول ایجاد کرد. در این مدل، اجزای زیرساخت مانند روترها یا مراکز داده به عنوان رأس ها (Vertices) و ارتباطات و وابستگی های میان آنها به عنوان یال ها (Edges) تعریف می شوند.
این سیستم قادر است “محدودیت های نگهداری” (Maintenance Constraints) را با دقت اعمال کند. به عنوان مثال، یکی از این محدودیت ها تضمین می کند که در یک منطقه شهری، همیشه حداقل یک روتر لبه (Edge Router) فعال باقی بماند تا مراکز داده پشت آن قطع نشوند. محدودیت دیگر، مربوط به محصول Zero Trust است که تضمین می کند تمامی مراکز داده ای که یک مشتری خاص برای خروج ترافیک خود انتخاب کرده است، به طور همزمان آفلاین نشوند. این سیستم با بررسی هم پوشانی رویدادهای زمان بندی شده، اپراتورها را از تداخل های احتمالی آگاه می سازد و زمان جدیدی را برای جلوگیری از عواقب ناخواسته پیشنهاد می دهد.
نتیجه و چشم انداز آینده: تضمین پایداری با نگهداری خودکار زیرساخت
استفاده از Cloudflare Workers و مدل گراف TAO برای پیاده سازی نگهداری خودکار زیرساخت، یک گام بزرگ در جهت افزایش پایداری و کاهش خطای انسانی در مدیریت شبکه های جهانی است. این رویکرد نه تنها زمان از کار افتادگی (Downtime) ناشی از نگهداری را به حداقل می رساند، بلکه امکان می دهد تا عملیات به روزرسانی با سرعت و ایمنی بیشتری انجام شود. این امر به Cloudflare اجازه می دهد تا به تعهد خود در قبال ارائه خدمات خصوصا به وب سایت ها با قابلیت اطمینان بالا به مشتریان در سراسر جهان عمل کند.
کارشناسان استاد آیتی معتقدند که این نمونه موفق از به کارگیری معماری Serverless و محاسبات لبه (Edge Computing) برای حل مسائل پیچیده زیرساختی، نشان دهنده یک روند کلیدی در آینده مدیریت شبکه های بزرگ است. استفاده از مدل های داده ای پیشرفته مانند نظریه گراف برای مدیریت وابستگی ها، به زودی به یک استاندارد صنعتی برای تضمین پایداری در مقیاس های عظیم تبدیل خواهد شد.
تیم OSTADIT.COM آماده ارائه خدمات طراحی وب سایت و اپلیکیشن، سئو حرفه ایی، تولید و توسعه نرم افزار crm و ساخت ابزارهای آنلاین و هوشمند، راه اندازی زیر ساخت شبکه و تلفن Voip، گسترش برندینگ و بازاریابی دیجیتال، پشتیبانی وب سایت و انواع پلتفرم ها همچون اینستاگرام است.
منبع:
How Workers powers our internal maintenance scheduling pipeline

