Car-tech

सबसे शक्तिशाली सुपरकंप्यूटर सबसे कठिन गिरते हैं, शोधकर्ता

दुनिया के सबसे ताकतवर सुपर कंप्यूटर की भारत में एंट्री

दुनिया के सबसे ताकतवर सुपर कंप्यूटर की भारत में एंट्री

विषयसूची:

Anonim

जैसे ही सुपरकंप्यूटर अधिक शक्तिशाली होते हैं, वे विफलता के लिए अधिक संवेदनशील होते हैं, अंतर्निहित घटक की बढ़ी हुई मात्रा के कारण। पिछले हफ्ते साल्ट लेक सिटी, यूटा में हालिया एससी 12 सम्मेलन में कुछ शोधकर्ताओं ने इस बढ़ती समस्या के संभावित समाधान की पेशकश की।

आज के उच्च प्रदर्शन कंप्यूटिंग (एचपीसी) सिस्टम में 100,000 नोड्स या अधिक हो सकते हैं-प्रत्येक नोड से कई नोड बनाए गए स्मृति, प्रोसेसर, बसों और अन्य सर्किटरी के घटक। सांख्यिकीय रूप से बोलते हुए, एससी 12 में एक बातचीत के दौरान उत्तर कैरोलिना स्टेट यूनिवर्सिटी के पीएचडी छात्र डेविड फिआला ने कहा, "ये सभी घटक कुछ बिंदु पर असफल हो जाएंगे, और जब वे ऐसा करते हैं तो वे संचालन रोकते हैं।

समस्या नहीं है एक नया, ज़ाहिर है। जब लॉरेंस लिवरमोर नेशनल लेबोरेटरी की 600-नोड एएससीआई (त्वरित सामरिक कंप्यूटिंग पहल) व्हाइट सुपरकंप्यूटर 2001 में ऑनलाइन चला गया, तो घटक विफलताओं के भाग में धन्यवाद, केवल पांच घंटों की असफलताओं (एमटीबीएफ) के बीच इसका मतलब था। बाद में ट्यूनिंग प्रयासों ने एएससीआई व्हाइट के एमटीबीएफ को 55 घंटे में सुधार दिया था।

लेकिन सुपरकंप्यूटर नोड्स की संख्या बढ़ने के साथ ही समस्या भी होगी। फियाला ने कहा, "इस बारे में कुछ करना होगा क्योंकि हम एक्सास्केल में चले जाते हैं," अगले दशक के सुपरकंप्यूटरों को आज के मॉडल की कम्प्यूटेशनल पावर की दस गुणा होने की उम्मीद है।

आज की तकनीकें फिला ने कहा कि सिस्टम विफलता से निपटने के लिए बहुत अच्छी तरह से पैमाने पर नहीं हो सकता है। उन्होंने चेकपॉइंटिंग का हवाला दिया, जिसमें एक चल रहा प्रोग्राम अस्थायी रूप से रुक गया है और इसकी स्थिति डिस्क पर सहेजी गई है। कार्यक्रम को तब दुर्घटनाग्रस्त कर देना चाहिए, सिस्टम अंतिम चेकपॉइंट से नौकरी को पुनरारंभ करने में सक्षम है।

एनसीएसयूडविद फियाला

फिआला के अनुसार चेकपॉइंटिंग के साथ समस्या यह है कि नोड्स की संख्या बढ़ती है, सिस्टम ओवरहेड की मात्रा चेकपॉइंटिंग करने की आवश्यकता भी बढ़ती है और एक घातीय दर पर बढ़ती है। उदाहरण के लिए, 100,000-नोड सुपरकंप्यूटर पर, गतिविधि का संचालन करने में केवल 35 प्रतिशत गतिविधि शामिल होगी। बाकी को चेकपॉइंटिंग द्वारा लिया जाएगा और-सिस्टम को विफल-पुनर्प्राप्ति संचालन, फियाला का अनुमान लगाया जाना चाहिए।

एक्सास्केल सिस्टम के लिए आवश्यक सभी अतिरिक्त हार्डवेयर की वजह से, जिसे एक लाख या अधिक घटकों से बनाया जा सकता है, सिस्टम विश्वसनीयता के पास होगा फिला ने कहा कि आज के सुपरकंप्यूटर का आनंद लेने के लिए एक ही एमटीबीएफ को रखने के लिए 100 बार सुधार किया जाना चाहिए।

पुरानी, ​​अच्छी सलाह: बैक अप डेटा

फिआला ने तकनीक प्रस्तुत की कि वह और साथी शोधकर्ता विकसित हुए हैं जो विश्वसनीयता में सुधार करने में मदद कर सकते हैं । तकनीक चुप डेटा भ्रष्टाचार की समस्या को संबोधित करती है, जब सिस्टम डिस्क पर डेटा लिखने में अनदेखी त्रुटियों को बनाते हैं।

मूल रूप से, शोधकर्ताओं के दृष्टिकोण में एक से अधिक प्रतियां, या एक कार्यक्रम के "क्लोन" चलते हैं, साथ ही उत्तर की तुलना करते हैं। रेडएमपीआई नामक सॉफ़्टवेयर को संदेश पासिंग इंटरफेस (एमपीआई) के साथ मिलकर चलाया जाता है, जो कई सर्वरों पर चल रहे अनुप्रयोगों को विभाजित करने के लिए एक लाइब्रेरी है, इसलिए प्रोग्राम के विभिन्न हिस्सों को समानांतर में निष्पादित किया जा सकता है।

रेडएमपीआई प्रत्येक एमपीआई को रोकता है और प्रतिलिपि बनाता है संदेश जो एक संदेश भेजता है, और संदेश के प्रतिलिपि (या क्लोन) में संदेश की प्रतियां भेजता है। यदि विभिन्न क्लोन अलग-अलग उत्तरों की गणना करते हैं, तो संख्याओं को फ्लाई पर फिर से गणना की जा सकती है, जो पूरे कार्यक्रम को फिर से चलाने से समय और संसाधनों को बचाएगा।

"अनावश्यकता को कार्यान्वित करना महंगा नहीं है। यह कोर गणनाओं की संख्या में अधिक हो सकता है इसकी जरूरत है, लेकिन यह चेकपॉइंट पुनरारंभ के साथ पुनर्लेखन की आवश्यकता से बचाता है, "फियाला ने कहा। "विकल्प, ज़ाहिर है, जब तक आपको लगता है कि आपके पास सही जवाब नहीं है, तब तक नौकरियों को फिर से शुरू करना है।"

फियाला ने ट्रिपल रिडंडेंसी के लिए प्रत्येक कार्यक्रम की दो बैकअप प्रतियों को चलाने की सिफारिश की। हालांकि एक कार्यक्रम की कई प्रतियां चलाना प्रारंभ में अधिक संसाधन लेगा, समय के साथ यह वास्तव में अधिक कुशल हो सकता है, इस तथ्य के कारण कि कार्यक्रमों को उत्तर की जांच करने के लिए पुन: चालू करने की आवश्यकता नहीं होगी। साथ ही, कई प्रतियां चलने पर चेकपॉइंटिंग की आवश्यकता नहीं हो सकती है, जो सिस्टम संसाधनों पर भी सहेज लेती है।

यूसीएससीथन मिलर

"मुझे लगता है कि अनावश्यकता का विचार वास्तव में एक अच्छा विचार है। []] बहुत बड़ी गणना, जिसमें हजारों नोड्स शामिल हैं, निश्चित रूप से एक मौका है कि त्रुटियां रेंगेंगी," एथन मिलर ने कहा, कैलिफोर्निया विश्वविद्यालय सांताक्रूज में कंप्यूटर विज्ञान प्रोफेसर, जो प्रस्तुति में भाग लिया। लेकिन उन्होंने कहा कि इस तरह की अनावश्यकता उत्पन्न होने वाले नेटवर्क यातायात की मात्रा के अनुसार दृष्टिकोण उपयुक्त नहीं हो सकता है। उन्होंने नोड्स के एक ही सेट पर सभी अनुप्रयोगों को चलाने का सुझाव दिया, जो इंटर्नोड ट्रैफिक को कम कर सकते हैं।

एक अन्य प्रस्तुति में, इरबाना-चैंपियन में इलिनोइस विश्वविद्यालय के पीएचडी छात्र अना गैनारू ने लॉग का विश्लेषण करने की तकनीक प्रस्तुत की सिस्टम विफलताओं के दौरान भविष्यवाणी करने के लिए फ़ाइलें।

कार्य डेटा खनन के साथ सिग्नल विश्लेषण को जोड़ती है। सामान्य व्यवहार को दर्शाने के लिए सिग्नल विश्लेषण का उपयोग किया जाता है, इसलिए जब विफलता होती है, तो इसे आसानी से देखा जा सकता है। डेटा खनन अलग-अलग रिपोर्ट विफलताओं के बीच सहसंबंधों को देखता है। अन्य शोधकर्ताओं ने दिखाया है कि कई विफलताओं को कभी-कभी एक दूसरे के साथ सहसंबंधित किया जाता है, क्योंकि एक प्रौद्योगिकी के साथ विफलता दूसरों में प्रदर्शन को प्रभावित कर सकती है, गैनारू के मुताबिक। उदाहरण के लिए, जब कोई नेटवर्क कार्ड विफल हो जाता है, तो यह जल्द ही नेटवर्क संचार पर निर्भर अन्य सिस्टम प्रक्रियाओं को घुमाएगा।

शोधकर्ताओं ने पाया कि 70 प्रतिशत सहसंबंध विफलताओं में 10 सेकंड से अधिक का अवसर प्रदान किया जाता है। दूसरे शब्दों में, जब विफलता का पहला संकेत पता चला है, तो सिस्टम को अपने काम को बचाने के लिए 10 सेकंड तक का समय हो सकता है, या अधिक महत्वपूर्ण विफलता होने से पहले, कार्य को दूसरे नोड में ले जाया जा सकता है। गैनारू ने कहा, "विफलता भविष्यवाणी को अन्य गलती सहनशीलता तकनीकों के साथ विलय किया जा सकता है।" 99

जोब जैक्सन ने आईडीजी समाचार सेवा के लिए एंटरप्राइज़ सॉफ़्टवेयर और सामान्य तकनीक को तोड़ने वाली खबरें शामिल कीं। ट्विटर पर योआब का पालन करें @ Joab_Jackson Joab का ई-मेल पता [email protected]