येलो पेज स्क्रैपिंग / वेब स्क्रैपिंग ट्यूटोरियल
नौकरी बोर्डों जैसी वेबसाइटें लगातार समस्या का सामना करती हैं: उनके डेटा को स्वचालित बॉट्स द्वारा लगातार पायलट किया जाता है।
डेटा अन्य प्रतिस्पर्धी नौकरी बोर्डों पर समाप्त होता है, जिसने सामग्री चुरा ली है। यह एक ऐसी समस्या है जो किसी भी वेबसाइट को पीड़ित करती है, जिसकी बौद्धिक संपदा को सार्वजनिक रूप से मुफ्त में पोस्ट किया जाना चाहिए, या यहां तक कि सब्सक्रिप्शन मॉडल वाले भी।
लेकिन एक अटलांटा स्थित सुरक्षा कंपनी जो बॉट्स का पता लगाने में माहिर है, ने सॉफ्टवेयर विकसित किया है जो उन स्क्रीन-स्क्रैपिंग का पता लगा सकता है और डेटा खनन बॉट्स।
[आगे पढ़ने: अपने विंडोज पीसी से मैलवेयर कैसे निकालें]प्रामाना का मुख्य उत्पाद, ह्यूमनपेंटर, स्वचालित बॉट का पता लगाता है, उदाहरण के लिए, वेब-आधारित रूपों में स्पैम दर्ज करें या मुफ्त में पंजीकरण करें स्पैम के लिए ई-मेल खाते का उपयोग किया जाना चाहिए।
प्राणना ने अब मानव प्रतिनिधित्व के लिए "डेटा खनन और स्क्रीन स्क्रैपिंग रोकथाम" नामक एक मॉड्यूल विकसित किया है। प्रमोना के सीईओ डेविड क्रॉउडर ने कहा, यह अपने मुख्य उत्पाद के समान सिद्धांतों पर काम करता है लेकिन डाटा-खनन परिदृश्यों के लिए संशोधित किया गया है।
मानव प्रतिनिधित्व आम तौर पर एक वेब के साथ बातचीत करने के तरीके में मतभेदों को ध्यान में रखते हुए बॉट का पता लगा सकता है पृष्ठ और इसके विपरीत है कि कैसे बॉट व्यवहार करते हैं। यह 30 से अधिक मीट्रिक, जैसे कुंजीपटल स्ट्रोक, माउस क्लिक और उन कार्यों के समय को देखता है।
मानव प्रतिनिधित्व एकल लेनदेन को देखता है, लेकिन डेटा-खनन मॉड्यूल को एक समय अवधि देखने के लिए संशोधित किया गया है जब कोई बॉट या मानव साइट पर है, क्रॉउडर ने कहा।
डेटा खनन बॉट पूरी तरह से ब्राउज़र के उपयोगकर्ता इंटरफ़ेस को बाधित करते हैं। उदाहरण के लिए, एक बॉट एक वेब पेज का अनुरोध बहुत सारे और बहुत सारे डेटा के साथ कर सकता है, लेकिन पृष्ठ पर कभी भी स्क्रॉल या क्लिक नहीं करता है। यदि पृष्ठों की एक श्रृंखला खोली जाती है और इस तरह से देखी जाती है, तो इसका मतलब यह हो सकता है कि डेटा-खनन बॉट आ गया है।
प्राणाना आगंतुक को एक अनन्य आईडी निर्दिष्ट करता है, और आगंतुक के व्यवहार का विश्लेषण करने के बाद, निर्णय ले सकता है कि लेबल आगंतुक एक बॉट या नहीं। वेब साइट ऑपरेटर स्थिति से निपटने के लिए कई अलग-अलग तरीकों से चयन कर सकता है।
बॉट के कंप्यूटर का आईपी (इंटरनेट प्रोटोकॉल) पता स्थायी रूप से ब्लॉक किया जा सकता है। एक कार नीलामी वेबसाइट जो प्रामाना के डेटा खनन मॉड्यूल का परीक्षण कर रही है, ने संदिग्ध बॉट को "सैंडबॉक्स" में स्थानांतरित करने का फैसला किया जहां इसे पूरी तरह से झूठा डेटा दिया जाता है।
"वे वास्तव में डेटा खनन हैं - यह सिर्फ गलत है," क्रॉउडर ने कहा ।
अन्य विकल्पों में वेब साइट आगंतुक को चुनौती या कार्य के साथ संकेत देना शामिल है, जो कुछ बॉट पूरा करने में सक्षम नहीं हैं।
डेटा खनन लागत कंपनियों को काफी हद तक। प्रीमियम डेटा बेचने वाली कंपनियां यह जान लेंगी कि उनके प्रतियोगियों एक सदस्यता खरीद लेंगे और फिर अपनी साइट्स के लिए डेटा चोरी करने के लिए स्वचालित बॉट का उपयोग करेंगे। एक उदाहरण में, एक ऐसी वेबसाइट जिस पर प्रयुक्त कार की कीमतों पर डेटा के गीगाबाइट्स हैं, ने पाया कि उनका डेटा स्क्रैप किया गया था और eBay पर बिक्री के लिए था।
"वे वास्तव में अपनी सामग्री के साथ प्रतिस्पर्धा कर रहे हैं।"
कुछ वेब साइटों में खराब डिज़ाइन होते हैं जो डेटा स्क्रैपिंग को इतना आसान बनाते हैं। क्रॉउडर ने कहा कि इस्तेमाल की गई कार साइट में यूआरएल (यूनिफ़ॉर्म रिसोर्स लोकेटर) को अधिक डेटा प्रकट करने के लिए अनुक्रमिक रूप से संशोधित किया जा सकता है।
डाटा-खनन मॉड्यूल अब मानव उत्पाद उत्पाद में लपेटा जाएगा, लेकिन अगले साल प्रमोना इसे बेचने की योजना बना रहा है अलग से, क्रॉउडर ने कहा। प्रामाण मानव-प्रतिनिधित्व को या तो ऑन-प्रिमाइज उपकरण या सॉफ़्टवेयर-ए-सर्विस सर्विस कॉन्फ़िगरेशन के रूप में प्रदान करता है।
सास (सेवा के रूप में सॉफ़्टवेयर) की पेशकश के लिए, प्रामाना की तकनीक को वेब एप्लिकेशन में एकीकृत किया जाता है और सत्र की जानकारी वापस भेज दी जाती है विश्लेषण के लिए Pramana करने के लिए। पाउडर ने कहा कि प्राणना अपने नवीनतम संस्करण में विलंबता समय पर काफी कटौती करने में सक्षम रही है। उन ग्राहकों के लिए जिन्हें अधिक गति की आवश्यकता है, उपकरण उपलब्ध है।
अध्ययन यूरोपीय संघ की खरीद से बाहर रखा गया ओपन सॉफ़्टवेयर का पता लगाता है
यूरोपीय संघ के एक व्यापार समूह के अध्ययन से पता चलता है कि खुला सॉफ्टवेयर सार्वजनिक खरीद से बाहर किया जा रहा है।
सब कुछ आप बॉट्स / मैसेजिंग बॉट्स के बारे में जानना चाहते थे
इंटरनेट पर हर जगह स्वचालन हो रहा है और बॉट और मैसेजिंग बॉट पॉप अप कर रहे हैं। वे क्या हैं? अधिक जानने के लिए पढ़े।
अब बॉट्स कटाक्ष का भी पता लगा सकते हैं: ऑनलाइन गाली से लड़ने में मदद करेगा
एमआईटी के शोधकर्ताओं ने एक एल्गोरिथ्म विकसित किया है जो ट्वीट्स में व्यंग्यात्मक उपक्रमों का पता लगा सकता है और भविष्य में ट्विटर पर दुरुपयोग को रोकने में मदद करेगा।