Car-tech

स्पीच रिकग्निशन सिस्टम स्मारक प्राप्त करना चाहिए, प्रोफेसर कहते हैं

Cât de mare este Alphabet ???

Cât de mare este Alphabet ???
Anonim

जो लोग स्वचालित भाषण मान्यता प्रणाली के लिए फोन पर बात करना नाराज हो सकता है कि वैज्ञानिक इस तरह के सिस्टम को अधिक आजीवन और उपयोग करने के लिए कम परेशान करने के लिए काम कर रहे हैं।

"उपभोक्ता अनुभव से, लोग इन प्रणालियों को बहुत निराशाजनक पाते हैं," जेम्स ने कहा एलन, जो रोचेस्टर विश्वविद्यालय में कंप्यूटर साइंस के अध्यक्ष हैं, इस हफ्ते न्यूयॉर्क में आयोजित स्पीचटेक सम्मेलन 2010 से पहले बोलते हैं।

अधिकांश कम्प्यूटरीकृत भाषण मान्यता प्रणाली यह समझ सकती हैं कि मानव उस समय 98 प्रतिशत तक क्या कहता है, और फिर भी लोग स्वचालित फोन हेल्प-डेस्क सिस्टम का उपयोग कर अभी भी चापलूसी करते हैं। एलन ने कहा, इन प्रणालियों को कम निराशाजनक बनाने के लिए उन्हें भाषा की गहरी समझ देनी होगी और उन्हें अधिक इंटरैक्टिव बनाना होगा।

[आगे पढ़ने: आपके नए पीसी को इन 15 मुफ़्त, उत्कृष्ट कार्यक्रमों की आवश्यकता है]

अब तक, अधिकांश बड़े संगठनों के ग्राहक सेवा विभाग स्वचालित फोन-आधारित सहायता प्रणाली प्रदान करते हैं। उपयोगकर्ता सहायता संख्या को कॉल करता है और कृत्रिम आवाज कॉलर को प्रश्नों की एक श्रृंखला से पूछता है। इनमें से अधिकतर सिस्टम ढांचे पर आधारित हैं जो मूल रूप से बड़े निर्णय पेड़ हैं। उन्होंने कहा, "इस तरह के सिस्टम के साथ," आप नहीं जानते कि व्यक्ति क्या चाहता है, आप एक स्क्रिप्ट का पालन कर रहे हैं। "

सिस्टम वास्तव में कई अलग-अलग तकनीकों का एक संयोजन है। एक भाषण मान्यता है, या किसी कंप्यूटर को समझने, या सफलतापूर्वक पाठ में अनुवाद करने की क्षमता, स्पीकर क्या कह रहा है।

अन्य तकनीक, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), स्पीकर के संदेश को कमांड में परिवर्तित करने का प्रयास करती है कि कंप्यूटर निष्पादित कर सकता है, या जिसे मानव ऑपरेटर के लिए सारांशित किया जा सकता है।

पिछले कुछ दशकों में दोनों आवाज पहचान और एनएलपी में महान कदम उठाए गए हैं, लेकिन वे अपने उपयोगकर्ताओं को अधिकतर निराशा लाए हैं। एलन ने कहा, "जब मुझे कोई समस्या हो और इन प्रणालियों से लड़ने के लिए मैं केवल बैंक को बुलाता हूं। [मैं पूछता हूं] जितना संभव हो सके एक व्यक्ति से मिलने के लिए मैं क्या जवाब दे सकता हूं।"

एलन का अकादमिक शोध कार्य रहा है उन्होंने कहा, "हम एक मशीन से बात कर सकते हैं जैसे हम किसी व्यक्ति से बात कर सकते हैं।" 99

दो लोगों के बीच वार्तालाप सटीक हो सकता है क्योंकि कंप्यूटरों को मेल खाने में कठिनाई होती है। एलन ने स्नातक छात्र के रूप में किए गए कुछ प्रारंभिक कार्यों की ओर इशारा किया, जिसमें उन्होंने ट्रेन स्टेशन सूचना डेस्क में बातचीत दर्ज की। एक बातचीत में, एक यात्री बूथ तक चलता है और कहता है "8:50 विंडसर के लिए," और परिचर उत्तर देता है "गेट 10, 20 मिनट देर से।" जबकि परिचर को पता था कि पूछताछकर्ता ने कौन सी जानकारी मांगी है, कम्प्यूटरीकृत सिस्टम यात्री के पहले बयान को परेशान करेंगे।

जिस तरह से एलन इसे देखता है, आधुनिक सिस्टम से दो तत्व गायब हैं: स्पीकर क्या कह रहा है इसका विश्लेषण करने की क्षमता और वक्ता के कहने का इरादा रखने के बारे में और जानने के लिए स्पीकर के साथ बातचीत करने की क्षमता।

"ऑफ-द-शेल्फ एनएलपी बहुत सारे उथले होते हैं। हमारे पास ऐसी तकनीक नहीं है जो आपको वाक्यों का अर्थ देती है।" उसने कहा। सांख्यिकीय प्रसंस्करण औजार और शब्द परिभाषा सेवा जैसे वर्डनेट, एक शब्द को परिभाषित करने में मदद कर सकती है लेकिन एक शब्द के संबंध भी, इसलिए एक प्रणाली को पता चलेगा कि, "सहायक" एक "कंपनी" का हिस्सा है।

और अधिक उपयोगकर्ताओं और कंप्यूटर के बीच दो-तरफा संचार की भी आवश्यकता है। अपनी जरूरतों के बारे में बात करते समय, लोग किसी विशेष क्रम में जानकारी प्रदान नहीं कर सकते हैं। यह इस जानकारी को एकसाथ टुकड़े करने के लिए कंप्यूटर पर होना चाहिए और उपयोगकर्ता को ऐसे प्रश्नों के साथ बोझ नहीं देना चाहिए जिनके उत्तरों पहले से ही उपलब्ध कराए गए हैं।

"यह भविष्य है, यह वास्तव में आप सिस्टम को करना चाहते हैं, और क्या हम संवाद बना सकते हैं सिस्टम जो जटिलता की इस सीमा का समर्थन कर सकते हैं, "उन्होंने कहा।

इस विचार को स्पष्ट करने के लिए, एलन और शोधकर्ताओं की एक टीम ने कार्डियाक नामक एक कार्यक्रम तैयार किया जो कि नर्स हृदय रोग से रोगी से पूछे जाने वाले प्रश्नों की नकल कर सकता था। कार्यक्रम यू.एस. राष्ट्रीय स्वास्थ्य संस्थान से वित्त पोषण के साथ बनाया गया था। एलन ने कहा, इस प्रणाली के साथ, जब उपयोगकर्ता जानकारी प्रदान करता है, तो सिस्टम फिर से इसके लिए नहीं पूछेगा। सिस्टम इस बारे में कारण होगा कि कौन सी सामग्री पहले ही प्रदान की गई थी और अभी भी क्या आवश्यक था।

एलन और उनकी टीम द्वारा डिजाइन किए गए एक अन्य कार्यक्रम, जिसे प्लो कहा जाता है, सीख सकता है कि कंप्यूटर पर सामान्य कार्यों को कैसे किया जाए। उन्होंने कहा, "यह एक ऐसी प्रणाली है जो आपको अपने सिस्टम को प्रशिक्षित करने के लिए अनिवार्य रूप से संवाद का उपयोग करने की अनुमति देती है।"

उदाहरण के तौर पर, एलन ने प्रोग्राम का प्रदर्शन किया कि ब्राउज़र का उपयोग करके आसपास के रेस्तरां कैसे ढूंढें। उपयोगकर्ता एक ब्राउज़र खोल देगा, एक रेस्तरां लोकेटर साइट पर नेविगेट करेगा, रेस्तरां के प्रकार और स्थान के प्रकार में टाइप करें, और उसके बाद परिणामों को एक खाली पृष्ठ में काटकर चिपकाएं। उपयोगकर्ता ने प्रत्येक चरण को वर्णित किया जैसा कि किया गया था।

प्रक्रिया में, हल प्रत्येक चरण को रिकॉर्ड करेगा, और जब चरण समझा जाता है तो श्रद्धांजलि प्रतिक्रिया देगी। बाद में, जब उपयोगकर्ता एक और रेस्तरां देखना चाहेगा, तो कार्यक्रम स्वचालित रूप से रेस्तरां की एक और सूची तैयार करने के साथ ही सभी चालों के माध्यम से जाएगा। यू.एस. डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी ने इस कार्यक्रम के विकास को वित्त पोषित किया।

अधिक डेटा मानव-जैसी भाषा प्रसंस्करण प्रणालियों के लिए महत्वपूर्ण है, सम्मेलन में एक और बात में भाषण लैरी हेक के लिए माइक्रोसॉफ्ट के मुख्य वैज्ञानिक से सहमत हुए। उन्होंने कहा, "यदि आपके पास डेटा नहीं है, तो इससे कोई फर्क नहीं पड़ता कि आपके एल्गोरिदम कितने परिष्कृत हैं।" 99

अधिक डेटा खोजने के लिए एक जगह खोज इंजन प्रश्नों में होगी। खोज इंजन सेवाओं को बड़ी संख्या में प्रश्न मिलते हैं, जिनमें से सभी उत्तर से जुड़े होते हैं। हेक ने कहा, "मैं भाषा प्रसंस्करण प्रौद्योगिकी के लिए एक करीबी चचेरे भाई के रूप में खोज देखता हूं।" 99

इन दिनों, लोगों को अपने प्रश्नों को कीवर्ड के एक सेट के रूप में तैयार करने के लिए प्रशिक्षित किया जाता है। इसके बजाए, यदि उपयोगकर्ताओं को जो कुछ चाहिए, उसका वर्णन करने वाले पूर्ण वाक्यों में टाइप करना था, तो परिणामस्वरूप डेटा सेट सिस्टम को बेहतर ढंग से समझने में मदद कर सकता है कि लोग क्या समझ रहे हैं।

हेक ने भविष्यवाणी की है कि अधिक से अधिक लोग वॉयस-एक्टिवेटेड सर्च सर्विसेज का उपयोग करते हैं माइक्रोसॉफ्ट और Google से, वे पूर्ण प्रश्नों के रूप में अपने प्रश्नों को संरचित करने के लिए अधिक आदी हो जाएंगे, जो समय के साथ एनएलपी सिस्टम को उपयोगकर्ता की जरूरतों की अपेक्षा करने में मदद कर सकता है।

जोब जैक्सन एंटरप्राइज़ सॉफ़्टवेयर और सामान्य तकनीक को तोड़ने के लिए आईडीजी समाचार सेवा । @Joab_Jackson पर ट्विटर पर Joab का पालन करें। Joab का ई-मेल पता [email protected]