VALL-E: Microsoft के AI मॉडल के बारे में जानने योग्य 5 बातें जो 3 सेकंड में किसी भी आवाज की नकल कर सकता है

[ad_1]

माइक्रोसॉफ्ट प्रदर्शन किया VALL-ईइसका पाठ से वाक् AI मॉडल जो एक लघु ऑडियो नमूने से किसी भी आवाज का अनुकरण कर सकता है। न केवल आवाज बल्कि यह कमरे की भावना और ध्वनिकी से भी मेल खा सकती है। हालांकि इसे कई अच्छे तरीकों से इस्तेमाल किया जा सकता है, लेकिन इसके बारे में नैतिक चिंताएं भी हैं। जबकि जीथब पर सुनने के लिए ढेर सारे नमूने उपलब्ध हैं, यहाँ VALL-E के बारे में पाँच बातें जानने योग्य हैं।
VALL-E क्या है?
माइक्रोसॉफ्ट VALL-E को एक “न्यूरल कोडेक लैंग्वेज मॉडल” कहता है जो टेक्स्ट इनपुट से ऑडियो और लक्षित स्पीकर से छोटे नमूने उत्पन्न करता है। यह 3 सेकंड जितनी छोटी आवाज के नमूने को सुनकर किसी भी आवाज की नकल कर सकता है। VALL-E आमतौर पर अभी तक उपलब्ध नहीं है।
प्रशिक्षण मॉडल
शोधकर्ताओं का कहना है कि उन्होंने VALL-E को अंग्रेजी भाषा के 60,000 घंटों के भाषण पर प्रशिक्षित किया है – जो मौजूदा प्रणालियों की तुलना में सैकड़ों गुना बड़ा है – 7,000 से अधिक वक्ता मेटाकी लिब्रीलाइट ऑडियो लाइब्रेरी।
आवाज की नकल करने के लिए, लक्षित वक्ता की आवाज प्रशिक्षण डेटा के साथ घनिष्ठ मेल होनी चाहिए। इस तरह, एआई वांछित पाठ को जोर से पढ़ने के लिए लक्ष्य वक्ता की आवाज की नकल करने की कोशिश करने के लिए अपने ‘प्रशिक्षण’ का उपयोग कर सकता है।

एआई भावनाओं की नकल कर सकता है
यह ध्यान दिया जाना चाहिए कि एआई मॉडल न केवल पिच या भूसी या बनावट की नकल कर सकता है बल्कि स्पीकर के भावनात्मक स्वर के साथ-साथ कमरे की ध्वनिकी भी नकल कर सकता है। जिसका अर्थ है कि यदि लक्षित आवाज में गड़बड़ी है, तो VALL-E भी आवाज की नकल करेगा जैसे कि कोई गड़बड़ी हो।
“प्रयोग के परिणाम बताते हैं कि वाक् स्वाभाविकता और वक्ता समानता के मामले में VALL-E अत्याधुनिक जीरो-शॉट TTS सिस्टम से महत्वपूर्ण रूप से बेहतर प्रदर्शन करता है। इसके अलावा, हम पाते हैं कि VALL-E वक्ता की भावना और ध्वनिक वातावरण को संरक्षित कर सकता है। संश्लेषण में ध्वनिक संकेत,” शोधकर्ताओं की टीम कहती है।
केस और धमकी का प्रयोग करें
एआई मॉडल का उपयोग अनुकूलित टेक्स्ट-टू-स्पीच अनुप्रयोगों या मीडिया उत्पादन उद्योग या रोबोटिक्स के लिए किया जा सकता है। हालांकि, दुरुपयोग के मामले में यह एक संभावित खतरा है।
कंपनी ने कहा, “चूंकि VALL-E वक्ता की पहचान बनाए रखने वाले भाषण को संश्लेषित कर सकता है, इसलिए यह मॉडल के दुरुपयोग में संभावित जोखिम उठा सकता है, जैसे आवाज की पहचान को खराब करना या प्रतिरूपण करना।”

उदाहरण के लिए, लोग लोगों को ठगने के लिए स्पैम कॉल को वास्तविक बनाने के लिए VALL-E का उपयोग कर सकते हैं। राजनेताओं या सभ्य सामाजिक उपस्थिति वाले लोगों को भी प्रतिरूपित किया जा सकता है जैसा कि हमने गहरे फेक के साथ देखा है। ऐसे एप्लिकेशन जिन्हें वॉयस कमांड या वॉयस पासवर्ड की आवश्यकता होती है, एक खतरा हो सकते हैं। इसके अलावा, VALL-E वॉयस आर्टिस्ट की नौकरियां भी खा सकता है।
नैतिक कथन
कंपनी का एक नैतिक कथन भी है जो कहता है कि “इस कार्य में प्रयोग इस धारणा के तहत किए गए थे कि मॉडल का उपयोगकर्ता लक्ष्य वक्ता है और वक्ता द्वारा अनुमोदित किया गया है।”
“हालांकि, जब मॉडल अनदेखी वक्ताओं के लिए सामान्यीकृत होता है, तो प्रासंगिक घटकों को भाषण संपादन मॉडल के साथ होना चाहिए, जिसमें प्रोटोकॉल शामिल है ताकि यह सुनिश्चित किया जा सके कि स्पीकर संशोधित भाषण का पता लगाने के लिए संशोधन और प्रणाली को निष्पादित करने के लिए सहमत है।”
यह भी देखें:

क्या चैटजीपीटी गूगल का हत्यारा है? | ओपनएआई चैटजीपीटी



[ad_2]

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *