Google का नया AI मॉडल टेक्स्ट को संगीत में बदल सकता है

[ad_1]

गूगल शोधकर्ताओं ने एक बनाया है जो टेक्स्ट इनपुट से संगीत के टुकड़े उत्पन्न कर सकता है – कैसे के समान चैटजीपीटी टेक्स्ट कमांड को कहानी में बदल सकते हैं और दाल-ई लिखित संकेतों से छवियां उत्पन्न करता है। एआई प्रोग्राम टेक्स्ट इनपुट को सेकंड में बदल सकता है, और यहां तक ​​कि मिनट-लंबे संगीत के साथ-साथ गुनगुनी धुनों को अन्य उपकरणों में बदल सकता है।
पर प्रकाशित शोध के अनुसार Githubएआई मॉडल कहा जाता है MusicLM, और कंपनी ने नमूनों की एक श्रृंखला अपलोड की है जिसे उसने मॉडल का उपयोग करके तैयार किया है। नमूनों को MusicCaps कहा जाता है और मूल रूप से 5.5k संगीत-पाठ जोड़े से बना एक डेटासेट है, जिसमें मानव विशेषज्ञों द्वारा प्रदान किए गए समृद्ध पाठ विवरण हैं।
“हम MusicLM पेश करते हैं, एक ऐसा मॉडल जो पाठ विवरण से उच्च-निष्ठा संगीत उत्पन्न करता है जैसे ‘विकृत गिटार रिफ़ द्वारा समर्थित एक शांत वायलिन राग’। MusicLM सशर्त संगीत निर्माण की प्रक्रिया को एक पदानुक्रमित अनुक्रम-से-अनुक्रम मॉडलिंग कार्य के रूप में प्रस्तुत करता है, और यह 24 kHz पर संगीत उत्पन्न करता है जो कई मिनटों तक बना रहता है, ”कंपनी ने प्रकाशित शोध में कहा।
Google का AI 5 मिनट की धुन बनाता है
उदाहरणों में 30-सेकंड की क्लिप के साथ-साथ 5 मिनट का लंबा संगीत शामिल है जो वास्तविक गीतों की तरह लगता है। वे पैराग्राफ-लंबे विवरणों द्वारा बनाए गए हैं, और निर्देश जितने स्पष्ट हैं, संगीत उतना ही बेहतर है। इसके अलावा, उदाहरणों में शैली, वाइब और यहां तक ​​कि विशिष्ट उपकरण भी शामिल हैं।
“पाठ संकेतों का एक क्रम प्रदान करके ऑडियो उत्पन्न किया जाता है। ये प्रभावित करते हैं कि मॉडल पिछले कैप्शन से प्राप्त सिमेंटिक टोकन को कैसे जारी रखता है,” शोधकर्ताओं ने कहा।
कहानी विधा
एक “स्टोरी मोड” डेमो भी है जहां मॉडल को मूल रूप से प्रत्येक प्रकार के संगीत के लिए समय अवधि के साथ कई टेक्स्ट इनपुट दिए जाते हैं जिन्हें बनाने की आवश्यकता होती है।
इस संकेत को लें, उदाहरण के लिए:
ध्यान करने का समय (0:00-0:15)
जागने का समय (0:15-0:30)
चलने का समय (0:30-0:45)
100% देने का समय (0:45-0:60)
“हमारे प्रयोगों से पता चलता है कि MusicLM ऑडियो गुणवत्ता और पाठ विवरण के अनुपालन दोनों में पिछले सिस्टम से बेहतर प्रदर्शन करता है। इसके अलावा, हम प्रदर्शित करते हैं कि MusicLM को टेक्स्ट और मेलोडी दोनों पर अनुकूलित किया जा सकता है, जिसमें यह टेक्स्ट कैप्शन में वर्णित शैली के अनुसार सीटी और गुनगुनाने वाली धुनों को बदल सकता है।”



[ad_2]

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *