[ad_1]
गूगल जवाब मेटाका “टेक्स्ट-टू-वीडियो एआई, “मेक-ए-वीडियो”, अपने स्वयं के, इमेजन वीडियो के साथ। शोधकर्ताओं ने गूगल ब्रेनकंपनी की AI लैब, पेश की गई इमेजन वीडियोएक एआई जो टेक्स्ट प्रॉम्प्ट से वीडियो क्लिप बना सकता है।
दूसरा टेक्स्ट-टू-वीडियो AI छह महीने बाद आता है डेल-2OpenAI का एक टेक्स्ट-टू-इमेज जेनरेटर, और मेटा द्वारा अपने “मेक-ए-वीडियो” की घोषणा के केवल एक सप्ताह बाद।
Google का इमेजेन वीडियो 24 फ्रेम प्रति सेकंड पर 5.3 सेकंड से अधिक नहीं 1,280×768 पिक्सेल रिज़ॉल्यूशन के वीडियो का उत्पादन कर सकता है। मॉडल एक विवरण लेता है और एक 16-फ्रेम, 3-एफपीएस वीडियो बनाता है जिसमें 24 x 48-पिक्सेल रिज़ॉल्यूशन होता है। फिर, सिस्टम अपस्केल करता है और अतिरिक्त फ्रेम “भविष्यवाणी” करता है, 24 फ्रेम प्रति सेकंड पर एक 720p वीडियो का उत्पादन करता है।
Google का कहना है कि इमेजन वीडियो में “उच्च स्तर की नियंत्रणीयता” और विश्व ज्ञान है।
“हम इमेजेन वीडियो को न केवल उच्च निष्ठा के वीडियो बनाने में सक्षम पाते हैं, बल्कि उच्च स्तर की नियंत्रणीयता और विश्व ज्ञान भी रखते हैं, जिसमें विभिन्न कलात्मक शैलियों में विविध वीडियो और टेक्स्ट एनिमेशन उत्पन्न करने की क्षमता और 3 डी ऑब्जेक्ट समझ के साथ,” Google ने कहा। शोधकर्ताओं।
इमेजेन वीडियो को 14 मिलियन वीडियो और 60 मिलियन स्थिर छवियों के “आंतरिक डेटासेट” के साथ प्रशिक्षित किया गया था, और प्रशिक्षण डेटा में LAION-400M खुले डेटासेट से 400 मिलियन अन्य छवियां शामिल थीं।
इमेजेन वीडियो की टीम की योजना शोधकर्ताओं में शामिल होने की है फेनाकीGoogle का एक और टेक्स्ट-टू-वीडियो AI जो विस्तृत टेक्स्ट प्रॉम्प्ट को दो मिनट से अधिक वीडियो में बदल सकता है, हालांकि कम गुणवत्ता के साथ।
साझा किए गए डेमो में “एक कप में कॉफी डालना”, “अंतरिक्ष में एक सर्फ़बोर्ड पर लकड़ी की मूर्ति सर्फिंग”, “अत्यधिक धीमी गति में पानी से भरा गुब्बारा” और बहुत कुछ शामिल है।
दूसरा टेक्स्ट-टू-वीडियो AI छह महीने बाद आता है डेल-2OpenAI का एक टेक्स्ट-टू-इमेज जेनरेटर, और मेटा द्वारा अपने “मेक-ए-वीडियो” की घोषणा के केवल एक सप्ताह बाद।
Google का इमेजेन वीडियो 24 फ्रेम प्रति सेकंड पर 5.3 सेकंड से अधिक नहीं 1,280×768 पिक्सेल रिज़ॉल्यूशन के वीडियो का उत्पादन कर सकता है। मॉडल एक विवरण लेता है और एक 16-फ्रेम, 3-एफपीएस वीडियो बनाता है जिसमें 24 x 48-पिक्सेल रिज़ॉल्यूशन होता है। फिर, सिस्टम अपस्केल करता है और अतिरिक्त फ्रेम “भविष्यवाणी” करता है, 24 फ्रेम प्रति सेकंड पर एक 720p वीडियो का उत्पादन करता है।
Google का कहना है कि इमेजन वीडियो में “उच्च स्तर की नियंत्रणीयता” और विश्व ज्ञान है।
“हम इमेजेन वीडियो को न केवल उच्च निष्ठा के वीडियो बनाने में सक्षम पाते हैं, बल्कि उच्च स्तर की नियंत्रणीयता और विश्व ज्ञान भी रखते हैं, जिसमें विभिन्न कलात्मक शैलियों में विविध वीडियो और टेक्स्ट एनिमेशन उत्पन्न करने की क्षमता और 3 डी ऑब्जेक्ट समझ के साथ,” Google ने कहा। शोधकर्ताओं।
इमेजेन वीडियो को 14 मिलियन वीडियो और 60 मिलियन स्थिर छवियों के “आंतरिक डेटासेट” के साथ प्रशिक्षित किया गया था, और प्रशिक्षण डेटा में LAION-400M खुले डेटासेट से 400 मिलियन अन्य छवियां शामिल थीं।
इमेजेन वीडियो की टीम की योजना शोधकर्ताओं में शामिल होने की है फेनाकीGoogle का एक और टेक्स्ट-टू-वीडियो AI जो विस्तृत टेक्स्ट प्रॉम्प्ट को दो मिनट से अधिक वीडियो में बदल सकता है, हालांकि कम गुणवत्ता के साथ।
साझा किए गए डेमो में “एक कप में कॉफी डालना”, “अंतरिक्ष में एक सर्फ़बोर्ड पर लकड़ी की मूर्ति सर्फिंग”, “अत्यधिक धीमी गति में पानी से भरा गुब्बारा” और बहुत कुछ शामिल है।
[ad_2]
Source link