[ad_1]
दिसंबर के एक भाग के रूप में पिक्सेल फ़ीचर ड्रॉपगूगल पिक्सेल देशी रिकॉर्डर ऐप में स्मार्टफोन को एक महत्वपूर्ण अपडेट मिला है। इसमें स्पीकर लेबल हैं जो कई लोगों की पहचान कर सकते हैं और स्पीकर लेबल लगा सकते हैं ताकि आप जान सकें कि किसने क्या कहा जब आप रिकॉर्डिंग को बाद में फिर से देखें। इस नई क्षमता को Pixel 6, Pixel Pro, Pixel 6a, Pixel 7 और Pixel 7 Pro स्मार्टफोन में रोलआउट किया गया है।
इस निफ्टी फीचर को विकसित करने वाली टीम ने अब बताया है कि उन्होंने इस पर कैसे काम किया। गूगल कहते हैं कि यह सुविधा वाक् का प्रतिलेखन करने, ऑडियो घटनाओं को पहचानने, शीर्षकों के लिए टैग सुझाने और उपयोगकर्ताओं को प्रतिलेखों को नेविगेट करने में मदद करने के लिए ऑन-डिवाइस मशीन लर्निंग में हाल के विकास का लाभ उठाती है।
इस निफ्टी फीचर को विकसित करने वाली टीम ने अब बताया है कि उन्होंने इस पर कैसे काम किया। गूगल कहते हैं कि यह सुविधा वाक् का प्रतिलेखन करने, ऑडियो घटनाओं को पहचानने, शीर्षकों के लिए टैग सुझाने और उपयोगकर्ताओं को प्रतिलेखों को नेविगेट करने में मदद करने के लिए ऑन-डिवाइस मशीन लर्निंग में हाल के विकास का लाभ उठाती है।
Google का स्पीकर डायराइज़ेशन सिस्टम
स्पीकर लेबल टर्न-टू-डायराइज़ द्वारा संचालित हैं, Google का नया स्पीकर डायराइज़ेशन सिस्टम – स्पीकर की पहचान के अनुसार एक इनपुट ऑडियो स्ट्रीम को खंडों में विभाजित करने की प्रक्रिया है। Google के स्पीकर डायराइज़ेशन सिस्टम के तीन मुख्य भाग हैं।
- पहला ‘स्पीकर टर्न डिटेक्शन’ है जो इनपुट स्पीच में स्पीकर के बदलाव का पता लगाता है। यह ध्वनिक विशेषताओं को पाठ प्रतिलेखों में परिवर्तित करता है जो कि स्पीकर टर्न का प्रतिनिधित्व करने वाले एक विशेष टोकन के साथ आगे बढ़ाया जाता है।
- दूसरा ‘स्पीकर एनकोडर मॉडल’ है जो प्रत्येक स्पीकर टर्न से आवाज की विशेषताओं को निकालता है। कंपनी ने कहा, “ऑडियो रिकॉर्डिंग को सजातीय स्पीकर टर्न में विभाजित करने के बाद, हम प्रत्येक स्पीकर टर्न की आवाज विशेषताओं का प्रतिनिधित्व करने के लिए एक एम्बेडिंग वेक्टर निकालने के लिए स्पीकर एनकोडर मॉडल का उपयोग करते हैं।”
- तीसरा एक ‘मल्टी-स्टेज क्लस्टरिंग एल्गोरिदम’ है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि रिकॉर्डिंग में कम से कम दो अलग-अलग स्पीकर हैं और फिर प्रत्येक स्पीकर को एनोटेट करता है।
सुधार और अनुकूलन
रिकॉर्डर ऐप स्क्रीन पर स्पीकर लेबल को स्वचालित रूप से अपडेट करने और सबसे सटीक भविष्यवाणियों को दर्शाने के लिए रीयल-टाइम में सुधार भी करता है। “चूंकि मॉडल अधिक ऑडियो इनपुट का उपभोग करता है, यह अनुमानित स्पीकर लेबल पर विश्वास जमा करता है, और कभी-कभी पूर्व-पूर्वानुमानित कम-आत्मविश्वास वाले स्पीकर लेबल में सुधार कर सकता है,” Google ने कहा।
गूगल पिक्सल 7 भारत में लॉन्च हो गया है। हैंड्स ऑन और फर्स्ट लुक
[ad_2]
Source link