केस स्टडी: संभाषणात्मक AI

८ भारतीय भाषांमध्ये ASR तयार करण्यासाठी ३ हजार तासांहून अधिक डेटा गोळा, विभागणी आणि ट्रान्सक्राइब केला.

संभाषणात्मक आय

भाशिनी प्रकल्पाच्या माध्यमातून नागरिकांना त्यांच्या स्वत:च्या मातृभाषेत इंटरनेट आणि डिजिटल सेवा सहज उपलब्ध करून देण्याचे सरकारचे उद्दिष्ट आहे.

BHASHINI, भारताचा AI-चालित भाषा अनुवाद मंच, डिजिटल इंडिया उपक्रमाचा एक महत्त्वाचा भाग आहे.

MSMEs, स्टार्टअप्स आणि स्वतंत्र नवोन्मेषकांना कृत्रिम बुद्धिमत्ता (AI) आणि नैसर्गिक भाषा प्रक्रिया (NLP) साधने प्रदान करण्यासाठी डिझाइन केलेले, भाशिनी प्लॅटफॉर्म सार्वजनिक संसाधन म्हणून काम करते. भारतीय नागरिकांना त्यांच्या मूळ भाषांमध्ये देशातील डिजिटल उपक्रमांशी संवाद साधण्यास सक्षम करून डिजिटल समावेशनाला प्रोत्साहन देणे हे त्याचे ध्येय आहे.

याव्यतिरिक्त, भारतीय भाषांमध्ये इंटरनेट सामग्रीची उपलब्धता लक्षणीयरीत्या विस्तारित करणे हे त्याचे उद्दिष्ट आहे. हे विशेषत: शासन आणि धोरण, विज्ञान आणि तंत्रज्ञान इत्यादी सार्वजनिक हिताच्या क्षेत्रांसाठी लक्ष्यित आहे. परिणामी, हे नागरिकांना त्यांच्या सक्रिय सहभागास प्रोत्साहन देऊन त्यांच्या स्वतःच्या भाषेत इंटरनेट वापरण्यास प्रोत्साहित करेल.

रिअल वर्ल्ड सोल्यूशन

डेटासह स्थानिकीकरणाची शक्ती मुक्त करणे

भारतीय भाषांमध्ये डिजिटल सेवा प्रदान करण्यासाठी बहुभाषिक डेटासेट आणि एआय-आधारित भाषा तंत्रज्ञान उपाय तयार करण्यावर लक्ष केंद्रित करणाऱ्या व्यासपीठाची भारताला आवश्यकता होती. हा उपक्रम सुरू करण्यासाठी, भारतीय तंत्रज्ञान संस्था, मद्रास (IIT मद्रास) ने बहुभाषिक भाषण मॉडेल तयार करण्यासाठी भारतीय भाषा डेटासेट गोळा करण्यासाठी, विभागण्यासाठी आणि लिप्यंतरण करण्यासाठी शैपसोबत भागीदारी केली.

आव्हाने

भारतीय भाषांसाठी स्पीच टेक्नॉलॉजी स्पीच रोडमॅपसह क्लायंटला मदत करण्यासाठी, टीमला AI मॉडेल तयार करण्यासाठी मोठ्या प्रमाणात प्रशिक्षण डेटा प्राप्त करणे, विभागणे आणि लिप्यंतरण करणे आवश्यक आहे. क्लायंटच्या गंभीर आवश्यकता होत्या:

माहिती मिळवणे

  • 3000 भारतीय भाषांमध्ये 8 तासांचा प्रशिक्षण डेटा प्रति भाषा 4 बोलीसह मिळवा.
  • प्रत्येक भाषेसाठी, पुरवठादार Extempore Speech आणि
    18-60 वयोगटातील संभाषणात्मक भाषण
  • वय, लिंग, शिक्षण आणि बोली यानुसार स्पीकर्सचे वैविध्यपूर्ण मिश्रण सुनिश्चित करा
  • वैशिष्ट्यांनुसार रेकॉर्डिंग वातावरणाचे विविध मिश्रण सुनिश्चित करा.
  • प्रत्येक ऑडिओ रेकॉर्डिंग किमान 16kHz पण शक्यतो 44kHz असेल

डेटा विभाजन

  • 15 सेकंदांचे स्पीच सेगमेंट तयार करा आणि प्रत्येक स्पीकर, ध्वनीचा प्रकार (भाषण, बडबड, संगीत, आवाज), वळणे, उच्चार आणि संभाषणातील वाक्ये यासाठी मिलिसेकंदांमध्ये ऑडिओ टाइमस्टॅम्प करा
  • प्रत्येक सेगमेंट त्याच्या लक्ष्यित ध्वनी सिग्नलसाठी 200-400 मिलिसेकंद पॅडिंगसह प्रारंभ आणि शेवटी तयार करा.
  • सर्व विभागांसाठी, खालील ऑब्जेक्ट्स भरणे आवश्यक आहे जसे की, प्रारंभ वेळ, समाप्ती वेळ, विभाग आयडी, लाउडनेस लेव्हल, ध्वनी प्रकार, भाषा कोड, स्पीकर आयडी इ.

डेटा ट्रान्सक्रिप्शन

  • वर्ण आणि विशेष चिन्हे, शब्दलेखन आणि व्याकरण, कॅपिटलायझेशन, संक्षेप, आकुंचन, वैयक्तिक उच्चार, संख्या, विरामचिन्हे, परिवर्णी शब्द, विसंगत, उच्चार, दुर्बोध उच्चार, लक्ष्य नसलेली भाषा, गैर-लक्ष्य भाषा, इ.

गुणवत्ता तपासणी आणि अभिप्राय

  • गुणवत्तेचे मूल्यांकन आणि प्रमाणीकरण करण्यासाठी सर्व रेकॉर्डिंग, केवळ प्रमाणित भाषण वितरित केले जावे

उपाय

संभाषणात्मक एआयच्या आमच्या सखोल समजुतीमुळे, आम्ही क्लायंटला तज्ञ संग्राहक, भाषाशास्त्रज्ञ आणि भाष्यकारांच्या टीमसह डेटा गोळा करण्यास, विभागण्यास आणि लिप्यंतरण करण्यास मदत केली, ज्यामुळे ८ भारतीय भाषांमध्ये ऑडिओ डेटासेटचा मोठा संग्रह तयार झाला.

शाईपच्या कामाच्या व्याप्तीमध्ये मोठ्या प्रमाणात ऑडिओ प्रशिक्षण डेटा मिळवणे, ऑडिओ रेकॉर्डिंगचे अनेक भागात विभाजन करणे, डेटा ट्रान्सक्राइब करणे आणि मेटाडेटा असलेल्या संबंधित JSON फायली वितरित करणे समाविष्ट होते [स्पीकर आयडी, वय, लिंग, भाषा, बोलीभाषा, मातृभाषा, पात्रता, व्यवसाय, डोमेन, फाइल स्वरूप, वारंवारता, चॅनेल, ऑडिओचा प्रकार, स्पीकर्सची संख्या, परदेशी भाषांची संख्या, वापरलेले सेटअप, नॅरोबँड किंवा वाइडबँड ऑडिओ इ.].

जटिल प्रकल्पांसाठी स्पीच टेक्नॉलॉजी प्रशिक्षित करण्यासाठी आवश्यक गुणवत्तेची इच्छित पातळी राखून शैपने स्केलवर 3000 तासांचा ऑडिओ डेटा गोळा केला. प्रत्येक सहभागींकडून स्पष्ट संमती फॉर्म घेण्यात आला.

२.1. माहिती मिळवणे

2. डेटा विभाजन

  • गोळा केलेला ऑडिओ डेटा पुढे १५ सेकंदांच्या भाषण विभागांमध्ये विभागला गेला आणि प्रत्येक वक्त्याचे, आवाजाचे प्रकार, वळणे, उच्चार आणि संभाषणातील वाक्यांशांसाठी मिलिसेकंदांवर टाइमस्टॅम्प केला गेला.
  • ध्वनी सिग्नलच्या सुरूवातीस आणि शेवटी 200-400 मिलिसेकंद पॅडिंगसह त्याच्या लक्ष्यित ध्वनी सिग्नलसाठी प्रत्येक विभाग तयार केला.
  • सर्व विभागांसाठी, खालील वस्तू उपस्थित होत्या आणि भरल्या होत्या जसे की, प्रारंभ वेळ, समाप्ती वेळ, विभाग आयडी, लाउडनेस लेव्हल (मोठा, सामान्य, शांत), प्राथमिक ध्वनी प्रकार (भाषण, बडबड, संगीत, आवाज, ओव्हरलॅप), भाषा कोड स्पीकर आयडी, ट्रान्सक्रिप्शन इ.

3. गुणवत्ता तपासणी आणि अभिप्राय

  • सर्व रेकॉर्डिंगचे गुणवत्तेसाठी मूल्यांकन केले गेले आणि केवळ 90% च्या WER आणि 90% च्या TER सह प्रमाणित भाषण रेकॉर्डिंग वितरित केले गेले
  • गुणवत्ता चेकलिस्ट फॉलो केली:
    » सेगमेंट लांबीचे कमाल १५ सेकंद
    »विशिष्ट डोमेनवरून ट्रान्सक्रिप्शन, म्हणजे: हवामान, विविध प्रकारच्या बातम्या, आरोग्य, शेती, शिक्षण, नोकऱ्या किंवा वित्त
    » कमी पार्श्वभूमी आवाज
    » ऑडिओ क्लिप बंद नाही - विकृती नाही
    लिप्यंतरणासाठी योग्य ऑडिओ विभाजन

4. डेटा ट्रान्सक्रिप्शन

संकोच, फिलर शब्द, खोटे प्रारंभ आणि इतर शाब्दिक युक्त्यांसह सर्व बोललेले शब्द प्रतिलेखनात अचूकपणे कॅप्चर केले गेले. आम्ही कॅपिटल आणि लोअरकेस अक्षरे, स्पेलिंग, कॅपिटलायझेशन, संक्षेप, आकुंचन, संख्या,
विरामचिन्हे, परिवर्णी शब्द, विस्कळीत उच्चार, उच्चार नसलेले आवाज इ. शिवाय संकलन आणि प्रतिलेखनासाठी खालीलप्रमाणे कार्यप्रवाह आहे:

परिणाम

तज्ञ भाषातज्ञांकडून उच्च-गुणवत्तेचा ऑडिओ डेटा इंडियन इन्स्टिट्यूट ऑफ टेक्नॉलॉजी – मद्रासला निर्धारित वेळेत 8 भारतीय भाषांमध्ये अचूकपणे प्रशिक्षित आणि बहुभाषिक उच्चार ओळख मॉडेल तयार करण्यास सक्षम करेल. स्पीच रेकग्निशन मॉडेल्सचा वापर यासाठी केला जाऊ शकतो:

  • नागरिकांना त्यांच्या स्वतःच्या मातृभाषेतील उपक्रमांशी जोडून डिजिटल समावेशासाठी भाषेतील अडथळे दूर करा.
  • डिजिटल गव्हर्नन्सला प्रोत्साहन देते
  • भारतीय भाषांमधील सेवा आणि उत्पादनांसाठी एक इकोसिस्टम तयार करण्यासाठी उत्प्रेरक
  • सार्वजनिक हिताच्या डोमेनमध्ये अधिक स्थानिकीकृत डिजिटल सामग्री, विशेषतः, प्रशासन आणि धोरण
गोल्डन-5-तारा

संभाषणात्मक एआय स्पेसमधील शैपच्या कौशल्याने आम्ही प्रभावित झालो. 8 भाषांमध्ये तज्ज्ञ भाषातज्ञांकडून आवश्यक प्रशिक्षण डेटा सोर्सिंग, सेगमेंटिंग, लिप्यंतरण आणि वितरीत करण्यापासून त्यांची एकूण प्रकल्प अंमलबजावणी क्षमता कठोर टाइमलाइन आणि मार्गदर्शक तत्त्वांमध्ये; तरीही गुणवत्तेचा स्वीकारार्ह दर्जा कायम राखताना.

तुमच्या पुढील AI उपक्रमामध्ये आम्ही कशी मदत करू शकतो ते आम्हाला सांगा.