केस स्टडी: संभाषणात्मक AI
८ भारतीय भाषांमध्ये ASR तयार करण्यासाठी ३ हजार तासांहून अधिक डेटा गोळा, विभागणी आणि ट्रान्सक्राइब केला.
भाशिनी प्रकल्पाच्या माध्यमातून नागरिकांना त्यांच्या स्वत:च्या मातृभाषेत इंटरनेट आणि डिजिटल सेवा सहज उपलब्ध करून देण्याचे सरकारचे उद्दिष्ट आहे.
BHASHINI, भारताचा AI-चालित भाषा अनुवाद मंच, डिजिटल इंडिया उपक्रमाचा एक महत्त्वाचा भाग आहे.
MSMEs, स्टार्टअप्स आणि स्वतंत्र नवोन्मेषकांना कृत्रिम बुद्धिमत्ता (AI) आणि नैसर्गिक भाषा प्रक्रिया (NLP) साधने प्रदान करण्यासाठी डिझाइन केलेले, भाशिनी प्लॅटफॉर्म सार्वजनिक संसाधन म्हणून काम करते. भारतीय नागरिकांना त्यांच्या मूळ भाषांमध्ये देशातील डिजिटल उपक्रमांशी संवाद साधण्यास सक्षम करून डिजिटल समावेशनाला प्रोत्साहन देणे हे त्याचे ध्येय आहे.
याव्यतिरिक्त, भारतीय भाषांमध्ये इंटरनेट सामग्रीची उपलब्धता लक्षणीयरीत्या विस्तारित करणे हे त्याचे उद्दिष्ट आहे. हे विशेषत: शासन आणि धोरण, विज्ञान आणि तंत्रज्ञान इत्यादी सार्वजनिक हिताच्या क्षेत्रांसाठी लक्ष्यित आहे. परिणामी, हे नागरिकांना त्यांच्या सक्रिय सहभागास प्रोत्साहन देऊन त्यांच्या स्वतःच्या भाषेत इंटरनेट वापरण्यास प्रोत्साहित करेल.
रिअल वर्ल्ड सोल्यूशन
डेटासह स्थानिकीकरणाची शक्ती मुक्त करणे
भारतीय भाषांमध्ये डिजिटल सेवा प्रदान करण्यासाठी बहुभाषिक डेटासेट आणि एआय-आधारित भाषा तंत्रज्ञान उपाय तयार करण्यावर लक्ष केंद्रित करणाऱ्या व्यासपीठाची भारताला आवश्यकता होती. हा उपक्रम सुरू करण्यासाठी, भारतीय तंत्रज्ञान संस्था, मद्रास (IIT मद्रास) ने बहुभाषिक भाषण मॉडेल तयार करण्यासाठी भारतीय भाषा डेटासेट गोळा करण्यासाठी, विभागण्यासाठी आणि लिप्यंतरण करण्यासाठी शैपसोबत भागीदारी केली.
आव्हाने
भारतीय भाषांसाठी स्पीच टेक्नॉलॉजी स्पीच रोडमॅपसह क्लायंटला मदत करण्यासाठी, टीमला AI मॉडेल तयार करण्यासाठी मोठ्या प्रमाणात प्रशिक्षण डेटा प्राप्त करणे, विभागणे आणि लिप्यंतरण करणे आवश्यक आहे. क्लायंटच्या गंभीर आवश्यकता होत्या:
माहिती मिळवणे
- 3000 भारतीय भाषांमध्ये 8 तासांचा प्रशिक्षण डेटा प्रति भाषा 4 बोलीसह मिळवा.
- प्रत्येक भाषेसाठी, पुरवठादार Extempore Speech आणि
18-60 वयोगटातील संभाषणात्मक भाषण - वय, लिंग, शिक्षण आणि बोली यानुसार स्पीकर्सचे वैविध्यपूर्ण मिश्रण सुनिश्चित करा
- वैशिष्ट्यांनुसार रेकॉर्डिंग वातावरणाचे विविध मिश्रण सुनिश्चित करा.
- प्रत्येक ऑडिओ रेकॉर्डिंग किमान 16kHz पण शक्यतो 44kHz असेल
डेटा विभाजन
- 15 सेकंदांचे स्पीच सेगमेंट तयार करा आणि प्रत्येक स्पीकर, ध्वनीचा प्रकार (भाषण, बडबड, संगीत, आवाज), वळणे, उच्चार आणि संभाषणातील वाक्ये यासाठी मिलिसेकंदांमध्ये ऑडिओ टाइमस्टॅम्प करा
- प्रत्येक सेगमेंट त्याच्या लक्ष्यित ध्वनी सिग्नलसाठी 200-400 मिलिसेकंद पॅडिंगसह प्रारंभ आणि शेवटी तयार करा.
- सर्व विभागांसाठी, खालील ऑब्जेक्ट्स भरणे आवश्यक आहे जसे की, प्रारंभ वेळ, समाप्ती वेळ, विभाग आयडी, लाउडनेस लेव्हल, ध्वनी प्रकार, भाषा कोड, स्पीकर आयडी इ.
डेटा ट्रान्सक्रिप्शन
- वर्ण आणि विशेष चिन्हे, शब्दलेखन आणि व्याकरण, कॅपिटलायझेशन, संक्षेप, आकुंचन, वैयक्तिक उच्चार, संख्या, विरामचिन्हे, परिवर्णी शब्द, विसंगत, उच्चार, दुर्बोध उच्चार, लक्ष्य नसलेली भाषा, गैर-लक्ष्य भाषा, इ.
गुणवत्ता तपासणी आणि अभिप्राय
- गुणवत्तेचे मूल्यांकन आणि प्रमाणीकरण करण्यासाठी सर्व रेकॉर्डिंग, केवळ प्रमाणित भाषण वितरित केले जावे
उपाय
संभाषणात्मक एआयच्या आमच्या सखोल समजुतीमुळे, आम्ही क्लायंटला तज्ञ संग्राहक, भाषाशास्त्रज्ञ आणि भाष्यकारांच्या टीमसह डेटा गोळा करण्यास, विभागण्यास आणि लिप्यंतरण करण्यास मदत केली, ज्यामुळे ८ भारतीय भाषांमध्ये ऑडिओ डेटासेटचा मोठा संग्रह तयार झाला.
शाईपच्या कामाच्या व्याप्तीमध्ये मोठ्या प्रमाणात ऑडिओ प्रशिक्षण डेटा मिळवणे, ऑडिओ रेकॉर्डिंगचे अनेक भागात विभाजन करणे, डेटा ट्रान्सक्राइब करणे आणि मेटाडेटा असलेल्या संबंधित JSON फायली वितरित करणे समाविष्ट होते [स्पीकर आयडी, वय, लिंग, भाषा, बोलीभाषा, मातृभाषा, पात्रता, व्यवसाय, डोमेन, फाइल स्वरूप, वारंवारता, चॅनेल, ऑडिओचा प्रकार, स्पीकर्सची संख्या, परदेशी भाषांची संख्या, वापरलेले सेटअप, नॅरोबँड किंवा वाइडबँड ऑडिओ इ.].
जटिल प्रकल्पांसाठी स्पीच टेक्नॉलॉजी प्रशिक्षित करण्यासाठी आवश्यक गुणवत्तेची इच्छित पातळी राखून शैपने स्केलवर 3000 तासांचा ऑडिओ डेटा गोळा केला. प्रत्येक सहभागींकडून स्पष्ट संमती फॉर्म घेण्यात आला.
२.1. माहिती मिळवणे
2. डेटा विभाजन
- गोळा केलेला ऑडिओ डेटा पुढे १५ सेकंदांच्या भाषण विभागांमध्ये विभागला गेला आणि प्रत्येक वक्त्याचे, आवाजाचे प्रकार, वळणे, उच्चार आणि संभाषणातील वाक्यांशांसाठी मिलिसेकंदांवर टाइमस्टॅम्प केला गेला.
- ध्वनी सिग्नलच्या सुरूवातीस आणि शेवटी 200-400 मिलिसेकंद पॅडिंगसह त्याच्या लक्ष्यित ध्वनी सिग्नलसाठी प्रत्येक विभाग तयार केला.
- सर्व विभागांसाठी, खालील वस्तू उपस्थित होत्या आणि भरल्या होत्या जसे की, प्रारंभ वेळ, समाप्ती वेळ, विभाग आयडी, लाउडनेस लेव्हल (मोठा, सामान्य, शांत), प्राथमिक ध्वनी प्रकार (भाषण, बडबड, संगीत, आवाज, ओव्हरलॅप), भाषा कोड स्पीकर आयडी, ट्रान्सक्रिप्शन इ.
3. गुणवत्ता तपासणी आणि अभिप्राय
- सर्व रेकॉर्डिंगचे गुणवत्तेसाठी मूल्यांकन केले गेले आणि केवळ 90% च्या WER आणि 90% च्या TER सह प्रमाणित भाषण रेकॉर्डिंग वितरित केले गेले
- गुणवत्ता चेकलिस्ट फॉलो केली:
» सेगमेंट लांबीचे कमाल १५ सेकंद
»विशिष्ट डोमेनवरून ट्रान्सक्रिप्शन, म्हणजे: हवामान, विविध प्रकारच्या बातम्या, आरोग्य, शेती, शिक्षण, नोकऱ्या किंवा वित्त
» कमी पार्श्वभूमी आवाज
» ऑडिओ क्लिप बंद नाही - विकृती नाही
लिप्यंतरणासाठी योग्य ऑडिओ विभाजन
4. डेटा ट्रान्सक्रिप्शन
संकोच, फिलर शब्द, खोटे प्रारंभ आणि इतर शाब्दिक युक्त्यांसह सर्व बोललेले शब्द प्रतिलेखनात अचूकपणे कॅप्चर केले गेले. आम्ही कॅपिटल आणि लोअरकेस अक्षरे, स्पेलिंग, कॅपिटलायझेशन, संक्षेप, आकुंचन, संख्या,
विरामचिन्हे, परिवर्णी शब्द, विस्कळीत उच्चार, उच्चार नसलेले आवाज इ. शिवाय संकलन आणि प्रतिलेखनासाठी खालीलप्रमाणे कार्यप्रवाह आहे:
परिणाम
तज्ञ भाषातज्ञांकडून उच्च-गुणवत्तेचा ऑडिओ डेटा इंडियन इन्स्टिट्यूट ऑफ टेक्नॉलॉजी – मद्रासला निर्धारित वेळेत 8 भारतीय भाषांमध्ये अचूकपणे प्रशिक्षित आणि बहुभाषिक उच्चार ओळख मॉडेल तयार करण्यास सक्षम करेल. स्पीच रेकग्निशन मॉडेल्सचा वापर यासाठी केला जाऊ शकतो:
- नागरिकांना त्यांच्या स्वतःच्या मातृभाषेतील उपक्रमांशी जोडून डिजिटल समावेशासाठी भाषेतील अडथळे दूर करा.
- डिजिटल गव्हर्नन्सला प्रोत्साहन देते
- भारतीय भाषांमधील सेवा आणि उत्पादनांसाठी एक इकोसिस्टम तयार करण्यासाठी उत्प्रेरक
- सार्वजनिक हिताच्या डोमेनमध्ये अधिक स्थानिकीकृत डिजिटल सामग्री, विशेषतः, प्रशासन आणि धोरण
संभाषणात्मक एआय स्पेसमधील शैपच्या कौशल्याने आम्ही प्रभावित झालो. 8 भाषांमध्ये तज्ज्ञ भाषातज्ञांकडून आवश्यक प्रशिक्षण डेटा सोर्सिंग, सेगमेंटिंग, लिप्यंतरण आणि वितरीत करण्यापासून त्यांची एकूण प्रकल्प अंमलबजावणी क्षमता कठोर टाइमलाइन आणि मार्गदर्शक तत्त्वांमध्ये; तरीही गुणवत्तेचा स्वीकारार्ह दर्जा कायम राखताना.