OpenSpeaks Archives

Documentation of the preparation of rasi, a mild rice-based alcoholic beverage, for the Ho-language documentation in Keshpada, Mayurbhanj distt. Odisha, India. Photo of Laxmi Haiburu, Subhashish Panigrahi, Kuna Kandeyang, Mathura Deogram, Ladura Singh Haiburu and Bagun Singh by Subhashish Panigrahi, 2018. Click on image to access collection.
| Language | Bangani, Baleswari-Odia, Bonda, Gorum, Gutob, Ho, Jaunpuri-Garhwali, Jaunsari, Johari, Juang, Juray, Kusunda, Lambadi, Marcha-Rongpo, Raji, Saptariya Tharu, Sora, Sri Lankan Malay, Van-Gujjari |
| Depositor | Subhashish Panigrahi, Opino Gomango, Sanjib Chaudhary |
| Affiliation | OpenSpeaks |
| Location | India, Nepal, Sri Lanka |
| Collection ID | 0848 |
| Grant ID | G-GS-2502-18088 |
| Funding Body | Wikimedia Foundation |
| Collection Status | Collection online |
| Landing Page Handle | http://hdl.handle.net/2196/c6ab6125-379b-46b2-b756-ee5e1b0d744e |
Summary of the collection
English: OpenSpeaks Archives includes audio-visual materials, descriptive and technical metadata in several Indigenous and other low-resourced languages and dialects from South Asia. It helped publish privately archived materials in five tongues from 2014 through a 2024–2025 pilot. Later a larger implementation phase (2025–2026), with support from the Wikimedia Foundation, helped publish materials in 13 more languages. OpenSpeaks Archives focused building long-term collaboration with speaker communities, helping bridge technological, educational and capacity gaps, and publish community oral history as citable forms of knowledge. The technological and educational tools are publicly and openly released whereas most of the audio-visual materials enhanced Wikipedia and Wikimedia projects. The source documentary films are Nani Ma (2022), MarginalizedAadhaar (2021), Gyani Maiya (2019), Remosam (2019), and Mage Porob (2019).
Hindi: OpenSpeaks Archives में दक्षिण एशिया की कई स्थानीय और अन्य कम-संसाधन वाली भाषाओं और बोलियों में ऑडियो-विज़ुअल सामग्री, वर्णनात्मक और तकनीकी मेटाडेटा शामिल हैं। इसने 2014 से 2024–2025 के एक पायलट के दौरान पाँच भाषाओं में निजी रूप से संग्रहीत सामग्रियों को प्रकाशित करने में मदद की। बाद में विकिमीडिया फाउंडेशन के समर्थन से एक बड़े कार्यान्वयन चरण (2025–2026) में 13 और भाषाओं में सामग्रियों को प्रकाशित करने में सहायता मिली। OpenSpeaks Archives ने वक्ता समुदायों के साथ दीर्घकालिक सहयोग बनाने, तकनीकी, शैक्षिक और क्षमता संबंधी अंतर को पाटने, और सामुदायिक मौखिक इतिहास को उद्धृत किए जा सकने वाले ज्ञान के रूप में प्रकाशित करने पर ध्यान केंद्रित किया। तकनीकी और शैक्षिक उपकरण सार्वजनिक और खुले रूप से जारी किए गए हैं, जबकि अधिकांश ऑडियो-विज़ुअल सामग्रियों ने विकिपीडिया और विकिमीडिया परियोजनाओं को समृद्ध किया। स्रोत वृत्तचित्र फ़िल्में हैं: Nani Ma (2022), MarginalizedAadhaar (2021), Gyani Maiya (2019), Remosam (2019), और Mage Porob (2019)।
Group represented
English: Group represented: Indigenous, minoritised, and low-resourced language communities from South Asia, including speakers of Bangani-Garhwali, Baleswari-Odia, Bonda, Gorum, Gutob, Ho, Jaunpuri-Garhwali, Jaunsari, Johari-Kumaoni, Juang, Kusunda, Lambadi, Marcha-Rongpo, Raji, Saptariya Tharu, Sora, Sri Lankan Malay, and Van-Gujjari. These communities include speakers, oral historians, activists, and community knowledge holders. The OpenSpeaks Archives project has been collaborating with such native speakers who are interviewees, reviewers, community coordinators, subtitle creators, translators and advisors and language experts in this project. The outcomes include recording, captioning, and publication of these oral histories and descriptive media in accessible formats for communities.
Hindi: प्रत्येक समूह का प्रतिनिधित्व: दक्षिण एशिया की आदिवासी, अल्पसंख्यक और कम संसाधन वाली भाषा समुदायों, जिनमें बांगानी-गढ़वाली, बालेश्वरी-ओड़िया, बॉन्डा, गोरूम, गुतोब, हो, जौनपुरी-गढ़वाली, जौनसारी, जोहरी-कुमाऊँनी, जुआंग, कुसुंडा, लम्बाड़ी, मर्छा-रॉन्गपो, राजी, सप्तारिया थारू, सोरा, श्रीलंकाई मलय और वन-गुज्जरी के वक्ता शामिल हैं। इन समुदायों में वक्ता, मौखिक इतिहासकार, कार्यकर्ता और सामुदायिक ज्ञान धारक शामिल हैं। ओपनस्पीक्स आर्काइव्स परियोजना ऐसे मूल वक्ताओं के साथ सहयोग कर रही है जो इस परियोजना में साक्षात्कार देने वाले, समीक्षक, सामुदायिक समन्वयक, उपशीर्षक निर्माता, अनुवादक और सलाहकार तथा भाषा विशेषज्ञ हैं। इसके परिणामस्वरूप इन मौखिक इतिहासों और वर्णनात्मक मीडिया को समुदायों के लिए सुलभ प्रारूपों में रिकॉर्ड करना, कैप्शन करना और प्रकाशित करना शामिल है।
Language information
English: The materials document oral histories, contemporary issue areas and related knowledge from speakers of historically marginalised South Asian languages and dialects. These languages belong to Indigenous, minority, and other low-resourced communities, and many are spoken in small or shifting speaker populations. The project follows a community-first approach: native speakers and language experts help record, review, subtitle, and publish the media, so the archived material reflects local knowledge, language use, and community priorities.
Hindi: सामग्री मौखिक इतिहासों, समकालीन मुद्दा क्षेत्रों और ऐतिहासिक रूप से हाशिए पर रहने वाली दक्षिण एशियाई भाषाओं और बोलियों के वक्ताओं से संबंधित ज्ञान का दस्तावेजीकरण करती है। ये भाषाएँ स्वदेशी, अल्पसंख्यक और अन्य कम संसाधन वाली समुदायों से जुड़े हुए हैं, और कई भाषाएँ छोटे या परिवर्तनीय वक्ता समूहों में बोली जाती हैं। परियोजना समुदाय-प्रथम दृष्टिकोण का अनुसरण करती है: मूल वक्ता और भाषा विशेषज्ञ मीडिया को रिकॉर्ड करने, समीक्षा करने, उपशीर्षक बनाने और प्रकाशित करने में मदद करते हैं, ताकि संग्रहीत सामग्री स्थानीय ज्ञान, भाषा उपयोग और सामुदायिक प्राथमिकताओं को प्रतिबिंबित करे।
Special characteristics
English: This collection is unique in three main aspects. First, it includes media and data that were privately archived. They were collected as a part of four major documentary film projects, MarginalizedAadhaar (2021), Gyani Maiya (2019), Remosam (2019), and Mage Porob (2019) but were not fully used in those films. Second, this collection includes media and data collected through a community-led process as discussed in OpenSpeaks. Each community’s specific protocols as well as broader OpenSpeaks principles and methodologies were used in documentation. Third, new learning from each sub-project helped improve OpenSpeaks and create two additional educational resources: a) Oral History Framework, a set of three principles to guide community-based audio-visual language documentation, and, b) Captioning Convention, Captioning, Subtitling and Transcription guide: convention and guides to caption, subtitle and transcribe audio-visual language data. Lastly, this work also gave rise to the need for a set of technological tools, including Subtitler, a linear subtitle editor that implements the aforementioned conventions. These educational and technological resources are public, and are optimised for low-resourced languages, and are open to all to adapt for local contexts.
The collection captures voices in variations shaped by region, age, gender, and contact with other languages. Some recordings document personal histories, everyday speech, traditional and ecological knowledge, religious and cultural practices, folklore and folk songs, and, even experiences with access to public information and social welfare.
Hindi: यह संग्रह तीन मुख्य पहलुओं में अनोखा है। पहला, इसमें ऐसे मीडिया और डेटा शामिल हैं जिन्हें निजी रूप से संग्रहित किया गया था। इन्हें चार प्रमुख डॉक्यूमेंट्री चलचित्र परियोजनाओं—“मार्जिनलाइज़्ड आधार” (MarginalizedAadhaar, 2021), “ज्ञानी मैया” (Gyani Maiya, 2019), “रेमोसाम” (Remosam, 2019), और “मागे परब” (Mage Porob, 2019)—के हिस्से के रूप में एकत्र किया गया था। लेकिन यह सब उन फिल्मों में पूरी तरह उपयोग नहीं किया गया। दूसरा, इस संग्रह में समुदाय-नेतृत्व वाली प्रक्रिया के माध्यम से एकत्रित मीडिया और डेटा शामिल हैं, जैसा कि OpenSpeaks में चर्चा की गई है। दस्तावेज़ीकरण में प्रत्येक समुदाय के विशिष्ट प्रोटोकॉल के साथ-साथ व्यापक OpenSpeaks सिद्धांतों और कार्यप्रणालियों का उपयोग किया गया। तीसरा, प्रत्येक उप-परियोजना से प्राप्त नए सीख ने OpenSpeaks को बेहतर बनाने में मदद की और दो अतिरिक्त शैक्षिक संसाधनों का निर्माण किया: a) Oral History Framework, जो समुदाय-आधारित ऑडियो-विज़ुअल भाषा दस्तावेज़ीकरण के लिए तीन सिद्धांतों का एक सेट है, और b) कैप्शन, सबटाइटल और ट्रांसक्रिप्शन गाइड: ऑडियो-विज़ुअल भाषा डेटा को कैप्शन, सबटाइटल और ट्रांसक्राइब करने के लिए नियम और मार्गदर्शिकाएँ। अंततः, इस कार्य ने तकनीकी उपकरणों के एक सेट की आवश्यकता भी उत्पन्न की, जिसमें Subtitler शामिल है, जो एक रैखिक सबटाइटल संपादक है और उपरोक्त नियमों को लागू करता है। ये शैक्षिक और तकनीकी संसाधन सार्वजनिक हैं, कम संसाधनों वाली भाषाओं के लिए अनुकूलित हैं, और स्थानीय संदर्भों के अनुसार अनुकूलन के लिए सभी के लिए खुले हैं।
यह संग्रह क्षेत्र, आयु, लिंग, और अन्य भाषाओं के संपर्क से प्रभावित विविधताओं में आवाज़ों को संजोता है। कुछ रिकॉर्डिंग व्यक्तिगत इतिहास, दैनिक बोलचाल, पारंपरिक और पारिस्थितिक ज्ञान, धार्मिक और सांस्कृतिक प्रथाएँ, लोककथाएँ और लोकगीत, तथा यहाँ तक कि सार्वजनिक सूचना और सामाजिक कल्याण तक पहुँच से जुड़े अनुभवों को भी दस्तावेज़ित करती हैं।
Collection contents
English: The collection includes audiovisual oral history recordings, mainly audio and video, with transcriptions/subtitles and accompanying metadata. The recordings feature interviews, personal narratives, community memory, language use, and related cultural knowledge from speakers and knowledge holders in lesser-resourced South Asian languages. In some cases, the collection also includes supporting text materials such as transcripts, captions, descriptions, and documentation used for curation and reuse.
Hindi: संग्रह में दृश्य-श्रव्य मौखिक इतिहास की रिकॉर्डिंग्स शामिल हैं, मुख्यतः ऑडियो और वीडियो, जिनमें प्रतिलेखन/उपशीर्षक और साथ में मेटाडेटा भी होता है। इन रिकॉर्डिंग्स में साक्षात्कार, व्यक्तिगत कथाएँ, सामुदायिक स्मृति, भाषा का उपयोग, और कम संसाधन वाली दक्षिण एशियाई भाषाओं के वक्ताओं और ज्ञानधारकों से संबंधित सांस्कृतिक ज्ञान शामिल है। कुछ मामलों में, संग्रह में सहायक पाठ सामग्री भी शामिल होती है, जैसे प्रतिलेख, कैप्शन, विवरण, और क्यूरेशन तथा पुनः उपयोग के लिए प्रयुक्त दस्तावेज़।
Collection history
English: The OpenSpeaks Archives collection builds on pilot work carried out between September 2024 and January 2025, with further recordings and curation during phase 1 (July 2025–June 2026). However, the data collection began in 2014 and happened differently for each language. Baleswari-Odia data was collected during 2014–2015, resulting in the 2022 documentary film, Nani Ma; Bangani-Garhwali, Jaunpuri-Garhwali, Jaunsari, Johari-Kumaoni, Lambadi, Marcha-Rongpo, Raji, Sora, and Van-Gujjari were all documented in 2019 for the documentary, MarginalizedAadhaar; Gorum and Juang were documented in two phases between 2025 and 2026 in Mysore and Bhubaneswar, respectively. Gutob was documented in 2018 for a documentary film project but was never published; Ho was documented in 2018 for the documentary, Mage Porob; Kusunda was documented for the documentary, Gyani Maiya; Saptariya Tharu was recorded by Sanjib Chaudhary whose original idea was to convert the traditional knowledge into a book; and Sri Lankan Malay was documented as a test pilot in 2026. Data collection took place in short fieldwork and remote cycles with community partners, recording oral histories and related conversations in audio and video.
After recording, selected materials were edited, lightly cleaned for audio and video where needed, and prepared with time-aligned captions and translations, followed by descriptive and technical metadata. These processed files are being packaged into sessions with consent information and documentation notes for long-term preservation. Some of the subtitles and translations were done at the location to invite the community to review: for instance, Birbasa (Veer Birsa Munda Ho Students Union, Odisha) was involved in reviewing the materials right after the recording, and the Kusunda and the Raji materials were subtitled at the recording locations.
Some of the materials of this collection are currently accessible via OpenSpeaks Archives and Wikimedia projects, Language Archive Cologne; they were deposited with ELAR as a dedicated collection at on .
Hindi: OpenSpeaks Archives संग्रह सितंबर 2024 और जनवरी 2025 के बीच किए गए पायलट कार्य पर आधारित है, जिसमें चरण 1 (जुलाई 2025–जून 2026) के दौरान आगे की रिकॉर्डिंग और क्यूरेशन किया गया। हालांकि, डेटा संग्रह 2014 में शुरू हुआ था और प्रत्येक भाषा के लिए अलग-अलग तरीके से हुआ। बालेस्वरी-ओडिया डेटा 2014–2015 के दौरान एकत्र किया गया, जिसके परिणामस्वरूप 2022 की डॉक्यूमेंट्री फिल्म, Nani Ma बनी; बंगानी-गढ़वाली, जौनपुरी-गढ़वाली, जौनसारी, जोहारी-कुमाऊनी, लम्बाड़ी, मार्चा-रोंगपो, राजी, सोरा, और वन-गुज्जरी सभी को 2019 में डॉक्यूमेंट्री, MarginalizedAadhaar के लिए प्रलेखित किया गया; गोरुम और जुआंग को 2025 और 2026 के बीच दो चरणों में क्रमशः मैसूर और भुवनेश्वर में प्रलेखित किया गया। गुतब को 2018 में एक डॉक्यूमेंट्री फिल्म परियोजना के लिए प्रलेखित किया गया था, लेकिन कभी प्रकाशित नहीं हुआ; हो को 2018 में डॉक्यूमेंट्री, Mage Porob के लिए प्रलेखित किया गया; कुसुंडा को डॉक्यूमेंट्री, Gyani Maiya के लिए प्रलेखित किया गया; पश्चिमी थारू को संजीब चौधरी ने रिकॉर्ड किए थे, जिनका मूल विचार पारंपरिक ज्ञान को एक पुस्तक में बदलना था; और श्रीलंकाई मलय को 2026 में एक परीक्षण पायलट के रूप में प्रलेखित किया गया। डेटा संग्रह समुदाय साझेदारों के साथ छोटे फील्डवर्क और दूरस्थ चक्रों में हुआ, जिसमें मौखिक इतिहास और संबंधित बातचीत को ऑडियो और वीडियो में रिकॉर्ड किया गया।
रिकॉर्डिंग के बाद, चयनित सामग्री को संपादित किया गया, जहाँ आवश्यक था वहाँ ऑडियो और वीडियो को हल्का साफ किया गया, और समय-संरेखित कैप्शन और अनुवादों के साथ तैयार किया गया, जिसके बाद वर्णनात्मक और तकनीकी मेटाडेटा जोड़ा गया। इन संसाधित फ़ाइलों को सहमति जानकारी और प्रलेखन नोट्स के साथ सत्रों में पैकेज किया जा रहा है ताकि दीर्घकालिक संरक्षण सुनिश्चित किया जा सके। कुछ उपशीर्षक और अनुवाद स्थान पर ही किए गए ताकि समुदाय को समीक्षा के लिए आमंत्रित किया जा सके: जैसे की, बिरबासा (वीर बिरसा मुंडा हो छात्र संगठन, उड़ीसा) रिकॉर्डिंग के तुरंत बाद सामग्री की समीक्षा में शामिल था, और कुसुंडा तथा राजी सामग्री को रिकॉर्डिंग स्थलों पर ही उपशीर्षकित किया गया।
इस संग्रह की कुछ सामग्री वर्तमान में OpenSpeaks Archives और Wikimedia परियोजनाओं, Language Archive Cologne के माध्यम से उपलब्ध है; इन्हें पर को ELAR में एक समर्पित संग्रह के रूप में जमा किया गया था।
References
Gomango, Opino. 2016. ‘On the Current Status and State of Juray in the Sora-Juray Cluster’. Language Colonization and Endangerment: Long-Term Effects, Echoes and Reactions (Hyderabad), December 12, 199.
Gobardhan Panda. 1998. ରେମଶାମ୍: ମଣିଷ ଭାଷା [Remosam: Human language]. http://archive.org/details/remosam-1998.
Panigrahi, Subhashish, Opino Gomango, and Kimmi Pal. 2026. ‘OpenSpeaks Archives: Citing Low-Resourced Language Oral History Multimedia’. Paper presented at Wiki Workshop 2026. March 25. https://wikiworkshop.org/2026/paper/wikiworkshop_2026_15_openspeaks_archives_citing_lowresourced_language_oral_history_multimedia.
Panigrahi, Subhashish, Opino Gomango, and Ramani Dalbehera. 2021. Documentation of the Sora language (Lanjia dialect). Rejingatal. Language Archive Cologne. https://doi.org/11341/0000-0000-0000-439E.
Praharaj, G. C. 1931. ‘Purnnachandra Odia Bhashakosha’. Dictionary. Cuttack : Utkal Sahitya Press.
Seyfeddinipur, Mandana, and Felix Rau. 2020. Keeping It Real: Video Data in Language Documentation and Language Archiving. September. http://hdl.handle.net/10125/24965.
Acknowledgement and citation
English: Users of any part of the collection should acknowledge Subhashish Panigrahi as the principal investigator, the data collector and the researcher. Users should also acknowledge National Geographic Society, Yoti and Wikimedia Foundation as the funders of the project. Individual speakers whose words and/or images are used should be acknowledged by respective name(s). Any other contributor who has collected, transcribed or translated the data or was involved in any other way should be acknowledged by name. All information on contributors is available in the metadata.
To refer to any data from the collection, please cite as follows:
Panigrahi, Subhashish. 2026. OpenSpeaks Archives: Documentation of South Asian low-resourced languages. Endangered Languages Archive. Handle: http://hdl.handle.net/2196/3340aede-cc53-4a71-9ca2-a3fdb5e2c8b5. Accessed on [insert date here].
Hindi: संग्रह के किसी भी भाग के उपयोगकर्ताओं को शुभाशीष पाणिग्राही को प्रधान अन्वेषक, डेटा संग्राहक और शोधकर्ता के रूप में मान्यता देनी चाहिए। उपयोगकर्ताओं को परियोजना के वित्तपोषकों के रूप में National Geographic Society, Yoti और Wikimedia Foundation को भी मान्यता देनी चाहिए। जिन व्यक्तिगत वक्ताओं के शब्दों और/या चित्रों का उपयोग किया गया है, उन्हें उनके संबंधित नामों से मान्यता दी जानी चाहिए। किसी अन्य योगदानकर्ता जिसने डेटा एकत्र किया, लिप्यंतरित या अनुवादित किया हो या किसी अन्य तरीके से शामिल रहा हो, उसे भी नाम से मान्यता दी जानी चाहिए। सभी योगदानकर्ताओं की जानकारी मेटाडेटा में उपलब्ध है।
संग्रह से किसी भी डेटा का संदर्भ देने के लिए, कृपया निम्नलिखित रूप में उद्धृत करें:
पाणिग्राही, शुभाशीष. 2026. OpenSpeaks Archives: दक्षिण एशियाई कम-संसाधन वाली भाषाओं का दस्तावेजीकरण. Endangered Languages Archive. Handle: http://hdl.handle.net/2196/3340aede-cc53-4a71-9ca2-a3fdb5e2c8b5. अभिगम तिथि: [यहाँ तिथि डालें].

