Common Voice Scripted Speech 24.0 - Kohistani Shina
License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 12/5/2025
Format: MP3
Size: 329.81 MB
Share
Description
A collection of scripted spoken phrases in Kohistani Shina.
Specifics
Considerations
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
کوہستانی شینا — Kohistani Shina (plk)
This datasheet is for version 24.0 of the the Mozilla Common Voice Scripted Speech dataset
for Kohistani Shina (plk). The dataset contains 11935 clips representing 16.66 hours of recorded
speech (12.58 hours validated) from 10 speakers.
Language
یہ زبان پاکستان کے صوبہ خیبر پختونخوا کے انڈس کوہستان اضلاع میں بولی جاتی ہے جس کے بولنے والے 5 لاکھ سے زائد ہیں
Variants
نہیں
Demographic information
The dataset includes the following distribution of age and gender.
Gender
Self-declared gender information, percentage refers to the number of clips annotated with this gender.
| Gender | Percentage |
|---|---|
| Undefined | 100.0% |
Age
Self-declared age information, percentage refers to the number of clips annotated with this age band.
| Age Band | Percentage |
|---|---|
| Undefined | 14.0% |
| Thirties | 16.0% |
| Sixties | 71.0% |
Text corpus
جملے میں نے اپنی مطبوعہ کتابوں سے منتخب کیے تھے ۔4657 جُملے لکھے اور ریکارڈ کیے گئے۔ بعد میں کم وبیش 6000 جُملے کامن وائس میں اپلوڈ کیے گئے لیکن وہ کامن وائس میں نظر نہیں آ رہے جس کی وجہ سے ان کی ریکارڈنگ ممکن نہیں۔
Writing system
اردو عربی رسم الخط مع مخصوص اضافی شینا کوہستانی فونٹس۔
Symbol table
ا ب بھ پ پھ ت تھ ٹ ٹھ ث ج جھ چ چھ څ څھ ڇ ڇھ ح خ د دھ ڈ ڈھ ر ڑ ز زھ ڙ ژ س ش ݜ ص ض ط ظ ع غ ف ق ک کھ گ گھ ل لھ م مھ ن ݨ ں و ھ ہ ء ی ے
Sample
There follows a randomly selected sample of five sentences from the corpus. مال منُوْڑ ہی شو بولْ توْ اوْبے پٹھو دُوم تھینَن ایْک تھیک دہ دُو کھگرہ نہ بٹنَن آ پھیارہ پِپِیں پُھڑہ ہے سِدَڇِھیانیْ بُربُوڑوْ ڇَھہُوئیں شال گہ ݜِݜَے دڑے کِرِیا مڑنے نوْ اسمیہ جُملہ دہ مُبتدا مسند الیہ بِینوْ آں خبر مسند بِینیْ
Automatic random samples
مُلوس پوْچہ اکے بونبانوْ۔
چربِیو گہ دائے۔
آ کوْم سیْݨا تھیگاس بوْ
بہیو ایْک۔
نالاج منُوڙوْس لݩگ تݩگ وخ لگِینوْ۔
Sources
سیرتُ النّبی صلی اللہ علیہ وسلم 2. غزواتُ النّبی صلی اللہ علیہ وسلم 3. ازواج مُطہرات گہ دُخترانِ محمد ﷺ 4. اُمّ المؤمنیِن حضرت اُمّ حبیبہ رضی اللہ تعالی عنہا 5. اُمّ المؤمنیِن حضرت اُمّ سلمہ رضی اللہ تعالی عنہا 6. اُمّ المؤمنیِن حضرت جویریہ رضی اللہ تعالی عنہا 7. اُمّ المؤمنیِن حضرت حفصہ رضی اللہ تعالی عنہا 8. اُمّ المؤمنیِن حضرت خدیجہ رضی اللہ تعالی عنہا 9. اُمّ المؤمنیِن حضرت زینب بنتِ حجش رضی اللہ تعالی عنہا 10. اُمّ المؤمنیِن حضرت زینب بنت خزیمہ رضی اللہ تعالی عنہا 11. اُمّ المؤمنیِن حضرت سودہ رضی اللہ تعالی عنہا 12. اُمّ المؤمنیِن حضرت صفیہ رضی اللہ تعالی عنہا 13. اُمّ المؤمنیِن حضرت عائشہ رضی اللہ تعالی عنہا 14. اُمّ المؤمنیِن حضرت میمونہ رضی اللہ تعالی عنہا 15. بنیادی کوہستانی شینا ۔ اردو لغت 16. حضرت ابوبکر صدیق رضی اللہ عنہ 17. حضرت اُمّ کلثوم بنتِ محمدﷺ 18. حضرت رُقِیّہ بنتِ محمدﷺ 19. حضرت زینب بنتِ محمدﷺ 20. حضرت فاطمہ بنتِ محمدﷺ 21. کوہستان دہ ادویاتی گوڑیؤ اسِیو کمون 22. کوہستان کی ادویاتی جڑی بوٹیوں کا روایتی استعمال (1996) 23. کوہستانی شینا قاعدے (1996، 2000، 2021، 2022) 24. کوہستانی شینا ۔اُردو لُغت (تین جلدیں) 25. کوہستانی شینا تبلیغی کتابچہ (2018) 26. کوہستانی شینا قاعدہ (نباتاتی، حیوانی اور ثقافتی) 27. کوہستانی شینا کہاؤتیں اور محاورے (1997) 28{ شینا کوہستانی اردو لغت، مطبوعہ گندھارا اکیڈمی پشاور
Text domains
| Domain | Count |
|---|---|
| Undefined | 11935 |
Processing
شینا کوہستانی تحریری جُملوں کا انتخاب اور ان کی ریکارڈنگ
Recommended post-processing
کامن وائس کو اس سلسلے کو مزید آگے بڑھانا چاہیے۔
Get involved!
Community links
ابھی نہیں
Discussions
ابھی نہیں (میں بیمار ہوں اکتوبر میں یہ کام کیا جائے گا)
Contribute
ابھی نہیں
Acknowledgements
Datasheet authors
Razwal Kohistani (razwal@gmail.com)
Citation guidelines
نہیں سمجھا
Funding
This dataset was partially funded by the Open Multilingual Speech Fund managed by Mozilla Common Voice.
Licence
This dataset is released under the Creative Commons Zero (CC-0) licence. By downloading this data you agree to not determine the identity of speakers in the dataset.