Common Voice Scripted Speech 24.0 - Kohistani Shina

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 12/5/2025

Format: MP3

Size: 329.81 MB


Share

Description

A collection of scripted spoken phrases in Kohistani Shina.

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

کوہستانی شینا — Kohistani Shina (plk)

This datasheet is for version 24.0 of the the Mozilla Common Voice Scripted Speech dataset for Kohistani Shina (plk). The dataset contains 11935 clips representing 16.66 hours of recorded speech (12.58 hours validated) from 10 speakers.

Language

یہ زبان پاکستان کے صوبہ خیبر پختونخوا کے انڈس کوہستان اضلاع میں بولی جاتی ہے جس کے بولنے والے 5 لاکھ سے زائد ہیں

Variants

نہیں

Demographic information

The dataset includes the following distribution of age and gender.

Gender

Self-declared gender information, percentage refers to the number of clips annotated with this gender.

GenderPercentage
Undefined100.0%

Age

Self-declared age information, percentage refers to the number of clips annotated with this age band.

Age BandPercentage
Undefined14.0%
Thirties16.0%
Sixties71.0%

Text corpus

جملے میں نے اپنی مطبوعہ کتابوں سے منتخب کیے تھے ۔4657 جُملے لکھے اور ریکارڈ کیے گئے۔ بعد میں کم وبیش 6000 جُملے کامن وائس میں اپلوڈ کیے گئے لیکن وہ کامن وائس میں نظر نہیں آ رہے جس کی وجہ سے ان کی ریکارڈنگ ممکن نہیں۔

Writing system

اردو عربی رسم الخط مع مخصوص اضافی شینا کوہستانی فونٹس۔

Symbol table

ا ب بھ پ پھ ت تھ ٹ ٹھ ث ج جھ چ چھ څ څھ ڇ ڇھ ح خ د دھ ڈ ڈھ ر ڑ ز زھ ڙ ژ س ش ݜ ص ض ط ظ ع غ ف ق ک کھ گ گھ ل لھ م مھ ن ݨ ں و ھ ہ ء ی ے

Sample

There follows a randomly selected sample of five sentences from the corpus. مال منُوْڑ ہی شو بولْ توْ اوْبے پٹھو دُوم تھینَن ایْک تھیک دہ دُو کھگرہ نہ بٹنَن آ پھیارہ پِپِیں پُھڑہ ہے سِدَڇِھیانیْ بُربُوڑوْ ڇَھہُوئیں شال گہ ݜِݜَے دڑے کِرِیا مڑنے نوْ اسمیہ جُملہ دہ مُبتدا مسند الیہ بِینوْ آں خبر مسند بِینیْ

Automatic random samples

مُلوس پوْچہ اکے بونبانوْ۔
چربِیو گہ دائے۔
آ کوْم سیْݨا تھیگاس بوْ
بہیو ایْک۔
نالاج منُوڙوْس لݩگ تݩگ وخ لگِینوْ۔

Sources

  1. سیرتُ النّبی صلی اللہ علیہ وسلم 2. غزواتُ النّبی صلی اللہ علیہ وسلم 3. ازواج مُطہرات گہ دُخترانِ محمد ﷺ 4. اُمّ المؤمنیِن حضرت اُمّ حبیبہ رضی اللہ تعالی عنہا 5. اُمّ المؤمنیِن حضرت اُمّ سلمہ رضی اللہ تعالی عنہا 6. اُمّ المؤمنیِن حضرت جویریہ رضی اللہ تعالی عنہا 7. اُمّ المؤمنیِن حضرت حفصہ رضی اللہ تعالی عنہا 8. اُمّ المؤمنیِن حضرت خدیجہ رضی اللہ تعالی عنہا 9. اُمّ المؤمنیِن حضرت زینب بنتِ حجش رضی اللہ تعالی عنہا 10. اُمّ المؤمنیِن حضرت زینب بنت خزیمہ رضی اللہ تعالی عنہا 11. اُمّ المؤمنیِن حضرت سودہ رضی اللہ تعالی عنہا 12. اُمّ المؤمنیِن حضرت صفیہ رضی اللہ تعالی عنہا 13. اُمّ المؤمنیِن حضرت عائشہ رضی اللہ تعالی عنہا 14. اُمّ المؤمنیِن حضرت میمونہ رضی اللہ تعالی عنہا 15. بنیادی کوہستانی شینا ۔ اردو لغت 16. حضرت ابوبکر صدیق رضی اللہ عنہ 17. حضرت اُمّ کلثوم بنتِ محمدﷺ 18. حضرت رُقِیّہ بنتِ محمدﷺ 19. حضرت زینب بنتِ محمدﷺ 20. حضرت فاطمہ بنتِ محمدﷺ 21. کوہستان دہ ادویاتی گوڑیؤ اسِیو کمون 22. کوہستان کی ادویاتی جڑی بوٹیوں کا روایتی استعمال (1996) 23. کوہستانی شینا قاعدے (1996، 2000، 2021، 2022) 24. کوہستانی شینا ۔اُردو لُغت (تین جلدیں) 25. کوہستانی شینا تبلیغی کتابچہ (2018) 26. کوہستانی شینا قاعدہ (نباتاتی، حیوانی اور ثقافتی) 27. کوہستانی شینا کہاؤتیں اور محاورے (1997) 28{ شینا کوہستانی اردو لغت، مطبوعہ گندھارا اکیڈمی پشاور

Text domains

DomainCount
Undefined11935

Processing

شینا کوہستانی تحریری جُملوں کا انتخاب اور ان کی ریکارڈنگ

Recommended post-processing

کامن وائس کو اس سلسلے کو مزید آگے بڑھانا چاہیے۔

Get involved!

Community links

ابھی نہیں

Discussions

ابھی نہیں (میں بیمار ہوں اکتوبر میں یہ کام کیا جائے گا)

Contribute

ابھی نہیں

Acknowledgements

Datasheet authors

Razwal Kohistani (razwal@gmail.com)

Citation guidelines

نہیں سمجھا

Funding

This dataset was partially funded by the Open Multilingual Speech Fund managed by Mozilla Common Voice.

Licence

This dataset is released under the Creative Commons Zero (CC-0) licence. By downloading this data you agree to not determine the identity of speakers in the dataset.