Common Voice Scripted Speech 24.0 - Western Highland Purepecha
License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 12/5/2025
Format: MP3
Size: 218.02 MB
Share
Description
A collection of scripted spoken phrases in Western Highland Purepecha.
Specifics
Considerations
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
[Western Highland Purepecha] — Western Highland Purepecha (pua)
Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Western Highland Purepecha (pua). El conjunto de datos contiene 8180 clips reprentando 11.17 horas de grabaciones (10.29 horas validadas) de 9 hablantes.
Idioma
Variantes
Información demográfica
El conjunto de datos incluye la siguiente distribución de edad y género.
Género
Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.
| Género | Porcentaje |
|---|---|
| Undefined | 72.0% |
| Female Feminine | 28.0% |
Edad
Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.
| Rango de edad | Porcentaje |
|---|---|
| Undefined | 14.0% |
| Twenties | 55.0% |
| Thirties | 31.0% |
Partición de datos para modelado
Las particiones de datos oficiales para el modelado de esta lengua son las siguientes. De los clips validados, 29.13% están incluidos en las particiones.
| Partición | Cuenta |
|---|---|
| Train | 1153 |
| Test | 547 |
| Dev | 495 |
Corpus de texto
El corpus textual contiene 2200 oraciones, de las cuales 2201 están validadas, -1 están invalidadas y 1 son reportadas.
Sistema de escritura
Tabla de símbolos
Muestra
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.
Juchiti pirentsï nirasti kʼeri iretarhu miyuni.
¿Chiini ampe xani jorhentperanhasïni?
Ima chʼawaka énka Pedru pʼikuka xarakata pʼikunhasïnti.
Xarhinichani kanekwa tsʼïrakwarhisïnti.
Énka warhiti ma ikiani jawaka no jarhasti para itsukwa intskuni charhaku jempani.
Muestras automáticas aleatorias
Juchiti pirentsï nirasti kʼeri iretarhu miyuni.
¿Chiini ampe xani jorhentperanhasïni?
Ima chʼawaka énka Pedru pʼikuka xarakata pʼikunhasïnti.
Xarhinichani kanekwa tsʼïrakwarhisïnti.
Énka warhiti ma ikiani jawaka no jarhasti para itsukwa intskuni charhaku jempani.
Muestras automáticas aleatorias
Juchiti pirentsï nirasti kʼeri iretarhu miyuni.
¿Chiini ampe xani jorhentperanhasïni?
Ima chʼawaka énka Pedru pʼikuka xarakata pʼikunhasïnti.
Xarhinichani kanekwa tsʼïrakwarhisïnti.
Énka warhiti ma ikiani jawaka no jarhasti para itsukwa intskuni charhaku jempani.
Muestras automáticas aleatorias
Juchiti pirentsï nirasti kʼeri iretarhu miyuni.
¿Chiini ampe xani jorhentperanhasïni?
Ima chʼawaka énka Pedru pʼikuka xarakata pʼikunhasïnti.
Xarhinichani kanekwa tsʼïrakwarhisïnti.
Énka warhiti ma ikiani jawaka no jarhasti para itsukwa intskuni charhaku jempani.
Fuentes
Dominios textuales
| Dominio | Cuenta |
|---|---|
| Undefined | 8180 |
Procesamiento
Postprocesamiento recomendado
Campos
Cada fila de un archivo tsv representa un solo clip de audio, y contiene la siguiente información:
client_id- UUID hasheado de cierto usuariopath- ruta relativa al archivo de audiotext- presunta transcripción del audioup_votes- número de personas que dijeron que el audio concordaba con el textodown_votes- número de personas que dijeron que el audio no concordaba con el textoage- edad de los hablantes1gender- genero de los hablantes1accent- acénto de los hablantes1segment- si la oración pertenece a una porción personalizada de un dataset, será listada aquí
¡Involúcrate!
Enlaces comunitarios
Discusiones
Contribuir
Agradecimientos
Autores de la ficha técnica
Criterios de citación
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
Footnotes
Para una lista completa de opciones de edades, generos, y acéntos, ver la especificación demográfica. Esta será reportada únicamente si el hablante aceptó proporcionar dicha información. ↩ ↩2 ↩3