Common Voice Scripted Speech 24.0 - Huarijio
License:
CC0-1.0
Steward:
Common Voice
Task: ASR
Release Date: 12/5/2025
Format: MP3
Size: 236.16 MB
Description
A collection of scripted spoken phrases in Huarijio.
Specifics
Considerations
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
Warihío — Huarijio (var)
Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Huarijio (var). El conjunto de datos contiene 8006 clips reprentando 11.8 horas de grabaciones (10.09 horas validadas) de 12 hablantes.
Idioma
La lengua según el Catálogo de lenguas Indigenas del INALI, el Huarijío pertenece a la familia yutoazteca o yuto-nahua, rama yuto-nahua sureña subrama Taracahita. El guarijío o huarijío del sur o del río también llamado makurawe se habla en el estado de Sonora, México: en el municipio de Álamos: Bavícora, Burapaco, Casas Coloradas, Chorijoa, El Chalate, El Sauz, Guajaray, Huataturi, Jobeg I, La Sauceda, La Tribuna, Los Estrados, Mesa Colorada, Mochibampo, Rancho Nuevo, Colonia San José y Colonia Makorahui, Sejaqui, Tecoripa. En el municipio Quiriego: Batacosa, El Frijolar, Los Bajíos (Ejido los Conejos), Quiriego. Según el Plan de Justicia 2020, hay 1998 habitantes.
Variantes
La variante del Huarijío es el Warijó (guarijío de la sierra) hablado en Chihuahua, que tiene el mismo código ISO 639-3: var.
var-delrio: Makurawevar-sierra: Warihío
Información demográfica
El conjunto de datos incluye la siguiente distribución de edad y género.
Género
Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.
| Género | Porcentaje |
|---|---|
| Undefined | 6.0% |
| Female Feminine | 94.0% |
Edad
Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.
| Rango de edad | Porcentaje |
|---|---|
| Twenties | 29.0% |
| Thirties | 57.0% |
| Teens | 14.0% |
Corpus de texto
Las oraciones mayormente son tomadas de la gramática del Dr. Rolando Guadalupe Felix Armendariz, aunque se usó también el diccionario de la Maestra Ana Aurora Medina Murillo además unos ejemplos de tesis de maestría de Ana Amelia Avila Enriquez y unos ejemplos de un artículo de la maestra Isabel Barreras Aguilar.
Sistema de escritura
Se tomó la escritura usada en la tesis del 2005 por el Dr. Rolando Guadalupe Felix Armendariz para hacer el corpus. Según el Dr. la lengua tiene 12 consonantes y 5 vocales.
Tabla de símbolos
p t k r s č m n w y h (')
a e i o u
Muestra
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.
Waní akačupare
No'ó poní kikainá kuú
Waní yauré
Ko'kosapa kočírúne
Yomá tihoé simpanáre ečitiači
Muestras automáticas aleatorias
Póke temeápu kitekihanátemeapu nuʼnúnti kíwewerúma inéreteme.
Weeká peperúne čarewá.
Yauyáme muiré pipiípia ahpó pukamína.
Teiwáme kíʼte waʼáo tehkí kawé tekhpáname oʼwerú.
Weikó nenéka ihtihpíka waʼá.
Fuentes
Avila Enriquez, Diana Amelia. 2012. Las construcciones aplicativas en guarijío de Sonora. (tesis de maestría). Sonora: Universidad de Sonora.
Barreras Aguilar, Isabel. 1996 “Clasificación semántica de los verbos en guarijío. En: J.Fajardo (Ed.). Estudios semánticos. México: El Colegio de México Félix Armendáriz,
Rolando Gpe. 2005. A Grammar of River Warihio. Disertación de doctorado.Texas: Rice University.
Medina Murillo Ana Aurora. 2002. Diccionario morfológico: formación de palabras en el guarijio. (tesis de maestria). Sonora: Universidad de Sonora.
Dominios textuales
| Dominio | Cuenta |
|---|---|
| Undefined | 8006 |
Procesamiento
Postprocesamiento recomendado
Enlaces comunitarios
Discusiones
Contribuir
Autores de la ficha técnica
Maria Alfonsa Larios Santacruz mariaalfonsa@hotmail.com
Criterios de citación
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.
