Common Voice Scripted Speech 24.0 - Central Puebla Nahuatl

Specifics

Licensing

CC0 1.0 Universal

https://creativecommons.org/publicdomain/zero/1.0/legalcode

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

[nauatl, nawatl, mexikano] — Central Puebla Nahuatl (ncx)

Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Central Puebla Nahuatl (ncx). El conjunto de datos contiene 9509 clips reprentando 11.77 horas de grabaciones (10.69 horas validadas) de 41 hablantes.

Idioma

Náhuatl que se utiliza mayormente en el Centro de Veracruz y Valle de Tehuacán y alrededores, además de ser entendible en Oaxaca (norte), Morelos, Tlaxcala, Estado de México y Ciudad de México.

Variantes

Información demográfica

El conjunto de datos incluye la siguiente distribución de edad y género.

Género

Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.

Género	Porcentaje
Undefined	61.0%
Male Masculine	1.0%
Female Feminine	38.0%

Edad

Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.

Rango de edad	Porcentaje
Undefined	4.0%
Twenties	15.0%
Thirties	63.0%
Fourties	17.0%

Corpus de texto

Frases más bien cortas, de tres a cinco palabras en su mayoría y sacadas de contextos de socialización comunes.

Sistema de escritura

Escritura práctica, utilizando la pauta propuesta por el Instituto Lingüístico de Verano.

Tabla de símbolos

a b ch e f g i j k l m n o p r s t tl ts u x y

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus. Nolti. ¿Ken nanmoestikatej? Tsinokej. ¿Kenijki nanmoyestikatej? Yope kiaui, nikeleuia se kafentsi. Yopejki kiaui, nikeleuia se kafentsi. Nimitstlasojkamatilia, moxochimauitsotsin.

Muestras automáticas aleatorias

Kuali, momauitsotsin
Panpa ne amo nechyolkokoa nimotemakas mopatka.
¿Tikmati tiajkuis?
¿Nin chikiuitl non moaxka?
¿Kanin mochan?

Fuentes

Ne noneuian Ketsaltsin, saiktlami astatl Tetlikuiti Tlasemanki onpa Chiaualpan

Dominios textuales

Dominio	Cuenta
Undefined	2832
Finance	212
Healthcare	212
Language Fundamentals	2047
Media Entertainment	4700

Procesamiento

Se siguieron pautas comunes de lenguaje cotidiano y representativo.

Postprocesamiento recomendado

Enlaces comunitarios

Traductores de Common Voice en Pontoon

Discusiones

Contribuir

Autores de la ficha técnica

Luis Samuel Santiago Melchor: lssm8676969@gmail.com

Criterios de citación

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.