Common Voice Scripted Speech 24.0 - Seri
License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 12/5/2025
Format: MP3
Size: 208.50 MB
Share
Description
A collection of scripted spoken phrases in Seri.
Specifics
Considerations
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
_ — Seri (sei)
Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Seri (sei). El conjunto de datos contiene 8260 clips reprentando 10.43 horas de grabaciones (10.11 horas validadas) de 16 hablantes.
Idioma
El idioma seri, conocida como cmiique iitom [kw̃ĩˈkiitom] en el idioma mismo, se habla a lo largo del Golfo de California en el estado mexicano de Sonora. Desde 1970, el pueblo seri vive en un ejido decretado por el presidente mexicano, que incluye dos pueblos, Socaaix (Punta Chueca) y Haxöl Iihom (Desemboque). Hoy en día hay alrededor de 900 hablantes del idioma.
El seri es una lengua aislada, aunque claramente ha tenido una larga historia de contacto y préstamo con otras lenguas indígenas de la región del desierto de Sonora. El seri se caracteriza por patrones morfologicos con núcleo marcado. Su sintaxis muestra orden núcleo final, lo que se observa, por ejemplo, en el orden básico de palabra SOV. Los pronombres se omiten con frecuencia y la lengua hace un uso extensivo del encadenamiento de cláusulas. En lugar de adposiciones, la lengua utiliza sustantivos relacionales que están poseídos por el nominal que modifica. Su fonología no destaca mucho, pero la lengua permite grupos consonánticos complejos y muestra ensordecimiento consonántico y vocálico.
Variantes
No hay diferencias dialectales significativas en las dos comunidades donde se habla seri.
Información demográfica
El conjunto de datos incluye la siguiente distribución de edad y género.
Género
Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.
| Género | Porcentaje |
|---|---|
| Undefined | 18.0% |
| Female Feminine | 81.0% |
| Do Not Wish To Say | 1.0% |
Edad
Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.
| Rango de edad | Porcentaje |
|---|---|
| Undefined | 1.0% |
| Twenties | 23.0% |
| Thirties | 27.0% |
| Fourties | 49.0% |
Corpus de texto
Sistema de escritura
El sistema de escritura del idioma seri se desarrolló en la década de 1950 y se ajusta lo más posible a la ortografía española, en particular al uso de la c y la qu para el fonema /k/, y el uso del acento para marcar el énfasis en posiciones no estándar. Consta de 23 letras y dos dígrafos, y se atiene estrechamente al inventario de fonemas.
Tabla de símbolos
a, aa, c, cö, e, ee, f, h, i, ii, j, jö, l, ḻ, m, n, o, oo, p, qu, r, s, t, x, xö, y, z
Muestra
A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.
Xicaquiziil coi pácataj x, canoaa com cösiizcam aha. Zimjöc oo caafp iha. Hatee scoos aha. Zixquisiil quih ata quih hacx iteesxo, haaco cop ipac cöyoozquim. Ziix coqueht tiquij quiix in toc cömilj.
Muestras automáticas aleatorias
Hacat caacoj zo hatámlajc ma, comcaac quih hoox cötactim, iyooctam.
Comcaac iicot miitax hizcom, ma imaziixoj iha.
¿Xcoomoj quih tislitx?
Zixquisiil cmaam quij hant thanl toocj cöquiih coi ano cöititaai ma x, psaac imiicö.
Quisiil ctam quij quisiil cmaam quij isoj iic cöitqueepe ma, cmaax pti scooztim caha.
Fuentes
Moser, Mary Beck, & Marlett, Stephen A. (Eds.). (2010). Comcáac quih yaza quih hant ihíip hac: cmiique iitom, cocsar iitom, maricáana iitom. Plaza y Valdes.
Dominios textuales
| Dominio | Cuenta |
|---|---|
| Undefined | 8260 |
Procesamiento
Postprocesamiento recomendado
¡Involúcrate!
Enlaces comunitarios
Discusiones
Contribuir
Agradecimientos
Autores de la ficha técnica
Criterios de citación
Financiamiento
Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.
Licencia
Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.