Kairos Automatic Speech Recognition (Hugging Face)
📄 Описание
Kairos ASR — высокопроизводительная библиотека распознавания русской речи на базе GigaAM-style RNN-T и ONNX. Фокус: скорость, точность и простая интеграция в микросервисы и десктопы.
Основные возможности:
- Оптимизированный ONNX-инференс
- CPU и GPU (CUDA, extra
[gpu]) - Временные метки (word-level, sentence-level)
- Итеративная обработка с прогрессом и ETA
- Встроенный Voice-Activity-Detection (VAD)
- Поддержка длинных аудио
- Поддержка Windows и Linux
📦 Файлы в этом репозитории HF
Модельный репозиторий Alenkar/KairosASR содержит:
kairos_asr_encoder.onnxkairos_asr_decoder.onnxkairos_asr_joint.onnxkairos_asr_tokenizer.model
kairos-asr загружает эти файлы через huggingface_hub автоматически. Можно скачать вручную:
from huggingface_hub import hf_hub_download
path = hf_hub_download("Alenkar/KairosASR", "kairos_asr_encoder.onnx")
print(path)
⚡ Быстрый старт
pip install kairos-asr[cpu]
# для GPU: pip install kairos-asr[gpu]
Если нужна конкретная сборка Torch под вашу CUDA:
# пример под CUDA 12.1/12.2 (cu121)
pip install torch==2.6.0 torchaudio==2.6.0 \
--index-url https://download.pytorch.org/whl/cu121 --upgrade
🚀 Использование (Python)
Минимальный пример:
from kairos_asr import KairosASR
asr = KairosASR() # авто-загрузка весов с HF
result = asr.transcribe(wav_file="audio.wav")
print(result.full_text)
Требования к аудио:
- Любые форматы, поддерживаемые
ffmpeg; ресемплинг до 16 kHz. - WAV PCM 16-bit mono (рекомендуется); стерео приводится к моно.
- Длинные записи режутся Silero VAD на ~15–25 c (жёсткий лимит ~30 c) и объединяются.
🖥️ Использование (CLI)
Установите пакет, затем:
# Проверить окружение
kairos-asr doctor
# Список локальных/доступных моделей
kairos-asr list
# Скачать все модели заранее
kairos-asr download
# Перевести файл в текст
kairos-asr transcribe <wav_file>
⚙️ Системные требования
ffmpegдолжен быть доступен вPATH(загрузка и ресемплинг аудио).- Доступ в интернет при первом запуске: скачивание весов моделей. Для ускорения и избежания лимитов задайте
HF_TOKEN(huggingface-cli loginили экспорт переменной окружения).
Больше информации
Для получения дополнительной информации об исходной модели смотрите ее карточку модели.
- Downloads last month
- 11
Model tree for Alenkar/KairosASR
Base model
ai-sage/GigaAM-v3