Kairos Automatic Speech Recognition (Hugging Face)

GitHub: Alenkar/kairos-asr

📄 Описание

Kairos ASR — высокопроизводительная библиотека распознавания русской речи на базе GigaAM-style RNN-T и ONNX. Фокус: скорость, точность и простая интеграция в микросервисы и десктопы.

Основные возможности:

  • Оптимизированный ONNX-инференс
  • CPU и GPU (CUDA, extra [gpu])
  • Временные метки (word-level, sentence-level)
  • Итеративная обработка с прогрессом и ETA
  • Встроенный Voice-Activity-Detection (VAD)
  • Поддержка длинных аудио
  • Поддержка Windows и Linux

📦 Файлы в этом репозитории HF

Модельный репозиторий Alenkar/KairosASR содержит:

  • kairos_asr_encoder.onnx
  • kairos_asr_decoder.onnx
  • kairos_asr_joint.onnx
  • kairos_asr_tokenizer.model

kairos-asr загружает эти файлы через huggingface_hub автоматически. Можно скачать вручную:

from huggingface_hub import hf_hub_download

path = hf_hub_download("Alenkar/KairosASR", "kairos_asr_encoder.onnx")
print(path)

⚡ Быстрый старт

pip install kairos-asr[cpu]
# для GPU: pip install kairos-asr[gpu]

Если нужна конкретная сборка Torch под вашу CUDA:

# пример под CUDA 12.1/12.2 (cu121)
pip install torch==2.6.0 torchaudio==2.6.0 \
  --index-url https://download.pytorch.org/whl/cu121 --upgrade

🚀 Использование (Python)

Минимальный пример:

from kairos_asr import KairosASR

asr = KairosASR()  # авто-загрузка весов с HF
result = asr.transcribe(wav_file="audio.wav")
print(result.full_text)

Требования к аудио:

  • Любые форматы, поддерживаемые ffmpeg; ресемплинг до 16 kHz.
  • WAV PCM 16-bit mono (рекомендуется); стерео приводится к моно.
  • Длинные записи режутся Silero VAD на ~15–25 c (жёсткий лимит ~30 c) и объединяются.

🖥️ Использование (CLI)

Установите пакет, затем:

# Проверить окружение
kairos-asr doctor

# Список локальных/доступных моделей
kairos-asr list

# Скачать все модели заранее
kairos-asr download

# Перевести файл в текст
kairos-asr transcribe <wav_file>

⚙️ Системные требования

  • ffmpeg должен быть доступен в PATH (загрузка и ресемплинг аудио).
  • Доступ в интернет при первом запуске: скачивание весов моделей. Для ускорения и избежания лимитов задайте HF_TOKEN (huggingface-cli login или экспорт переменной окружения).

Больше информации

Для получения дополнительной информации об исходной модели смотрите ее карточку модели.

Downloads last month
11
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Alenkar/KairosASR

Base model

ai-sage/GigaAM-v3
Quantized
(2)
this model