План на курса

Обзор на технологии за разпознаване на глас

  • История и еволюция на разпознаването на глас
  • Акустични модели, езикови модели и декодиране
  • Современи архитектури: RNNs, трансформатори и Whisper

Предобработка на аудио и основи на транскрипцията

  • Управление на форматите за аудио и частотите на пробиране
  • Очистване, отрязване и сегментация на аудио
  • Генериране на текст от аудио: реално време vs. партиция

Практическа работа с Whisper и други API

  • Инсталиране и използване на OpenAI Whisper
  • Изпълнение на обlacни API (Google, Azure) за транскрипция
  • Сравняване на перформанса, задрежката и цената

Езици, акценти и адаптация за домейн

  • Работа с многоброинствени езици и акценти
  • Персонализирани лексики и толерантност към шумовете
  • Обработка на правни, медицински или технически езици

Форматиране на изхода и интеграция

  • Добавяне на времеви маркери, знаки за препинаване и метки за говорещите
  • Експортиране в текстови, SRT или JSON формати
  • Интеграция на транскрипциите в приложения или бази данни

Лаборатории за реализация на приложения

  • Транскрипция на срещи, интервюта или подкастове
  • Системи за команди от глас към текст
  • Реално-временни субтитри за видео/аудио потоци

Оценка, ограничения и етика

  • Метрики за точност и оценка на модели
  • Предубеждения и справедливост в моделите за разпознаване на глас
  • Разглеждане на приватността и съответствието с правилата

Общо резюме и следващи стъпки

Изисквания

  • Разбиране на общите концепции на ИИ и машинното обучение
  • Запознаност с формати и инструменти за аудио или медия файлове

Публика

  • Датасцисти и инженери по ИИ, работещи с гласова информация
  • Софтуерни разработчици, строящи приложения за транскрипция
  • Организации, изследващи разпознаването на глас за автоматизация
 14 Часове

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории