План на курса

Преглед на технологии за Speech Recognition

  • История и развитие на разпознаването на реч
  • Акустични модели, езикови модели и декодиране
  • Съвременни архитектури: RNNs, трансформери и Whisper

Предобработка на аудио и основи на транскрипцията

  • Работа с формати и честоти на аудио
  • Очистване, подрязване и сегментиране на аудио
  • Генерация на текст от аудио: в реално време vs в пакет

Практика с Whisper и други API

  • Инсталиране и използване на OpenAI Whisper
  • Извикване на облачни API (Google, Azure) за транскрипция
  • Сравнение на производителност, закъснение и разходи

Език, акценти и адаптация към домейн

  • Работа с множество езици и акценти
  • Специални речници и толеранс към шум
  • Работа с правен, медицински или технически език

Форматиране на изход и интеграция

  • Добавяне на временни отметки, знаци за препинаване и означения за говорящи
  • Експорт в текст, SRT или JSON формати
  • Интегриране на транскрипции в приложения или бази данни

Use Case Лаборатории за имплементация

  • Транскрипция на срещи, интервюта или подкасти
  • Системи за гласов вход за текст
  • Ръчно добавени надписи за видео/аудио потокове

Оценка, ограничения и етика

  • Метрики за точност и оценка на модели
  • Предразсъдъци и справедливост в модели за реч
  • Разглеждания за конфиденциалност и съответствие на регулации

Резюме и следващи стъпки

Изисквания

  • Разбиране в общи концепции на изкуствен интелигент и машинен учене
  • Знакомство с аудио или медийни формати и инструменти

Целева аудитория

  • Научни работници по данни и инженери по изкуствен интелигент, работящи с гласов данни
  • Софтуерни разработчици, създаващи приложения, базирани на транскрипция
  • Организации, разследващи разпознаване на реч за автоматизация
 14 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории