Свържете се с нас

Съдържание и теми, включени в курса

Преглед на технологиите за разпознаване на реч

  • История и еволюция на разпознаването на реч
  • Акустични модели, езикови модели и декодиране
  • Съвременни архитектури: RNN, трансформъри и Whisper

Предварителна обработка на аудио и основи на транскрипцията

  • Работа с аудио формати и честоти на дискретизация
  • Почистване, подрязване и сегментиране на аудио
  • Генериране на текст от аудио: в реално време срещу пакетно

Практическа работа с Whisper и други API-та

  • Инсталиране и използване на OpenAI Whisper
  • Извикване на облачни API-та (Google, Azure) за транскрипция
  • Сравняване на производителност, латентност и цена

Език, акценти и домейн адаптация

  • Работа с множество езици и акценти
  • Персонализирани речници и устойчивост на шум
  • Обработка на правен, медицински или технически език

Форматиране на изход и интеграция

  • Добавяне на времеви отпечатъци, пунктуация и етикети на говорители
  • Експортиране в текст, SRT или JSON формати
  • Интегриране на транскрипции в приложения или бази данни

Лаборатории за внедряване на случаи на употреба

  • Транскрибиране на срещи, интервюта или подкастове
  • Системи за команди от глас към текст
  • Субтитри в реално време за видео/аудио потоци

Оценка, ограничения и етика

  • Метрики за точност и бенчмаркинг на модели
  • Пристрастия и справедливост в моделите за реч
  • Съображения за поверителност и съответствие

Обобщение и следващи стъпки

Изисквания

  • Разбиране на общи концепции за изкуствен интелект и машинно обучение
  • Запознатост с аудио или медийни файлови формати и инструменти

Аудитория

  • Специалисти по данни и инженери по изкуствен интелект, работещи с гласови данни
  • Софтуерни разработчици, изграждащи приложения, базирани на транскрипция
  • Организации, проучващи разпознаването на реч за автоматизация
 14 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории