Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Преглед на технологии за Speech Recognition
- История и развитие на разпознаването на реч
- Акустични модели, езикови модели и декодиране
- Съвременни архитектури: RNNs, трансформери и Whisper
Предобработка на аудио и основи на транскрипцията
- Работа с формати и честоти на аудио
- Очистване, подрязване и сегментиране на аудио
- Генерация на текст от аудио: в реално време vs в пакет
Практика с Whisper и други API
- Инсталиране и използване на OpenAI Whisper
- Извикване на облачни API (Google, Azure) за транскрипция
- Сравнение на производителност, закъснение и разходи
Език, акценти и адаптация към домейн
- Работа с множество езици и акценти
- Специални речници и толеранс към шум
- Работа с правен, медицински или технически език
Форматиране на изход и интеграция
- Добавяне на временни отметки, знаци за препинаване и означения за говорящи
- Експорт в текст, SRT или JSON формати
- Интегриране на транскрипции в приложения или бази данни
Use Case Лаборатории за имплементация
- Транскрипция на срещи, интервюта или подкасти
- Системи за гласов вход за текст
- Ръчно добавени надписи за видео/аудио потокове
Оценка, ограничения и етика
- Метрики за точност и оценка на модели
- Предразсъдъци и справедливост в модели за реч
- Разглеждания за конфиденциалност и съответствие на регулации
Резюме и следващи стъпки
Изисквания
- Разбиране в общи концепции на изкуствен интелигент и машинен учене
- Знакомство с аудио или медийни формати и инструменти
Целева аудитория
- Научни работници по данни и инженери по изкуствен интелигент, работящи с гласов данни
- Софтуерни разработчици, създаващи приложения, базирани на транскрипция
- Организации, разследващи разпознаване на реч за автоматизация
14 Часа