Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Обзор на технологии за разпознаване на глас
- История и еволюция на разпознаването на глас
- Акустични модели, езикови модели и декодиране
- Современи архитектури: RNNs, трансформатори и Whisper
Предобработка на аудио и основи на транскрипцията
- Управление на форматите за аудио и частотите на пробиране
- Очистване, отрязване и сегментация на аудио
- Генериране на текст от аудио: реално време vs. партиция
Практическа работа с Whisper и други API
- Инсталиране и използване на OpenAI Whisper
- Изпълнение на обlacни API (Google, Azure) за транскрипция
- Сравняване на перформанса, задрежката и цената
Езици, акценти и адаптация за домейн
- Работа с многоброинствени езици и акценти
- Персонализирани лексики и толерантност към шумовете
- Обработка на правни, медицински или технически езици
Форматиране на изхода и интеграция
- Добавяне на времеви маркери, знаки за препинаване и метки за говорещите
- Експортиране в текстови, SRT или JSON формати
- Интеграция на транскрипциите в приложения или бази данни
Лаборатории за реализация на приложения
- Транскрипция на срещи, интервюта или подкастове
- Системи за команди от глас към текст
- Реално-временни субтитри за видео/аудио потоци
Оценка, ограничения и етика
- Метрики за точност и оценка на модели
- Предубеждения и справедливост в моделите за разпознаване на глас
- Разглеждане на приватността и съответствието с правилата
Общо резюме и следващи стъпки
Изисквания
- Разбиране на общите концепции на ИИ и машинното обучение
- Запознаност с формати и инструменти за аудио или медия файлове
Публика
- Датасцисти и инженери по ИИ, работещи с гласова информация
- Софтуерни разработчици, строящи приложения за транскрипция
- Организации, изследващи разпознаването на глас за автоматизация
14 Часове