Введение

Наиболее естественной формой человеческого общения является речь. Однако голос/речь не так семантически понимается существующими моделями ИИ, как текст. Разве не было бы здорово, если бы мы могли использовать речь в качестве интерфейса, интерпретируя эмоции и смысл, стоящие за ними, для значимого взаимодействия?

Преобразование речи в текст или автоматическое распознавание речи (ASR) именно это и устраняет.

Speech-to-Text от NeuralSpace — это технология, позволяющая автоматически преобразовывать человеческую речь в текст. Он построен с использованием передовых моделей искусственного интеллекта для обеспечения точной транскрипции любого типа речи (и голоса любого человека), будь то разговор или другой контекст. Когда у нас есть транскрипция, это, по сути, текст, который может быть успешно проанализирован текстовыми сервисами, такими как Понимание языка или Распознавание сущностей.

С моделями преобразования речи в текст NeuralSpace вы можете получать аудиотранскрипции для разных языков. Мы поддерживаем два разных способа преобразования вашей речи в текст: диктовка и транскрипция файла.

В этом блоге мы рассказываем о функциях и примерах использования STT, а также даем руководство о том, как вы можете использовать его на Платформе NeuralSpace (без написания кода)!

Функции

Современные модели. У нас есть собственные предварительно обученные современные модели с помощью API, и мы интегрируем их в любое из ваших приложений.

Специализация домена. Наши модели специализируются на заранее определенных областях, таких как финансы или медицина. У нас также есть специализированные модели для разных акцентов. Например, наша английская модель STT, специализирующаяся на медицинской области, может точно транскрибировать медицинские термины, а наша модель STT на английском языке, специализированная на индийском домене, может точно транскрибировать английский язык, на котором говорят с индийским акцентом.

Поддержка языков с низким уровнем ресурсов. Начните с нашей STT, чтобы поддерживать широкий спектр языков по всему миру. Даже те, которые мало представлены в цифровом мире.

Случаи использования

Субтитры для видео или совещаний: наши API и интерфейсы командной строки можно использовать для создания транскрипций ваших видео или совещаний очень легко и с высокой эффективностью.

Голосовые боты​: с помощью нашей службы преобразования речи в текст можно расширить интерфейс своего чат-бота до голосового, повторно используя тот же конвейер NLU. Используя наши API преобразования речи в текст, вы также получаете языковую поддержку для различных языков с низким уровнем ресурсов наряду со стандартными языками с высокими ресурсами.

Автоматическая транскрипция: с нашими моделями STT можно автоматически получить транскрипцию длинных аудиозаписей речи в течение нескольких часов, что в противном случае может занять несколько дней, чтобы расшифровать вручную.

Голосовой ввод. Включите транскрипцию в режиме реального времени без помощи рук с нашими моделями STT на более чем 20 языках.

Языковая поддержка

Ниже приведены 24 языка, на которых мы в настоящее время поддерживаем преобразование речи в текст. Мы прилагаем все усилия, чтобы в ближайшем будущем предложить еще больше языков.

арабский (ар)

Каталонский (ок.)

Китайский (чж)

чешский (чс)

голландский (nl)

английский (ан)

эсперанто (эо)

французский (фр.)

немецкий (де)

греческий (эль)

Хинди (привет)

итальянский (итал.)

японский (я)

казахский (кк)

Одиа (или)

Португальский (pt)

персидский (фа)

русский (ru)

испанский (англ.)

Шведский (св)

Тагальский (TL)

турецкий (тр)

украинский (Великобритания)

вьетнамский (vi)

Руководство

Шаг 1:

Войдите в свою учетную запись NeuralSpace. Вы можете создать его бесплатно, если у вас нет существующей учетной записи.

Шаг 2:

Нажмите «Речь в текст» слева в разделе «Все службы».

Шаг 3:

Выберите режим транскрипции — Транскрипция файла и Диктовка.

| Для транскрипции файлов:

Шаг 1

Загрузите нужный файл (размер может быть от 10 МБ до 500 МБ)

Шаг 2

Щелкните раскрывающийся список «Выбрать язык», чтобы выбрать язык, и раскрывающийся список «Домен» для домена аудиофайла.

Шаг 3

Затем нажмите «Расшифровать» и подождите, пока файл будет расшифрован.

Шаг 4

Нажмите кнопку «Просмотреть стенограмму» рядом с аудиоплеером, чтобы получить соответствующую транскрипцию для аудио.

Вуаля! Вы успешно преобразовали свой первый аудиофайл в текст!

| Для диктанта:

Шаг 1

Выберите нужный язык и домен из раскрывающегося списка.

Шаг 2

Затем нажмите на желтую кнопку микрофона, чтобы начать потоковую транскрипцию. Чтобы остановить расшифровку аудио, нажмите желтую кнопку микрофона еще раз.

Ну вот! Вы успешно транскрибировали то, что говорили, в текст!

Команда NeuralSpace работает над добавлением большего количества языков в наш сервис STT, не стесняйтесь связаться с нами, если у вас есть какие-либо предпочтения.

Попробуйте наш сервис Speech-to-Text на NeuralSpace Platform прямо сейчас! Зарегистрируйтесь и получите кредиты на сумму 200 долларов!

Ознакомьтесь с нашей Документацией, чтобы узнать больше о платформе NeuralSpace и ее различных услугах.

Присоединяйтесь к сообществу NeuralSpace Slack, чтобы общаться с нами, задавать вопросы и сотрудничать в интересных проектах с другими участниками сообщества. Кроме того, получайте обновления и обсуждайте темы НЛП для языков с низким уровнем ресурсов с другими разработчиками и исследователями.

Удачного НЛП!