Google приближается к производительности на уровне BERT, используя в 300 раз меньше параметров с расширением PRADO

За последнее десятилетие массовое развертывание глубоких нейронных сетей радикально изменило подходы к исследованиям. В частности, в области обработки естественного языка (NLP) инновации в глубоких нейронных сетях постоянно развиваются, чтобы соответствовать новым требованиям рынка. В последнее время растет интерес к разработке небольших и точных нейронных сетей NLP, которые могут работать полностью на смартфонах, смарт-часах и устройствах IoT.

Сегодня во многих исследованиях изучаются способы изменить разработку моделей НЛП, чтобы они могли работать на устройстве, а не в высокотехнологичных центрах обработки данных. Учитывая, что мобильные устройства часто имеют ограниченную память и вычислительную мощность, эти модели НЛП должны быть небольшими, эффективными и достаточно надежными без ущерба для качества.

Google AI недавно выпустил новый урезанный pQRNN, расширение нейронной сети проекции внимания PRADO, созданной Google AI в прошлом году и которая достигла производительности SOTA на многих задачах классификации текста с менее чем 200 КБ. параметры. Пример использования PRADO крайне малого количества параметров для изучения наиболее релевантных или полезных токенов для задачи вдохновил исследователей Google AI на дальнейшее использование его потенциала.

В отличие от предыдущих нейронных моделей на устройстве, таких как облегченная модель классификации текста с самоуправляемыми нейронными сетями (SGNN), основанная на проекциях, чувствительных к местности и фокусирующаяся на классификации коротких текстов, PRADO сочетает обучаемые проекции с вниманием и свертками для захвата дальнодействующих зависимостей для классификация длинного текста. Исследователи Google AI разработали PRADO для изучения кластеров текстовых сегментов по словам, а не по частям или символам, и объяснили, что, по сути, это основной дизайн, который снижает параметры модели, «поскольку словарные единицы более значимы, но при этом являются наиболее подходящими словами для большинства ( НЛП) задачи достаточно малы ».

Способность PRADO изучать кластеры текстовых сегментов по словам, а не по частям слов или символам, позволила PRADO достичь хорошей производительности при выполнении несложных задач НЛП.

Расширение pQRNN PRADO состоит из трех строительных блоков. Операция проекции преобразует токены в тексте в последовательность троичных векторов, плотный слой узких мест изучает представление каждого слова, относящееся к задаче НЛП, и стек кодировщиков QRNN изучает контекстное представление только на основе ввода текста без предварительной обработки.

PQRNN выгодно отличается от модели BERT SOTA NLP в задачах классификации текста в наборе данных civil_comments, обеспечивая производительность, близкую к уровню BERT, но используя в 300 раз меньше параметров и без предварительного обучения. Конструкция на устройстве, лежащая в основе новой модели, имеет потенциал для использования в различных приложениях классификации текста, таких как обнаружение спама, категоризация продуктов, тональность и т. Д.

Документ PRADO: Projection Attention Networks для классификации документов на устройстве доступен на aclweb, а Google AI открыл исходный код модели PRADO на GitHub.

Репортер: Фаню Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использовал технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Наряду с этим отчетом мы также представили базу данных, охватывающую 1428 дополнительных решений искусственного интеллекта из 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить какие-либо новости или открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

материалы по теме:

Новые материалы

План из 4 шагов, чтобы сделать себя бесценным на работе

Многолетний опыт, выраженный в несколько шагов С тех пор, как мы впервые оказались на рабочем месте, нам говорили, что нас можно заменить. Неважно, работаете ли вы в офисе, на..

Создайте свой собственный виртуальный зеленый экран

Обнаруживайте человека на экране и область вокруг него, чтобы дать ему собственный индивидуальный фон Вы замечали, что ваши коллеги оказываются в разных местах на каждой встрече Zoom? Скорее..

Осциллятор LBR для торговли

Программирование осциллятора LBR 3–10 на Python MACD — известный осциллятор, основанный на скользящих средних. В этой статье обсуждается разновидность MACD, называемая LBR 3–10...

Использование SharedPreferences в Android с Kotlin: руководство для начинающих

SharedPreferences — это простой способ хранения пар «ключ-значение» в Android с использованием формата XML. Его можно использовать для хранения небольших объемов данных, которые должны..

Упростите преобразование единиц измерения с помощью нашего универсального API преобразования

В современном быстро меняющемся цифровом мире разработчики и пользователи часто сталкиваются с необходимостью конвертировать единицы измерения для различных целей. Независимо от того, создаете ли..

OpenSergo и ShardingSphere от Alibaba Cloud выпускают стандарт управления базами данных для микросервисов…

Фон Недавно компании Alibaba Cloud OpenSergo и ShardingSphere совместно выпустили стандарт управления базами данных для микросервисов. Объединив концепции Database Plus и Database Mesh..

Многопоточность и Executor Framework в Java

Многопоточность и Executor Framework в Java Зачем вообще нужна многопоточность? Потому что современные приложения постоянно создают сложные проблемы с аппаратным обеспечением в..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Computer Science Cybersecurity Javascript Development Javascript Tips Typescript Tech Development Learning Data Angular Algorithms Productivity ChatGPT Golang CSS Neural Networks Developer NLP Reactjs Reinforcement Learning Startup Computer Vision Vuejs