Невероятно простая оптимизация кода в R: Часть 1

Не ограничиваясь read.csv ()

Моя последняя история вызвала большой ажиотаж в моем университете, поскольку она касалась того, как я, будучи студентом университета, внес свой вклад в борьбу с глобальной пандемией. Многие из моих друзей были заинтригованы конкретной строкой кода в этой истории. Эта строка была:

test_df <- readRDS("input_data/cleaned_alumni_2.rds")

Даже не имея представления о том, что такое readRDS, я думаю, вам будет ясно, что здесь мы читаем файл данных с именем «cleaned_alumni_2» со странным « .rds » из папки с именем« input_data ».

Если вы сами пришли к вышеуказанному выводу, примите наши поздравления, это абсолютно правильно. Итак, «rds», как и «csv», - это формат файла. Что делает лучше, так это то, что это собственный тип данных R (подробнее об этом позже). Поскольку это собственный тип данных, разве это не интуитивно понятно, что загрузка формата данных «rds» в ваш сценарий / модель / панель управления R будет быстрее, чем загрузка общего «csv ” файл формата данных !!!

Разве это не возбуждает? Другой формат файла, родной для R, более быстрое время загрузки, не правда ли?

Теперь ваш следующий логический вопрос, скорее всего, будет заключаться в следующем: что мне делать, если у меня есть только мои данные в виде файла «csv». Не волнуйтесь, я покажу вам, как преобразовать это в формат «rds» всего в двух строчках кода.

original_dataset <- read.csv("filename.csv")
saveRDS(original_dataset, "new_filename.rds")

Ну вот и все. Первым параметром функции «saveRDS ()» был набор данных, который вы хотите сохранить как файл «rds», а вторым параметром было новое имя файла. Гладкий; плавный. Как теперь прочитать эти данные?

converted_dataset <- readRDS("new_filename.rds")

Итак, это конец. Таким образом вы заменяете функцию «read.csv ()» на более быструю функцию «readRDS ()».

Бенчмаркинг:

Что ж, не помешало бы проверить наши заявления об ускорении, не так ли? Итак, поехали !!

Что ж, результаты, полученные ниже, просто потрясающие. Это ускорение почти в 7,5 раз. Это огромное преимущество для изменения одной строчки кода, не так ли 😉.

Вы также можете попробовать запустить описанный выше тест на своих системах, используя имеющиеся у вас файлы «csv». Если файлы «csv» недоступны, просто создайте образец набора данных и используйте функцию write.csv () для его создания. В качестве бонуса просто проверьте размер вашего «файла rds» и сравните его с «файлом csv» (Подсказка: файлы rds тоже сжимаются…: D)

Теперь давайте визуально проверим разницу в двух функциях:

График ниже наглядно представляет то, что мы наблюдали ранее в наших тестах.

Заключение:

Размер сжатого файла и более быстрое время загрузки «rds» обеспечивают огромные преимущества, когда вашему сценарию приходится загружать набор данных снова и снова (например, например, развернутую модель машинного обучения или приложение R Shiny). . Уменьшение размера данных означает, что вы используете меньше ресурсов на своей хостинговой платформе, что, опять же, неплохо.

Я изучаю информатику и сильно интересуюсь оптимизацией, и мы продолжим вместе изучать эту область 😃. Здесь я не коснулся различных других вариантов чтения / загрузки, предоставляемых некоторыми внешними библиотеками, потому что я обещал оптимизацию в одной строке. В будущих публикациях мы также рассмотрим эти пакеты.

Вы также могли купить мне кофе, чтобы поддержать мою работу.

Спасибо и удачи.

материалы по теме:

Новые материалы

Понимание трансферного обучения для медицинской визуализации

Трансферное обучение (также известное как предварительное обучение ImageNet) — это обычная практика глубокого обучения, когда предварительно обученная сеть точно настраивается на новый набор..

Как работает алгоритм Соловая-Китаева, часть 4 (Машинное обучение)

Замечание о количественной форме теоремы Соловея-Китаева (arXiv) Авторы. Б. Дамлен», Б. Режим А.В. Аннотация: Проблема поиска хороших аппроксимаций произвольных 1-кубитных вентилей..

Разница между Python и R

Python и R – популярные языки программирования, используемые для анализа данных, статистического моделирования и машинного обучения, но у них есть некоторые ключевые различия в принципах..

7 идей проектов НЛП, которые помогут улучшить ваши навыки НЛП

Обработка естественного языка (НЛП) стала преобразующей силой, которая меняет то, как мы взаимодействуем с информацией и общаемся с машинами по всему миру. НЛП — это область на стыке..

NoSql для хранения данных

Введение В области больших данных не секрет, что существует множество модных и/или шумных слов, которые полезны только для увеличения вашей самопродажной способности неосведомленной..

На волне искусственного интеллекта: изучение «текущего» потенциала ликвидных нейронных сетей

Жидкие нейронные сети (LNN) — это новый тип искусственных нейронных сетей, которые разработаны так, чтобы быть более адаптируемыми и эффективными, чем традиционные нейронные сети. LNN вдохновлены..

Как использовать множественную v-модель в компоненте | ВУЭ 3

Возможно, вы уже знаете, как использовать v-model в компоненте. Однако в Vue 3 у вас есть возможность использовать несколько директив v-model . Если вы не знакомы с ним, позвольте мне..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Javascript Development Javascript Tips Cybersecurity Tech Data Development Learning Angular Algorithms ChatGPT Neural Networks Productivity Golang CSS NLP Developer Startup Vuejs Reactjs Reinforcement Learning Computer Vision