Спрос на квалифицированных специалистов по обработке данных растет. Эта книга знакомит с концепциями и навыками, которые помогут справиться с реальными задачами анализа данных. Он охватывает концепции вероятности, статистического вывода, линейной регрессии и машинного обучения. Поможет вам развить такие навыки, как программирование на R, обработка данных с помощью dplyr, визуализация данных с помощью ggplot2, построение алгоритмов с помощью Caret, организация файлов с помощью оболочки UNIX/Linux, контроль версий с помощью Git и GitHub, а также воспроизводимая подготовка документов с помощью Knitr и R markdown.
Книга разделена на шесть частей: R, визуализация данных, обработка данных, статистика с R, машинное обучение и инструменты повышения производительности. Каждая часть состоит из нескольких глав, предназначенных для представления в виде одной лекции, и включает в себя десятки упражнений, распределенных по главам.