В предыдущих видеоуроках мы объясняли, как найти показатель в хранилище данных и загрузить его данные в R. Сейчас мы рассмотрим, как на основе таких данных строить простые гистограммы.
Весь процесс подробно показан в видеоролике ниже. Обратите внимание: в меню ролика доступны русские субтитры.
1. Для R существует множество пользовательских пакетов, с помощью которых можно создавать простые диаграммы. В нашем руководстве будет рассмотрен пакет ggplot2. Он должен быть установлен в вашей RStudio и включен в код:
install-packages(“ggplot2”, dependencies = TRUE)
Require(“ggplot2”)
2. В одном из предыдущих уроков мы объясняли, как загрузить через API (ИПП) данные показателя. Эти данные мы и будем использовать. Взгляните на данные в блоке «data_from_api» – он должен содержать данные показателя с идентификатором HFA_74. В метаданных будет указано, что код HFA_74 соответствует показателю «младенческая смертность на 1000 живорождений».
3. Сделайте копию набора данных и назовите его блоком «barchart», запустив следующий код:
barchart <- data_from_api
4. Обратите внимание, что в блоке приводятся данные за определенные годы (1970–2015) в разбивке по полу (девочки, мальчики, все) и по группам стран. Значения для групп стран – это средневзвешенные по численности населения субрегиональные показатели для определенных групп стран в регионе. Допустим, вы хотите получить данные за 2013 г. для всего населения и без средних значений. Для этого нужно установить 2013 г. в фильтре для данных, запустив следующий код. Он работает очень быстро.
barchart <- barchart [barchart$dimensions$YEAR == 2013,]
barchart <- barchart [barchart$dimensions$SEX == “ALL”,]
barchart <- barchart [barchart$dimensions$COUNTRY != “”2013,]
5. Обратите внимание, что в получившихся данных содержится именно нужная нам информация. На основе этих данных можно построить гистограмму, запустив следующий код:
dat <- data.frame(country = barchart$dimensions$COUNTRY,
values = as.numeric(barchart$value$display))
ggplot(data=dat, aes(x.country, y=values, fill=country)) +
geom_bar(stat=”identity”) +
ggtitle(“Infant deaths per 1000 live births”)
6. Диаграмма отображается в правом нижнем углу на вкладке Plots. На ней показана младенческая смертность на 1000 живорождений в странах Европейского региона ВОЗ за 2013 год. Видно, что максимальный показатель младенческой смертности составляет около 20 смертей на 1000 живорождений, а минимальный – около 2 смертей.
7. Используя функции пакета ggplot2, можно менять цвет столбцов и подписывать их. Можно также менять структуру диаграммы, сортируя лежащий в ее основе набор данных. Дополнительную информацию можно найти на сайте пакета ggplot2 -http://www.ggplot2.org/ и других интернет-ресурсах.
8. Вы можете преобразовать построенную диаграмму в изображение или файл формата PDF. Подобным образом можно загружать из API другие данные, фильтровать их и визуализировать, используя наиболее подходящие пакеты и типы диаграмм. Так вы сможете создавать скрипты для обращения к хранилищу данных и всегда иметь в своем распоряжении новейшие данные ЕРБ ВОЗ для статистического анализа.