Что такое интервальный ряд в статистике. Порядок построения интервального ряда распределения

Лабораторная работа №1. Первичная обработка статистических данных

Построение рядов распределения

Упорядоченное распределение единиц совокупности на группы по какому-либо одному признаку называется рядом распределения . При этом признак может быть как количественным, тогда ряд называется вариационным , так и качественным, тогда ряд называют атрибутивным . Так, например, население города может быть распределено по возрастным группам в вариационный ряд, или по профессиональной принадлежности в атрибутивный ряд (конечно, можно предложить еще множество качественных и количественных признаков для построения рядов распределения, выбор признака определяется задачей статистического исследования).

Любой ряд распределения характеризуется двумя элементами:

- варианта (х i ) – это отдельные значения признака единиц выборочной совокупности. Для вариационного ряда варианта принимает числовые значения, для атрибутивного – качественные (например, х=«государственный служащий»);

- частота (n i ) – число, показывающее, сколько раз встречается то или иное значение признака. Если частота выражена относительным числом (т.е. долей элементов совокупности, соответствующих данному значению варианты, в общем объеме совокупности), то она называется относительной частотой или частостью .

Вариационный ряд может быть:

- дискретным , когда изучаемый признак характеризуется определенным числом (как правило целым).

- интервальным , когда определены границы «от» и «до» для непрерывно варьируемого признака. Интервальный ряд также строят если множество значений дискретно варьируемого признака велико.

Интервальный ряд может строиться как с интервалами равной длины (равноинтервальный ряд) так и с неодинаковыми интервалами, если это диктуется условиями статистического исследования. Например, может рассматриваться ряд распределения доходов населения со следующими интервалами: <5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



где k – число интервалов, n – объем выборки. (Конечно, формула обычно дает число дробное, а в качестве числа интервалов выбирается ближайшее целое к полученному число.) Длина интервала в таком случае определяется по формуле

.

Графически вариационные ряды могут быть представлены в виде гистограммы (над каждым интервалом интервального ряда выстраивается «столбик» высоты, соответствующей частоте в этом интервале), полигона распределения (ломаная линия, соединяющая точки (х i ;n i ) либо кумуляты (строится по накопленным частотам, т.е. для каждого значения признака берется частота появления в совокупности объектов со значением признака меньшим данного).

При работе в Excel для построения вариационных рядов могут быть использованы следующие функции:

СЧЁТ(массив данных ) – для определения объема выборки. Аргументом является диапазон ячеек, в котором находятся выборочные данные.

СЧЁТЕСЛИ(диапазон; критерий ) – может быть использована для построения атрибутивного или вариационного ряда. Аргументами являются диапазон массива выборочных значений признака и критерий – числовое или текстовое значение признака или номер ячейки, в которой оно находится. Результатом является частота появления этого значения в выборке.

ЧАСТОТА(массив данных; массив интервалов ) – для построение вариационного ряда. Аргументами являются диапазон массива выборочных данных и столбец интервалов. Если требуется построить дискретный ряд, то здесь указываются значения варианты, если интервальный – то верхние границы интервалов (их еще называют «карманами»). Поскольку результатом является столбец частот, введение функции следует завершить нажатием сочетания клавиш CTRL+SHIFT+ENTER. Заметим, что задавая массив интервалов при введении функции, последнее значение в нем можно и не указывать – в соответствующий «карман» будут помещены все значения, не попавшие в предыдущие «карманы». Иногда это помогает избежать ошибки, состоящей в том, что наибольшее выборочное значение не помещается автоматически в последний «карман»

Кроме того, для сложных группировок (по нескольким признакам) используют инструмент «сводные таблицы». Для построения атрибутивных и вариационных рядов их тоже можно использовать, но это излишне усложняет задачу. Также для построения вариационного ряда и гистограммы существует процедура «гистограмма» из надстройки «Пакет анализа» (чтобы использовать надстройки в Excel, их нужно сначала загрузить, по умолчанию они не устанавливаются)

Проиллюстрируем процесс первичной обработки данных на следующих примерах.

Пример 1.1 . имеются данные о количественном составе 60 семей.

Построить вариационный ряд и полигон распределения

Решение .

Откроем таблицы Excel. Введем массив данных в диапазон А1:L5. Если Вы изучаете документ в электронной форме (в формате Word, например), для этого достаточно выделить таблицу с данными и скопировать ее в буфер, затем выделить ячейку А1 и вставить данные – они автоматически займут подходящий диапазон. Подсчитаем объем выборки n – число выборочных данных, для этого в ячейку В7 введем формулу =СЧЁТ(А1:L5). Заметим, что для того, чтобы в формулу ввести нужный диапазон, необязательно вводить его обозначение с клавиатуры, достаточно его выделить. Определим минимальное и максимальное значение в выборке, введя в ячейку В8 формулу =МИН(А1:L5), и в ячейку В9: =МАКС(А1:L5).

Рис.1.1 Пример 1. Первичная обработка статистических данных в таблицах Excel

Далее, подготовим таблицу для построения вариационного ряда, введя названия для столбца интервалов (значений варианты) и столбца частот. В столбец интервалов введем значения признака от минимального (1) до максимального (6), заняв диапазон В12:В17. Выделим столбец частот, введем формулу =ЧАСТОТА(А1:L5;В12:В17) и нажмем сочетание клавиш CTRL+SHIFT+ENTER

Рис.1.2 Пример 1. Построение вариационного ряда

Для контроля вычислим сумму частот при помощи функции СУММ (значок функции S в группе «Редактирование» на вкладке «Главная»), вычисленная сумма должна совпасть с ранее вычисленным объемом выборки в ячейке В7.

Теперь построим полигон: выделив полученный диапазон частот, выберем команду «График» на вкладке «Вставка». По умолчанию значениями на горизонтальной оси будут порядковые числа - в нашем случае от 1 до 6, что совпадает со значениями варианты (номерами тарифных разрядов).

Название ряда диаграммы «ряд 1» можно либо изменить, воспользовавшись той же опцией «выбрать данные» вкладки «Конструктор», либо просто удалить.

Рис.1.3. Пример 1. Построение полигона частот

Пример 1.2 . Имеются данные о выбросах загрязняющих веществ из 50 источников:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Составить равноинтервальный ряд, построить гистограмму

Решение

Внесем массив данных в лист Excel, он займет диапазон А1:J5 Как и в предыдущей задаче, определим объем выборки n, минимальное и максимальное значения в выборке. Поскольку теперь требуется не дискретный, а интервальный ряд, и число интервалов в задаче не задано, вычислим число интервалов k по формуле Стерджесса. Для этого в ячейку В10 введем формулу =1+3,322*LOG10(B7).

Рис.1.4. Пример 2. Построение равноинтервального ряда

Полученное значение не является целым, оно равно примерно 6,64. Поскольку при k=7 длина интервалов будет выражаться целым числом (в отличие от случая k=6) выберем k=7, введя это значение в ячейку С10. Длину интервала d вычислим в ячейке В11, введя формулу =(В9-В8)/С10.

Зададим массив интервалов, указывая для каждого из 7 интервалов верхнюю границу. Для этого в ячейке Е8 вычислим верхнюю границу первого интервала, введя формулу =B8+B11; в ячейке Е9 верхнюю границу второго интервала, введя формулу =E8+B11. Для вычисления оставшихся значений верхних границ интервалов зафиксируем номер ячейки В11 в введенной формуле при помощи знака $, так что формула в ячейке Е9 примет вид =E8+B$11, и скопируем содержимое ячейки Е9 в ячейки Е10-Е14. Последнее полученное значение равно вычисленному ранее в ячейке В9 максимальному значению в выборке.

Рис.1.5. Пример 2. Построение равноинтервального ряда


Теперь заполним массив «карманов» при помощи функции ЧАСТОТА, как это было сделано в примере 1.

Рис.1.6. Пример 2. Построение равноинтервального ряда

По полученному вариационном ряду построим гистограмму: выделим столбец частот и выберем на вкладке «Вставка» «Гистограмма». Получив гистограмму, изменим в ней подписи горизонтальной оси на значения в диапазоне интервалов, для этого выберем опцию «Выбрать данные» вкладки «Конструктор». В появившемся окне выберем команду «Изменить» для раздела «Подписи горизонтальной оси» и введем диапазон значений варианты, выделив его «мышью».

Рис.1.7. Пример 2. Построение гистограммы

Рис.1.8. Пример 2. Построение гистограммы

2. Понятие рядов распределения. Дискретные и интервальные ряды распределения

Рядами распределения называются группировки особого вида, при которых по каждому признаку, группе признаков или классу признаков известны численность единиц в группе либо удельный вес этой численности в общем итоге. Т.е. ряд распределения – упорядоченная совокупность значений признака, расположенных в порядке возрастания или убывания с соответствующими им весами. Ряды распределения могут быть построены или по количественному, или по атрибутивному признаку.

Ряды распределения, построенные по количественному признаку, называются вариационными рядами. Они бывают дискретные и интервальные . Ряд распределения может быть построен по не прерывно варьирующему признаку (когда признак может принимать любые значения в рамках какого-либо интервала) и по дискретно варьирующему признаку (принимает строго определенные целочисленные значения).

Дискретным вариационным рядом распределения называется ранжированная совокупность вариантов с соответствующими им частотами или частностями. Варианты дискретного ряда – это дискретно прерывно изменяющиеся значения признак, обычно это результат подсчета.

Дискретные

вариационные ряды строят обычно в том случае, если значения изучаемого признака могут отличаться друг от друга не менее чем на некоторую конечную величину. В дискретных рядах задаются точечные значения признака. Пример : Распределение мужских костюмов, реализованных магазинами за месяц по размерам.

Интервальным

вариационным рядомназывается упорядоченная совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частостями попаданий в каждый из них значений величины. Интервальные ряды предназначены для анализа распределения непрерывно изменяющегося признака, значение которого чаще всего регистрируется путем измерения или взвешивания. Варианты такого ряда – это группировка.

Пример : Распределение покупок в продуктовом магазине по сумме.

Если в дискретных вариационных рядах частотная характеристика относится непосредственно к варианту ряда, то в интервальных к группе вариантов.

Ряды распределения удобно анализировать при помощи их графического изображения, позволяющего судить и о форме распределения, о закономерностях. Дискретный ряд изображается на графике в виде ломаной линии – полигона распределения . Для его построения в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладываются ранжированные (упорядоченные) значения варьирующего признака, а по оси ординат наносится шкала для выражения частот.

Интервальные ряды изображаются в виде гистограмм распределения (то есть столбиков диаграмм).

При построении гистограммы на оси абсцисс откладываются величины интервалов, а частоты изображаются прямоугольниками, построенными на соответствующих интервалах. Высота столбиков в случае равных интервалов должна быть пропорциональна частотам.

Любая гистограмма может быть преобразована в полигон распределений, для этого необходимо соединить между собой отрезками прямой вершины ее прямоугольников.

2. Индексный метод анализа влияния средней выработки и среднесписочной численности на изменения объема продукции

Индексный метод применяется для анализа динамики и сравнения обобщающих показателей, а так же факторов, влияющих на изменение уровней этих показателей. С помощью индексов можно выявить влияние средней выработки и среднесписочной численности на изменения объема продукции. Эта задача решается путем построения системы аналитических индексов.

Индекс объема продукции с индексом среднесписочной численности работающих и индексом средней выработки связан таким же образом, как объем производства (Q) связан с выработкой (w) и численностью (r) .

Можно заключить, что объем продукции будет равняться произведению средней выработки и среднесписочной численности:

Q = w·r, где Q – объем продукции,

w - средняя выработка,

r – среднесписочная численность.

Как видно, речь идет о взаимосвязи явлений в статике: произведение двух факторов дает общий объем результативного явления. Очевидно также, что эта связь функциональная, следовательно, динамика этой связи изучается с помощью индексов. Для приведенного примера это следующая система:

J w × J r = J wr .

Например, индекс объема продукции Jwr, как индекс результативного явления, можно разложить на два индекса-фактора: индекс средней выработки (Jw), и индекс среднесписочной численности (Jr):

Индекс Индекс Индекс

объема средней среднесписочной

продукции выработки численности

где J w - индекс производительности труда, рассчитываемый по формуле Ласпейреса;

J r - индекс численности работающих, рассчитываемый по формуле Пааше.

Индексные системы используются для определения влияния отдельных факторов на формирование уровня результативного показателя, позволяют по 2-м известным значениям индексов определить значение неизвестного.

На базе приведенной системы индексов можно найти и абсолютный прирост объема продукции, разложенный на влияние факторов.

1. Общий прирост объема продукции:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Прирост за счет действия показателя средней выработки:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Прирост за счет действия показателя среднесписочной численности:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Пример. Известны следующие данные

Мы можем определить, как изменился объем продукции в относительном и абсолютном выражении и как отдельные факторы повлияли на это изменение.

Объем продукции составил:

в базисном периоде

w 0 * r 0 = 2000 * 90 = 180000,

а в отчетном

w 1 * r 1 = 2100 * 100 = 210000.

Следовательно, объем продукции увеличился на 30000 или на 1,16%.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

или (210000:180000)*100%=1,16%.

Данное изменение объема продукции было обусловлено:

1) увеличением среднесписочной численности на 10 человек или на 111,1%

r 1 /r 0 = 100 / 90 = 1,11 или 111,1%.

В абсолютном выражении за счет этого фактора объем продукции увеличился на 20000:

w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.

2) увеличением средней выработки на 105% или на 10000:

w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1,05 или 105%.

В абсолютном выражении прирост составляет:

w 1 r 1 – w 0 r 1 = (w 1 -w 0)r 1 = (2100-2000)*100 = 10000.

Отсюда, совместное влияние факторов составило:

1. В абсолютном выражении

10000 + 20000 = 30000

2. В относительном выражении

1,11 * 1,05 = 1,16 (116%)

Следовательно, прирост составляет 1,16%. Оба результата были получены ранее.

Слово «index» в переводе означает указатель, показатель. В статистике индекс трактуется как относительный показатель, характеризующий изменение явления во времени, пространстве или по сравнению с планом. Поскольку индекс относительная величина, наименования индексов созвучны с наименованием относительных величин.

В тех случаях, когда мы анализируем изменение во времени сравниваемой продукции, мы можем поставить вопрос о том, как в различных условиях (на различных участках) меняются составляющие индекса (цена, физический объем, структура производства или реализации отдельных видов продукции). В связи с этим строятся индексы постоянного состава, переменного состава, структурных сдвигов.

Индекс постоянного (фиксированного) состава – это индекс, который характеризует динамику средней величины при одной и той же фиксированной структуре совокупности.

Принцип построения индекса постоянного состава – элиминировать влияние изменений в структуре весов на индексируемую величину путем расчета средневзвешенного уровня индексируемого показателя с одними и теми же весами.

Индекс постоянного состава по своей форме тождественен агрегатному индексу. Агрегатная форма является наиболее распространенной.

Индекс постоянного состава исчисляется с весами, зафиксированными на уровне одного какого-либо периода, и показывает изменение только индексируемой величины. Индекс постоянного состава элиминирует влияние изменений в структуре весов на индексируемую величину путем расчета средневзвешенного уровня индексируемого показателя с одними и теми же весами. В индексах постоянного состава сопоставляются показатели, рассчитанные на базе неизменной структуры явлений.

Что такое группировка статистических данных, и как она связана с рядами распределения, было рассмотрено этой лекции, там же можно узнать, о том что такое дискретный и вариационный ряд распределения.

Ряды распределения одна из разновидностей статистических рядов (кроме них в статистике используются ряды динамики), используются для анализа данных о явлениях общественной жизни. Построение вариационных рядов вполне посильная задача для каждого. Однако есть правила, которые необходимо помнить.

Как построить дискретный вариационный ряд распределения

Пример 1. Имеются данные о количестве детей в 20 обследованных семьях. Построить дискретный вариационный ряд распределения семей по числу детей .

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Решение:

  1. Начнем с макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по числу детей – значит наша варианта это число детей.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения семей – значит наша частота это число семей с соответствующим количеством детей.

  1. Теперь из исходных данных выберем те значения, которые встречаются хотя бы один раз. В нашем случае это

И расставим эти данные в первой колонке нашей таблицы в логическом порядке, в данном случае возрастающем от 0 до 4. Получаем

И в заключение подсчитаем, сколько же раз встречается каждое значение варианты.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

В результате получаем законченную табличку или требуемый ряд распределения семей по количеству детей.

Задание . Имеются данные о тарифных разрядах 30 рабочих предприятия. Построить дискретный вариационный ряд распределения рабочих по тарифному разряду. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Как построить интервальный вариационный ряд распределения

Построим интервальный ряд распределения, и посмотрим чем же его построение отличается от дискретного ряда.

Пример 2. Имеются данные о величине полученной прибыли 16 предприятий, млн. руб. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Построить интервальный вариационный ряд распределения предприятий по объему прибыли, выделив 3 группы с равными интервалами.

Общий принцип построения ряда, конечно же, сохраниться, те же две колонки, те же варианта и частота, но в здесь варианта будет располагаться в интервале и подсчет частот будет вестись иначе.

Решение:

  1. Начнем аналогично предыдущей задачи с построения макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по объему прибыли – значит, наша варианта это объем полученной прибыли.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения предприятий – значит наша частота это число предприятий с соответствующей прибылью, в данном случае попадающие в интервал.

В итоге макет нашей таблицы будет выглядеть так:

где i – величина или длинна интервала,

Хmax и Xmin – максимальное и минимальное значение признака,

n – требуемое число групп по условию задачи.

Рассчитаем величину интервала для нашего примера. Для этого среди исходных данных найдем самое большое и самое маленькое

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 – максимальное значение 118 млн. руб., и минимальное 9 млн. руб. Проведем расчет по формуле.

В расчете получили число 36,(3) три в периоде, в таких ситуациях величину интервала нужно округлить до большего, чтобы после подсчетов не потерялось максимальное данное, именно поэтому в расчете величина интервала 36,4 млн. руб.

  1. Теперь построим интервалы – наши варианты в данной задаче. Первый интервал начинают строить от минимального значения к нему добавляется величина интервала и получается верхняя граница первого интервала. Затем верхняя граница первого интервала становится нижней границей второго интервала, к ней добавляется величина интервала и получается второй интервал. И так далее столько раз сколько требуется построить интервалов по условию.

Обратим внимание если бы мы не округлили величину интервала до 36,4, а оставили бы ее 36,3, то последнее значение у нас бы получилось 117,9. Именно для того чтобы не было потери данных необходимо округлять величину интервала до большего значения.

  1. Проведем подсчет количества предприятий попавших в каждый конкретный интервал. При обработке данных необходимо помнить, что верхнее значение интервала в данном интервале не учитывается (не включается в этот интервал), а учитывается в следующем интервале (нижняя граница интервала включается в данный интервал, а верхняя не включается), за исключением последнего интервала.

При проведении обработки данных лучше всего отобранные данные обозначить условными значками или цветом, для упрощения обработки.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Первый интервал обозначим желтым цветом – и определим сколько данных попадает в интервал от 9 до 45,4, при этом данное 45,4 будет учитываться во втором интервале (при условии что оно есть в данных) – в итоге получаем 7 предприятий в первом интервале. И так дальше по всем интервалам.

  1. (дополнительное действие ) Проведем подсчет общего объема прибыли полученного предприятиями по каждому интервалу и в целом. Для этого сложим данные отмеченные разными цветами и получим суммарное значение прибыли.

По первому интервалу — 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 млн. руб.

По второму интервалу — 48 + 57 + 48 + 56 + 63 = 272 млн. руб.

По третьему интервалу — 118 + 87 + 98 + 88 = 391 млн. руб.

Задание . Имеются данные о величине вклада в банке 30 вкладчиков, тыс. руб. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Построить интервальный вариационный ряд распределения вкладчиков, по размеру вклада выделив 4 группы с равными интервалами. По каждой группе подсчитать общий размер вкладов.

Результаты группировки собранных статистических данных, как правило, представляются в виде рядов распределения. Ряд распределения - это упорядоченное распределение единиц совокупности на группы по изучаемому признаку.

Ряды распределения делятся на атрибутивные и вариационные, в зависимости от признака, положенного в основу группировки. Если признак качественный, то ряд распределения называется атрибутивным. Примером атрибутивного ряда является распределение предприятий и организаций по формам собственности (см. табл. 3.1).

Если признак, по которому строится ряд распределения, количественный, то ряд называется вариационным.

Вариационный ряд распределения всегда состоит из двух частей: вариант и соответствующих им частот (или частостей). Вариантой называется значение , которое может принимать признак у единиц совокупности, частотой - количество единиц наблюдения, обладающих данным значением признака. Сумма частот всегда равна объему совокупности. Иногда вместо частот рассчитывают частости - это частоты, выраженные либо в долях единицы (тогда сумма всех частостей равна 1), либо в процентах к объему совокупности (сумма частостей будет равна 100%).

Вариационные ряды бывают дискретными и интервальными. У дискретных рядов (табл. 3.7) варианты выражены конкретными числами, чаще всего целыми.

Таблица 3.8. Распределение работников по времени работы в страховой компании
Время работы в компании, полных лет (варианты) Число работающих
Человек (частоты) в % к итогу (частости)
до года 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Итого 129 100,0

В интервальных рядах (см. табл. 3.2) значения показателя задаются в виде интервалов. Интервалы имеют две границы: нижнюю и верхнюю. Интервалы могут быть открытыми и закрытыми. У открытых нет одной из границ, так, в табл. 3.2 у первого интервала нет нижней границы, а у последнего - верхней. При построении интервального ряда в зависимости от характера разброса значений признака используют как равные интервальные промежутки, так и неравные (в табл. 3.2 представлен вариационный ряд с равными интервалами).

Если признак принимает ограниченное число значений, обычно не больше 10, строят дискретные ряды распределения. Если вариант больше, то дискретный ряд теряет свою наглядность; в этом случае целесообразно использовать интервальную форму вариационного ряда. При непрерывной вариации признака, когда его значения в определенных пределах отличаются друг от друга на сколь угодно малую величину, также строят интервальный ряд распределения.

3.3.1. Построение дискретных вариационных рядов

Рассмотрим методику построения дискретных вариационных рядов на примере.

Пример 3.2. Имеются следующие данные о количественном составе 60 семей:

Для того чтобы получить представление о распределении семей по числу их членов, следует построить вариационный ряд. Поскольку признак принимает ограниченное число целых значений строим дискретный вариационный ряд. Для этого сначала рекомендуется выписать все значения признака (число членов в семье) в порядке возрастания (т.е. провести ранжирование статистических данных):

Затем необходимо подсчитать число семей, имеющих одинаковый состав. Число членов семей (значение варьирующего признака) - это варианты (будем их обозначать через х), число семей, имеющих одинаковый состав, - это частоты (будем их обозначать через f). Результаты группировки представим в виде следующего дискретного вариационного ряда распределения:

Таблица 3.11.
Число членов семьи (х) Число семей (y)
1 8
2 14
3 20
4 9
5 5
6 4
Итого 60

3.3.2. Построение интервальных вариационных рядов

Покажем методику построения интервальных вариационных рядов распределения на следующем примере.

Пример 3.3. В результате статистического наблюдения получены следующие данные о средней величине процентной ставки 50 коммерческих банков (%):

Таблица 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Как видим, просматривать такой массив данных крайне неудобно, кроме того, не видно закономерностей изменения показателя. Построим интервальный ряд распределения.

  1. Определим число интервалов.

    Число интервалов на практике часто задается самим исследователем исходя из задач каждого конкретного наблюдения. Вместе с тем его можно вычислить и математически по формуле Стерджесса

    n = 1 + 3,322lgN,

    где n - число интервалов;

    N - объем совокупности (число единиц наблюдения).

    Для нашего примера получим: n = 1 + 3,322lgN = 1 + 3,322lg50 = 6,6 " 7.

  2. Определим величину интервалов (i) по формуле

    где х max - максимальное значение признака;

    х min - минимальное значение признака.

    Для нашего примера

    Интервалы вариационного ряда наглядны, если их границы имеют "круглые" значения, поэтому округлим величину интервала 1,9 до 2, а минимальное значение признака 12,3 до 12,0.

  3. Определим границы интервалов.

    Интервалы, как правило, записывают таким образом, чтобы верхняя граница одного интервала являлась одновременно нижней границей следующего интервала. Так, для нашего примера получим: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.

    Подобная запись означает, что признак непрерывный. Если же варианты признака принимают строго определенные значения, например, только целые, но их количество слишком велико для построения дискретного ряда, то можно создать интервальный ряд, где нижняя граница интервала не будет совпадать с верхней границей следующего интервала (это будет означать, что признак дискретный). Например, в распределении работников предприятия по возрасту можно создать следующие интервальные группы лет: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 и более.

    Кроме того, в нашем примере мы могли бы сделать первый и последний интервалы открытыми, т.д. записать: до 14,0; 24,0 и выше.

  4. По исходным данным построим ранжированный ряд. Для этого запишем в порядке возрастания значения, которые принимает признак. Результаты представим в таблице: Таблица 3.13. Ранжированный ряд величин процентной ставки коммерческих банков
    Ставка банка % (варианты)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Подсчитаем частоты.

    При подсчете частот может возникнуть ситуация, когда значение признака попадет на границу какого-либо интервала. В таком случае можно руководствоваться правилом: данная единица приписывается к тому интервалу, для которого ее значение является верхней границей. Так, значение 16,0 в нашем примере будет относиться ко второму интервалу.

Результаты группировки, полученные в нашем примере, оформим в таблице.

Таблица 3.14. Распределение коммерческих банков по величине кредитной ставки
Краткая ставка, % Количество банков, ед. (частоты) Накопленные частоты
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Итого 50 -

В последней графе таблицы представлены накопленные частоты, которые получают путем последовательного суммирования частот, начиная с первой (например, для первого интервала - 5, для второго интервала 5 + 9 = 14, для третьего интервала 5 + 9 + 4 = 18 и т.д.). Накопленная частота, например, 33, показывает, что у 33 банков кредитная ставка не превышает 20% (верхняя граница соответствующего интервала).

В процессе группировки данных при построении вариационных рядов иногда используются неравные интервалы. Это относится к тем случаям, когда значения признака подчиняются правилу арифметической или геометрической прогрессии или когда применение формулы Стерджесса приводит к появлению "пустых" интервальных групп, не содержащих ни одной единицы наблюдения. Тогда границы интервалов задаются произвольно самим исследователем исходя из здравого смысла и целей обследования либо по формулам. Так, для данных, изменяющихся в арифметической прогрессии, величина интервалов вычисляется следующим образом.

Предмет математической статистики. Генеральная и выборочная совокупность.

— Математическая статистика – раздел математики, который изучает способы отбора, группировки, систематизации и анализа статистических данных, для получения научно обоснованных выводов.

— Статистические данные – числовые значения рассматриваемого признака изучаемых объектов, полученные как результат случайного эксперимента.

Математическая статистика тесно связана с теорией вероятностей, но в отличие от теории вероятностей, математическая модель эксперимента неизвестна. В математической статистике по статистическим данным необходимо установить неизвестное распределение вероятностей или объективно оценить параметры распределения.

Методы математической статистики позволяют строить оптимальные математические модели массовых, повторяющихся явлений. Связующим звеном между теорией вероятностей и математической статистикой являются предельные теоремы теории вероятностей.

В настоящее время статистические методы используются практически во всех отраслях народного хозяйства.

— Генеральная совокупность – статистические данные всех изучаемых объектов (иногда – сами объекты). Часто генеральную совокупность рассматривают как СВ Х.

— Выборка (выборочная совокупность) – статистические данные объектов, выбранных случайно из генеральной совокупности.

— Объём выборки n (объём генеральной совокупности N ) – количество объектов, выбранных для изучения из генеральной совокупности (количество объектов в генеральной совокупности).

Примеры .

а) Статистическими данными могут быть: рост студентов; количество глаголов (или других частей речи) в отрывке текста определённой длины; средний балл аттестата; уровень интеллекта; число ошибок, допущенных диспетчером и т. п.

б) Генеральной совокупностью может быть: рост всех людей, разряды всех рабочих завода, частота употребления определённой части речи во всех произведениях изучаемого автора, средний балл аттестата всех выпускников и т. п.



в)Выборкой может быть: – рост 20 студентов, количество глаголов в выбранных произвольно 50 однородных отрывках текста длиной 500 словоупотреблений, средний балл аттестата 100 выпускников, выбранных случайно из школ города и т.п.

Выборка называется репрезентативной, если она верно отражает свойство генеральной совокупности. Репрезентативность выборки достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отобранными.

Для того чтобы выборка была репрезентативной применяют различные способы отбора объектов изучения.

Виды отбора : простой, механический, серийный, типический.

Простой . Произвольно отбираются элементы из всей генеральной совокупности.

Механический отбор . Выбирают каждый 10 (25, 30 и т.п.) объект из генеральной совокупности.

Серийный . Проводится исследование в каждой серии (например, из текста выбирают 10 отрывков по 500 словоупотреблений- 10 серий).

Типический . Генеральную совокупность по определённому признаку разделяют на типические группы. Количество серий, извлекаемых из каждой такой группы, определяется удельным весом этой группы в генеральной совокупности.

Статистическое распределение выборки и его графическое изображение.

Пусть изучается СВ Х (генеральная совокупность) относительно некоторого признака. Проводится ряд независимых испытаний. В результате опытов СВ Х принимает некоторые значения. Совокупность полученных значений представляет собой выборку, а сами значения являются статистическими данными.

Первоначально проводят ранжирование выборки - расположение статистических данных выборки по неубыванию. Получаем вариационный ряд.

Вариационный ряд - проранжированная выборка.

Дискретный статистический ряд

Если генеральная совокупность является дискретной СВ, строится дискретный статистический ряд (статистическое распределение).

Пусть значение появилось в выборке раз,

Разa , …, - раз.

I-тая варианта выборки; - частота i-той варианты Частота показывает, сколько раз данная варианта появилась в выборке.

- относительная частота i-той варианты

(показывает какую часть выборки составляет ).

Статистическое распределение – это соответствие между вариантами выборки и их частотами или относительными частотами.

Для ДСВ статистическое распределение можно представить в виде таблицы – статистического ряда частот или статистического ряда относительных частот.

Статистический ряд частот Статистический ряд

относительных частот

........
........
........
........

Для наглядности представления статистического распределения выборки строят «графики» статистического распределения: полигон и гистограмму.

Полигон частот (относительных частот) – графическое изображение дискретного статистического ряда - ломаная линия, последовательно соединяющая точки [ для полигона относительных частот].

Пример. Исследователя интересуют знания абитуриентов по математике. Выбирают 10 абитуриентов и записывают их школьные оценки по этому предмету. Получена следующая выборка: 5;4;4;3;2;5;4;3;4;5.

а) Представить выборку в виде вариационного ряда;

б) построить статистический ряд частот и относительных частот;

в) изобразить полигон относительных частот для полученного ряда.

а) Проведем ранжирование выборки, т.е. расположим члены выборки по неубыванию. Получаем вариационный ряд: 2; 3; 3; 4; 4; 4; 4; 5; 5;5.

б) Построим статистический ряд частот (соответствие между вариантами выборки и их частотами) и статистический ряд относительных частот (соответствие между вариантами выборки и их относительными частотами)

0,1 0,2 0,4 0,3

Статистический ряд частот статистический ряд отн. частот

1+2+4+3=10=n 0,1+0,2+0,4+0,3=1.

Полигон относительных частот.