Репетиторские услуги и помощь студентам!
Помощь в написании студенческих учебных работ любого уровня сложности

Тема: Методы построения многомерных группировок

Вид работы:

Курсовая работа (т) по теме: Методы построения многомерных группировок
Предмет:

Другое
Когда добавили:

21.03.2012 10:33:51
Тип файлов:

MS WORD
Проверка на вирусы:

Проверено - Антивирус Касперского

Другие экслюзивные материалы по теме

Полный текст:

Курсовая работа

по статистике:

«Методы построения многомерных группировок»

2004

Содержание.

Введение......................................................................................................................................... 3

1. Задачи и виды группировок..................................................................................................... 5

2. Техника выполнения группировок........................................................................................ 10

3. Статистические таблицы как результат группировок.......................................................... 16

4. Кластерный анализ как метод многомерных группировок................................................. 21

Заключение.................................................................................................................................. 28

Список использованных источников........................................................................................ 29

Введение.

Основой методологии статистической науки служит всеобщий метод познания — диалектический и исторический материализм. Это означает, что метод статистики базируется на законах и категориях материалистической диалектики, согласно которым общественные явления и процессы рассматриваются в развитии, взаимной связи и причинной обусловленности.

Знание законов и категорий материалистической диалектики, законов общественного развития — это и есть тот фундамент, с помощью которого можно понять и правильно истолковать явления, подлежащие статистическому исследованию, выбрать надлежащий инструмент, методологически правильный подход к их изучению.

Специфика и достоинство статистических методов заключаются в их комплексности, соответствии принципу системного научного исследования. Это обусловлено наряду с многообразием форм статистической закономерности еще и сложностью самого процесса статистического исследования, состоящего по меньшей мере из трех стадий:

1) статистическое наблюдение, включающее сбор и оценку качества первичных статистических данных;

2) сводку первичного статистического материала;

3) обобщение и анализ сведенного материала.

Прохождение каждой стадии исследования связано с использованием специфических методов, объясняемых содержанием выполняемой работы. На первой стадии в связи с необходимостью учета всего многообразия фактов и форм осуществления социально-экономических процессов, в соответствии с их массовым характером применяется метод массового статистического наблюдения, обеспечивающий всеобщность, полноту и представительность (репрезентативность) полученной первичной информации.

Сводка заключается в систематизации, обработке первичных данных, приведении их в определенный порядок, подсчете численности единиц совокупности и объема характеризующих их признаков и, что более характерно, — в разделении информации по признакам различия, т. е. группировке статистических данных, переходе от характеристики единичных фактов к характеристике данных, объединенных в группы. Методы группировки различаются в зависимости от задач исследования и качественного состояния первичного материала.

Задачи третьего этапа статистического исследования — обобщение и анализ данных, т. е. выявление характерных свойств и закономерностей социально-экономических явлений, — решаются посредством применения весьма широкого и разнообразного круга статистических методов.

Ведущую роль в процессе обобщения и разработки статистических данных занимает расчет обобщающих показателей уровня социально-экономических явлений: абсолютных, относительных и средних, отличающихся еще большим многообразием форм в сравнении с теми статистическими методами, которые применяются на предшествующих этапах исследования.

Многомерные группировки являются востребованными в экономике и математической науке. С их помощью проводятся экономические исследования в России. Компьютеризация вычислений позволяет проводить исследования и анализ наиболее эффективно. В связи с этим, выбранная тема курсовой работы является весьма актуальной.

1. Задачи и виды группировок.

Огромное значение и роль группировок в статистическом исследовании вытекает из характера объекта статистики, его специфики. Явления общественной жизни, изучаемые статистикой, отличаются многообразием форм и стадий развития, они состоят из существенно различающихся частей, обладающих многими специфическими свойствами.

Изучая количественную сторону массовых общественных явлений в неразрывной связи с их качественными особенностями, статистика стремится показать совокупность явлений в дифференциации, в многообразии их типов, рассмотреть взаимосвязи и отношения между последними. С помощью метода группировок решаются сложные задачи статистического анализа. Учитывая, что необходимость группировки обусловливается прежде всего наличием качественных различий между изучаемыми явлениями, первую задачу группировок можно сформулировать как задачу выделения в составе массового явления тех его частей, которые однородны по качеству и условиям развития и в которых действуют одни и те же закономерности влияния факторов. В результате такой группировки выделяются социально-экономические типы, а отсюда и название группировки — типологическая. В ленинских работах типы социально-экономических явлений рассматриваются исторически, как выражение конкретного общественного процесса, его форм и разветвлений, как выражение существенных черт, общих для множества единичных явлений.

С задачами типологической группировки тесно связаны и две другие задачи группировок: характеристика структуры и структурных сдвигов в исследуемой совокупности и выявление взаимосвязи между отдельными признаками изучаемого явления.

Примерами типологических группировок могут служить группировки хозяйств по формам собственности; населения — по классовой принадлежности или общественным группам; работников—на занятых преимущественно физическим и преимущественно умственным трудом и т. д.

Методология типологических группировок определяется тем, насколько ясно выступают качественные отличия в изучаемых явлениях. Например, при группировке отраслей промышленности по экономическому назначению продукции выделяются отрасли, производящие средства производства, и отрасли, производящие предметы потребления. В большинстве случаев качественные отличия не выступают столь отчетливо. Например, выделение в отраслях промышленности крупных, средних и мелких предприятий является достаточно сложной в методологическом отношении проблемой. В подобных случаях после предварительной наметки возможных типов на основе четкой формулировки познавательной задачи необходимо определить те признаки, которые будут положены в основу выделения типов — так называемые группировочные признаки.

Группировка может производиться как по одному, так и по нескольким признакам одновременно. Группировку по одному признаку называют простой, или одномерной, группировкой, а группировку по двум или нескольким признакам — комбинационной, или многомерной. Выбор группировочных признаков всегда Должен быть основан на анализе качественной природы исследуемого явления. Всесторонний теоретико-экономический анализ сущности и закономерностей развития явления должен быть направлен на то, чтобы в соответствии с целью и задачами исследования положить в основание группировки существенные признаки. Только совокупность признаков позволяет отобразить процессы развития, всесторонне выявить реальные связи, взаимоотношения отдельных сторон процесса.

Использование одного признака, характеризовавшего лишь одну сторону, одну черту в развитии явления, может привести к искажению действительности, поскольку в последней, как правило, переплетаются различные противоположные тенденции и направления. Множественность признаков, характеризующих объекты, является следствием их многосторонности и многообразия реальных связей между объектами.

В зависимости от конкретных условий группировочные признаки должны видоизменяться, т. е. должны быть специализированы при выделении одного и того же типа в различных условиях.

В настоящее время в промышленности при группировке предприятий по размерам могут использоваться показатели производственной мощности предприятия, стоимости промышленно-производственных основных фондов, численности промышленно-производственного персонала; при группировке по размерам грузовых автотранспортных предприятий в качестве группировочного признака используется размер грузооборота и т. д.

В зависимости от вида группировочных признаков различают группировки по количественным и качественным признакам.

В таблице 1 рассмотрена группировка работающего населения по уровню образования по данным переписей 1990, 1996 и 2003 гг.

Таблица 1.

Уровень образования	Тыс. человек			В % к числу лиц с высшим и средним образованием среди работающего населения
	1990	1996	2003	1990	1996	2003
1	2	3	4	5	6	7
Высшее и среднее (полное и неполное) образование	75 447	108634	130600	100	100	100
В том числе:
высшее законченное	7 544	13 486	20200	10,0	12,41	15,47
высшее незаконченное	1457	1541	1900	1,93	1,42	1,45
среднее специальное	12 123	21007	33100	16,07	19,34	25,35
среднее общее	18 347	37 293	52600	24,32	34,33	40,27
неполное среднее	35 976	35 307	22800	47,68	32,50	17,46

Сравнение данных по первой строке таблицы свидетельствует об увеличении на 44% в 1996 г. по сравнению с 1990 г. численности лиц с высшим и средним образованием среди работающего населения. Даже за такой небольшой период жизни страны численность лиц, имеющих высшее и среднее (специальное и общее) образование среди работающего населения по сравнению с 1990 г. увеличилась на 85,8% и составила в 1996 г. 73,3 млн. человек.

Группировка по уровню образования и сравнение показателей структуры за 1990, 1996, 2003 гг. позволяют судить не только о количественном росте образовательного уровня, но и качественном его изменении — повышении удельного веса лиц с высшим и средним образованием.

В приведенном примере признак, на основании которого производится группировка, имеет качественный, или атрибутивный, характер. Качественный признак отражает определенные свойства, качества данного явления и записывается в виде текста. Если качественный признак имеет мало разновидностей, то количество групп определяется числом этих разновидностей. Таковы, например, группировки населения по полу, семейному положению, образованию, деление населения на городское и сельское и т. д.

Но нередки случаи, когда качественный признак имеет большое число, разновидностей и перечислить их все не представляется возможным или целесообразным. Например, профессии Рабочих, номенклатура выпускаемой продукции, виды основных фондов и т. п. В таких случаях разрабатывают классификацию разновидностей, т. е. сходные по основным особенностям разновидности объединяются в группы (классы). Под классификацией обычно понимается более устойчивое разграничение единиц наблюдения, чем при группировке. Используются классификации ^в течение длительного времени, хотя со временем, отразив происходящие изменения в объекте наблюдения, классификации мо-^гут подвергаться более или менее существенным изменениям. Например, группировка населения по возрасту, группировка рабочих по разрядам, по степени выполнения норм, предприятий — по численности рабочих, стоимости продукции и основных фондов и т. д. В ряде случаев группировки, на первый взгляд, казалось бы, качественные, в действительности основываются на количественных признаках. Например, при группировке детей по возрасту выделяют:

1) ясельный возраст;

2) дошкольный возраст;

3) школьный возраст.

При отнесении в ту или иную группу руководствуются тем, что в яслях дети находятся до 3 лет, в дошкольную возрастную группу относят детей возрастом до 6— 7 лет и, наконец, в третью группу относят детей возрастом до 17 лет.

При группировке по количественному признаку нужно установить количество групп, на которые следует разбить весь диапазон изменения количественного признака, и в соответствии с числом групп определить интервалы группировки.

Подытоживая вышеизложенное, можно перечислить те методологические проблемы, решение которых необходимо при практическом применении метода группировок:

1) выбор группировочного признака или комбинации их;

2) определение числа групп и величины интервалов группировки;

3) установление применительно к конкретной группировке перечня показателей, которыми должны характеризоваться выделенные группы;

4) составление макета таблицы, в которой должны быть представлены результаты группировки.

2. Техника выполнения группировок.

Остановимся подробнее на группировках по количественному признаку. Вопрос о количестве групп, а следовательно, и об интервалах группировки решается по-разному при типологических группировках и при выделении групп внутри типов. Изучая количественную сторону массовых общественных явлений, статистика, опираясь на конкретные положения экономической теории, должна в процессе группировки наметить точки перехода количества в новое качество; на основе анализа количественных изменений группировочных признаков наметить точки перехода одного качества в другое. При типологической группировке интервалы должны намечаться таким образом, чтобы они отграничивали социально-экономические типы, установленные на основе экономической теории.

Теоретико-экономический анализ изучаемого явления должен быть предпосылкой научной статистической группировки, но вместе с тем использование аппарата современных статистических методов позволяет количественно оценить степень однородности выделенных групп, производить отбор существенных группировочных признаков, совершенствовать методику определения величины интервалов группировки. Количество выделяемых групп может зависеть и от характера вариации изучаемого показателя. Если в качестве группировочного используется дискретный признак, т. е. признак, способный принимать только некоторые определенные значения (например, целые), то число выделяемых групп соответствует количеству вариантов значения признака, если их число не очень велико. Например, распределение рабочих предприятия по тарифным разрядам, группировка семей по размеру и т. д.

В табл. 2 представлена группировка рабочих в промышленности СССР по тарифным разрядам, тарифицируемых по 6-разрядной тарифной сетке. Но дискретный признак может иметь и очень большое число вариантов, которые не всегда могут повторяться. В таких случаях варианты значений объединяются в группы. Например, при группировке предприятий по численности рабочих, по числу единиц установленного металлорежущего оборудования и т. д.

	Всего рабочих,	В том числе						Средний тарифный разряд
		1	2	3	4	5	6
Вся промышленность
1990	100	12,4	22,4	29,5	20,8	11,4	3,5	3,1
1993	100	9,4	21,4	28,6	22,1	13,9	4,6	3,2
1996	100	6,0	20,3	28,2	22,5	16,8	6,2	3,4
2000	100	4,9	18,3	28,0	23,4	18,1	7,3	3,5
2003	100	4,1	16,8	27,9	24,1	19,0	8,1	3,6
Машиностроение и металлобработка
1990	100	19,3	28,2	25,1	16,8	8,6	2,0	2,7
1993	100	13,2	27,2	25,8	18,9	11,7	3,2	3,0
1996	100	7,0	24,3	27,1	20,7	15,0	5,9	3,3
2000	100	5_,5	21,3	27,5	22,1	16,4	7,2	3,4
2003	100	4,5	19,2	27,6	23,2	17,3	8,2	3:,5

При непрерывном характере вариации группировочного признака, когда в определенных пределах признак может принимать любое значение (целое и дробное), весь диапазон изменения признака также разбивается на интервалы.

Приведем пример, когда в основание группировки положен дискретный признак с большим количеством вариантов значений. В табл. 3 представлены данные по использованию производственного оборудования, занятого в основном производстве на машиностроительных предприятиях.

Приведенная в табл. 3 группировка может служить примером аналитической группировки, позволяющей характеризовать влияние размеров предприятия на степень использования производственного оборудования. Аналитической называется группировка, выявляющая взаимосвязи между изучаемыми явлениями и признаками, их характеризующими. Из таблицы видно, что с увеличением числа установленных металлорежущих станков на предприятиях улучшается использование производственного оборудования.

Таблица 3

Группы предприятий по количеству установленных металлорежущих станков

Количество предприятий

Количество установленного оборудования, тыс. ед.

Удельный вес работавшего оборудования, % к установленному

Коэффициент сменности оборудования

До 50

51 — 100

101—200

201—500

501 — 1000

1001—2000

2001 и выше

173

300

537

867

512

241

142

6,4

26,3

82,9

277,9

350,1

310,4

488

1,20

1,26

1,30

1,38

1,40

1,41

1,48

Группы предприятий по количеству установленных металлорежущих станков намечены с помощью неравных интервалов, т. е. интервалов, у которых разности между верхней и нижней границами неодинаковы в разных группах. Так, во второй группе величина интервала равна 50, в третьей—100, в четвертой — 300 и т. д., т. е. в приведенной группировке величина интервала постепенно увеличивается, а в последней группе верхняя граница не указывается совсем. Интервалы, в которых указана лишь одна граница (верхняя или нижняя), называются открытыми. В приводимом примере открытыми являются первый (указана верхняя граница) и последний (указана нижняя граница) интервалы; остальные интервалы являются закрытыми, так как в них указана и верхняя, и нижняя граница. Неравные интервалы применяются при группировках, которые охватывают массу единиц неоднородной совокупности с неравномерными и значительными колебаниями признака. При этом учитывается, что небольшое изменение величины группировочного признака в низших группах отражает более существенные изменения в характере группы, чем такое же по абсолютной величине различие в высших группах. Так, нельзя считать однозначными различия предприятий с числом установленных станков 101—200 и 1001—1100: во втором случае предприятия гораздо меньше отличаются друг от друга. Кроме того, в экономических исследованиях, как правило, с увеличением значений признака уменьшается число единиц, значение признака у которых находится в интервале одной и той же длины. Поэтому применение равных интервалов может привести к тому, что число единиц в группах будет слишком мало, а поэтому закономерности в изменениях взаимосвязанных факторов могут отчетливо и не проявиться. Открытые интервалы используются обычно в тех случаях, когда признак в выделяемой группе единиц изменяется неравномерно и в широких пределах и когда отсутствуют качественные различия у отдельных единиц, включаемых в группу.

Границы интервалов проводимой с определенной целью группировки следует видоизменять в зависимости от особенностей изучаемой совокупности и временного периода. Так, например, группируя предприятия по стоимости основных фондов для выделения мелких, средних и крупных предприятий, применяют различные интервалы в разных отраслях промышленности. С другой стороны, те предприятия, которые могли быть отнесены к крупным в изучаемой отрасли в 40—50-е годы, в настоящее время скорее можно отнести к средним и даже мелким. Эти обстоятельства также должны найти отражение в видоизменении интервалов группировки.

Внутри типичных групп для характеристики количественных различий единиц, составляющих соответствующую группу, могут быть применены равные интервалы. В этом случае величина интервала определяется делением размаха варьирования на принятое число групп.

При анализе разнородных данных, например при анализе материала, собранного в различные периоды времени, относящегося к различным отраслям народного хозяйства, возникает необходимость применения вторичной группировки. Кроме того, методом вторичной группировки пользуются также для того, чтобы показать интенсивность процессов и явлений в разнообразных условиях, например, когда нужно показать степень укрупнения колхозов в различных районах, причем исходные данные представлены разными группировками.

Метод группировок является основой применения других методов статистического анализа основных сторон и характерных особенностей изучаемых явлений. По своей роли в процессе исследования метод группировок выполняет некоторые функции, аналогичные функциям эксперимента в естественных науках: посредством группировки по отдельным признакам и комбинации самих признаков статистика имеет возможность выявить закономерности и взаимосвязи явлений в условиях, в известной мере ею определяемых. При использовании метода группировок появляется возможность проследить взаимоотношение различных факторов и определить силу их влияния на результативные показатели.

Изучая количественную сторону массовых общественных явлений в неразрывной связи с их качественными особенностями, статистика стремится показать совокупность явлений в дифференциации, в многообразии их типов, рассмотреть взаимосвязи и соотношения между последними. С помощью метода группировок решаются сложные задачи статистического анализа. Учитывая, что необходимость группировки обусловливается, прежде всего, наличием качественных различий между изучаемыми явлениями, первую задачу группировок можно сформулировать как задачу выделения в составе массового явления тех его частей, которые однородны по качеству и условиям развития, в которых действуют одни и те же закономерности влияния факторов. В результате такой группировки выделяются социально-экономические типы (а отсюда и название группировки - типологическая) как выражение конкретного общественного процесса, его форм и разветвлений, как выражение существенных черт, общих для множества единичных явлений.

Рисунок 1. Виды группировок

3. Статистические таблицы как результат группировок.

Результаты группировки представляются в виде статистических таблиц, делающих информацию обозримой.

Статистическая таблица - форма рационального и наглядного изложения цифровых характеристик исследуемых явлений.

Статистическое обобщение информации и представление ее в виде сводных статистических таблиц дает возможность характеризовать размеры, структуру и динамику изучаемых явлений. Часто к статистической таблице дается общий заголовок, в котором указывается содержание таблицы, место и время, к которым относятся приводимые в таблице данные, а также единицы измерения, если они одинаковы для всех приведенных сведений.

Основные элементы статистической таблицы - подлежащее и сказуемое.

Подлежащим таблицы являются единицы статистической совокупности или их группы.

Сказуемое таблицы отражает то, что в ней говорится о подлежащем с помощью цифровых данных.

Статистическая таблица содержит три вида заголовков:

· общий;

· верхний;

· боковые.

Заголовки таблицы должны быть краткими и раскрывать содержание показателей.

Рисунок 2.

Общий заголовок отражает содержание всей таблицы с указанием, к какому месту и времени она относится. Он располагается над макетом и является внешним заголовком. Верхние заголовки характеризуют содержание граф (заголовок сказуемого), а боковые (заголовки подлежащего) - содержание строк.

В зависимости от строения подлежащего все статистические таблицы можно разделить на три группы:

1. Таблицы простые, или перечневые , в которых содержатся сводные показатели, относящиеся к перечню единиц наблюдения, или к перечню хронологических дат или территориальных подразделений. Соответственно таблицы могут быть названы простыми перечневыми, хронологическими или территориальными;

2. Таблицы групповые, в которых статистическая совокупность расчленяется на отдельные группы по какому-либо одному признаку, причем каждая из групп может быть охарактеризована рядом показателей;

3. Таблицы комбинационные, в которых совокупность разбита на группы не по одному, а по нескольким признакам.

Выбор типа таблицы зависит всегда от цели ее построения. Если таблицы используются для практических нужд планирования и управления, то в них должны содержаться сведения по тем частям, в разрезе которых ведется планирование и управление. Чаще всего этой задаче соответствуют простые таблицы, используются также и групповые. Если же ставится задача более глубокого познания исследуемого объекта, то используются групповые и комбинационные таблицы.

В простых таблицах помещаются данные по различного рода организациям: предприятиям, стройкам, учреждениям, министерствам и т.д., имеющие, как правило, познавательное значение.

Примером простой таблицы является таблица 3.1, где приведена динамика цен на муниципальные квартиры в разных районах Москвы за 5 месяцев 1995 г.

Таблица 4.

Динамика цен 1 кв. м муниципального жилья в Москве в 2000 г. (млн. руб.)

Местоположение жилья	Январь	Февраль	Март	Апрель	Май
Митино	3,4	3,7	4,0	4,8	5,2
Южное Бутово	3,2	3,5	3,8	4,5	4,9
Северное Бутово	3,5	3,8	4,1	4,8	5,8
Отрадное	4,5	4,9	5,3	6,0	6,5
Веерная улица	5,3	5,5	5,9	7,0	7,6
Жулебино	3,4	3,7	4,0	4,5	4,9

Сочетание территориальной группировки с данными за несколько месяцев 1995 г. позволяет получить весьма полезную информацию. По данным таблицы 1, мы видим наличие вариации цен за 1 кв. м муниципального жилья по районам города Москвы и, если в январе цена варьировала от 3,2 млн. руб. (Южное Бутово) до 5,3 млн. руб. (ул. Веерная), то в мае границы вариации существенно сдвинулись вправо: от 4,9 млн. руб. (Северное Бутово) до 7,6 млн. руб. (ул. Веерная). Кроме того, можно сделать вывод о наличии общей для всех районов Москвы тенденции неуклонного роста цен муниципального жилья. Данные подобного рода таблиц могут использоваться для принятия оперативных решений, например оценки того, как изменятся затраты на приобретение жилья, если задержаться с принятием решения хотя бы на месяц.

В отличие от простых групповые и комбинационные таблицы обладают важными аналитическими свойствами: они позволяют производить наглядные сравнения и вскрывать существенные связи и различия в развитии явлений. Идея комбинационной таблицы состоит в том, что каждую из групп в групповой таблице разбивают на подгруппы по какому-либо признаку; выделенные подгруппы могут дальше расчленяться по следующему признаку и т.д.

Результаты комбинационной группировки по большому количеству признаков даже при небольшом числе интервалов группировки становятся трудно обозримыми, и таблица теряет свое важнейшее преимущество - наглядность. Поэтому нецелесообразно составлять комбинационные таблицы по сочетанию более чем трех признаков и при количестве интервалов более четырех. Использование комбинационных таблиц и системы взаимосвязанных группировок позволяет провести глубокий и всесторонний анализ сложных общественных явлений.

Группировка, осуществляемая не последовательно по отдельным признакам, как при комбинационной группировке, а одновременно по комплексу признаков, называется многомерной. Как уже сказано, характеристика одной и той же качественной стороны изучаемого явления может быть дана с помощью набора признаков. Например, для характеристики технического уровня развития предприятий могут быть использованы следующие показатели: удельный вес активной части промышленно-производственных основных фондов, удельный вес автоматических машин и оборудования в составе рабочих машин и оборудования; электровооружснность труда, машиновооруженность рабочих; степень охвата механизированным трудом, коэффициент обновления машин и оборудования и т.д.

Характеризуя таким образом каждую единицу совокупности набором признаков, можно рассматривать эту единицу как точку в m-мерном пространстве, а задача многомерной группировки будет состоять в выделении точек, составляющих однородные группы единиц. Мерой близости (сходства) между единицами могут служить различные критерии. В зависимости от выбранного критерия существуют различные методы многомерной группировки.

Применение методов многомерной группировки связано с большой вычислительной работой и требует использования электронной вычислительной техники. С помощью специальных алгоритмов на ЭВМ осуществляется формирование групп, в которых единицы совокупности объединяются на основании близости по всему комплексу признаков. В таблице 5 приведены результаты группировки предприятий отрасли по уровню технического развития и производительности труда.

Таблица 5

Распределение предприятий по уровню технической оснащенности и эффективности использования живого труда

Примечание. Выделение однородных по техническому уровню групп предприятий было осуществлено с помощью метода кластерного анализа по восьми показателям технического уровня развития.

Анализ данных таблицы позволяет выделить группы предприятий, добившихся наибольшего эффекта в своей деятельности и группы предприятий, располагающих резервами роста производительности труда за счет лучшего использования технического потенциала. Это прежде всего те шесть предприятий (группа З.1, первая цифра - номер сроки, вторая - номер столбца), которые имеют высокий технический потенциал, но эффективность использования живого труда здесь ниже среднего по отрасли уровня. В то же время восемь предприятий с низким уровнем технического развития имеют уровень производительности труда выше среднего по отрасли, что позволяет говорить о высокоэффективной деятельности предприятий группы 1.3.

Такие группировки дают возможность, безусловно, лишь в общем оценить результаты деятельности предприятий соответствующих групп. Однако уже на их основе очевидна необходимость дифференцированного подхода к оценке результатов деятельности предприятий отрасли, располагающих примерно одинаковым техническим потенциалом, но различающихся уровнем эффективности использования труда.

4. Кластерный анализ как метод многомерных группировок.

Современный уровень развития методов многомерного статистического анализа и наличие ЭВМ позволяют осуществлять классификацию объектов на широкой и объективной основе, с учетом всех существенных структурно-типологических признаков и характера распределения объектов в заданной системе признаков.

В настоящее время существует много методов построения классификации многомерных объектов с помощью ЭВМ. При этом традиционно выделяют две группы методов. Методы первой группы связаны с задачей “узнавания'', идентификации ”объектов” они получили название методов распознавания образов. Смысл распознавания заключается в том, чтобы любой предъявляемый машине объект с наименьшей вероятностью ошибки был отнесен к одному из заранее сформированных классов. Здесь машине сначала предъявляют “обучающую последовательность” Объектов (о каждом из которых известно, к какому классу или “образу” он принадлежит), а затем, “обучившись”, машина должна распознать, к каким классам относятся новые объекты из изучаемой совокупности.

Более общий подход к классификации включает не только отнесение объектов к одному из классов, но и одновременное формирование самих “образов”, число которых может быть заранее неизвестно. При отсутствии обучающей последовательности такая классификация производится на основе стремления собрать в одну группу в некотором смысле схожие объекты, да еще так, чтобы объекты из разных групп (классов) были по возможности несхожими. Именно такие методы получили название методов автоматической классификации (кластерного анализа, таксономии, распознавания образов без учителя”).

В настоящее время разработаны десятки и сотни различных алгоритмов, реализующих многомерную классификацию автоматически. Они основаны на различных гипотезах о характере распределения объектов в многомерном пространстве признаков, на различных математических процедурах. Обзоры этих методов широко представлены в литературе.

Отсутствие априорной информации о характере распределения объектов внутри каждой группы предполагает построение многомерной классификации на основе методов кластерного анализа (cluster (англ.) - скопление, “гроздь”, группа объектов, характеризующихся общими свойствами). На примере кластерного анализа рассмотрим основные этапы построения многомерной классификации.

Кластер-анализ: Будем считать, что все m признаков измерены в количественной шкале. Тогда каждый из n объектов может быть представлен точкой в m-мерном пространстве признаков. Характер распределения этих точек в рассматриваемом пространстве определяет структуру сходства и различия объектов в заданной системе показателей.

О сходстве объектов можно судить по расстоянию между соответствующими точками. Содержательный смысл такого понимания сходства означает, что объекты тем более близки, похожи в рассматриваемом аспекте, чем меньше различий между значениями одноименных показателей.

Для определения близости пары точек в многомерном пространстве обычно используют евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, взятых для данной пары объектов:

где d_ij - евклидово расстояние между i-м и j-м объектами; x_it, - значение l-то показателя для i-го объекта.

Вычислив расстояние между каждой парой объектов, получим квадратную матрицу D, имеющую размеры nxn (по числу объектов); эта матрица, очевидно, симметрична, т.е. d_ij = d_ij(i,j=1,…,n)

Матрица расстояний D служит основой при реализации методов кластерного анализа, в том числе и агломеративно-иерархического метода, который часто используется для многомерной классификации объектов в социально-экономических исследованиях. Основная идея этого метода заключается в последовательном объединении группируемых объектов - сначала самых близких, затем более удаленных друг от друга. Процедура построения классификации состоит из последовательности шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров).

Существуют различные способы определения расстояния между группами объектов (различающие методы кластерного анализа). Обычно близость двух кластеров определяется как средний квадрат расстояния между всеми такими парами объектов, где один объект пары принадлежит к одному кластеру, а другой - к другому:

где D_pq - мера близости между р - м и q -м кластерами; R_p - р-й кластер; R_q - q -й кластер; n_q- число объектов в p-м кластере; n_q- число объектов в q -м кластере.

На первом шаге процедуры агломеративно-иерархического метода кластерного анализа рассматривается начальная матрица расстояний между объектами и по ней определяется минимальное число d_i1j1; далее, наиболее близкие объекты с номерами i₁ и j₁ объединяются в один кластер, в матрице вычеркиваются строки и столбец с номером j₁ , а расстояния от нового кластера (он получает номер i₁ ) до всех остальных кластеров (на первом шаге - объектов) вычисляются по формуле; в данном случае квадраты таких расстояний равны полусуммам квадратов расстояний от i₁-го и j₁-го объектов до каждого из остальных. Эти вновь вычисленные значения расстояний заносятся в i₁-ю строку и i₁-й столбец матрицы D.

На втором шаге процедуры по матрице D, содержащей уже n-1 строк и столбцов, определяют минимальное число d_i2j2 и формируют новый кластер с номером i₂. Этот кластер может быть построен в результате объединения либо двух объектов, либо одного объекта с i₁ -м кластером, построенным на первом шаге. Далее, в матрице D вычеркиваются строка столбец с номером j₂, а строка и столбец с номером i₂ перечитываются, и т.д.

Таким образом, метод кластерного анализа включает п-1 аналогичных шагов. При этом после выполнения k-го шага (k n-1) число кластеров равно n-k (некоторые из них могут быть отдельными объектами), а матрица D имеет размеры (n-k)^x(n-k).В конце этой процедуры, на (n-1)-м шагe, получится кластер, объединяющий все n объектов.

Результаты классификации, построенной изложенным методом, можно изобразить в виде дерева иерархической структуры (дендрограммы), содержащего n уровней, каждый из которых соответствует одному из шагов описанного процесса последовательного укрупнения кластеров.

В кластерном анализе существенным является выбор необходимого числа кластеров. В некоторых случаях число кластеров может быть выбрано из априорных соображений, однако чаще это число определяется в процессе формирования кластеров на основе значений некоторых показателей их однородности и степени удаленности друг от друга (например, показателей внутригрупповой дисперсии или вариации).

Результаты классификации зависят от масштабов используемых значений показателей. Из формулы следует, что вменение масштаба значений показателей приводит к изменение расстояний между объектами. Так, например, если некоторый показатель, выраженный в рублях, переведен в копейки, то относительный вклад этого показателя при вычислении меры близости D_pq увеличивается в 100 раз. Для устранения такой неоднородности исходных данных показатели стандартизируют путем вычитания среднего значения и деления на среднее квадратическое отклонение, так что дисперсия каждого показателя оказывается равной 1, а среднее - О. С помощью стандартизации все показатели оказываются равноценными по отношению к сходству рассматриваемых объектов.

Минимизация среднего расстояния между кластерами, которая производится на каждом шаге, эквивалентна минимизации некоторого критерия качества классификации, оценивающего степень однородности формируемых кластеров.

Меры близости объектов. Отметим, что степень сходства многомерных объектов может быть охарактеризована не только с помощью евклидова расстояния, но и с помощью других мер, выбор которых определяется структурой пространства признаков и цепью классификаций. Например, если признаки имеют качественную природу (пусть для определенности все m признаков - альтернативные, т.е. принимают значения 0 или 1), то степень сходства пары объектов (i, j) может быть выражена различными коэффициентами, из которых приведем здесь

а - расстояние, по Хеммингу,

б - коэффициент композиционного сходства

где P_ij и q_ij- - числа признаков, имеющих соответственно одинаковые и различающиеся значения для i-го и j-го объектов; m - число признаков.

Как следует из формулы (8), расстояние d_ij по Хеммингу, равно числу признаков, значения которых для обоих объектов не совпадают. Значения d_ij - изменяются от 0 до m ; они тем меньше, чем ближе эти объекты в заданной системе признаков.

Что касается коэффициента композиционного сходства S_ij то его значение тем больше, чем ближе данные два объекта; S_ij изменяется в пределах от 0 до 1. Как следует из формулы (9), S_ij =О, если значения всех одноименных признаков для обоих объектов различаются, и S_ij=1, если значения всех признаков для них совпадают.

Подсчитав значения коэффициентов d_ij или S_ij для всех пар объектов, получим квадратную матрицу размером nxn аналогичную матрице расстояний D (и также симметричную), которую далее можно анализировать с помощью какого-либо метода автоматической классификации.

Построенную с помощью этих методов многомерную группировку объектов можно рассматривать в типологическом аспекте, если содержательный анализ полученных результатов позволяет указать качественные и количественные особенности выделенных групп - кластеров.

Характеризуя методы автоматической классификации с точки зрения возможности распространения выборочных результатов на генеральную совокупность, отметим, что статистические критерии значимости для проверки гипотезы о принадлежности объектов к тем или иным группам разработаны слабо. Полученная многомерная классификация рассматривается как характерная именно для изучаемой совокупности (как это и принято в анализе данных).

Рассматривая многомерные задачи типологии, следует подчеркнуть плодотворность совместного использования методов автоматической классификации и факторного анализа. Существует несколько подходов к последовательному использованию этих методов для обработки одних и тех же данных. Наиболее органично методы автоматической классификации и факторного анализа сочетаются в новом синтетическом подходе, имеющем название лингвистического подхода к обработке данных.

Заключение.

Первой ступенью систематизации и обобщения данных статистического наблюдения является статистическая сводка. Понятие статистической сводки в широком смысле слова охватывает целый комплекс статистических операций, направленных на объе- | динение зарегистрированных при наблюдении единичных слу.?.' чаев в группы, сходные в том или ином отношении; подсчет итогов по выделенным группам и по всей совокупности в целом и оформление результатов группировки и сводки в виде статистических таблиц. В план статистической сводки включаются вопросы, связанные с последовательным осуществлением отдельных этапов сводки, с очередностью обработки материалов наблюдения. При составлении плана сводки разрабатываются макеты сводных таблиц, на основе которых дается характеристика размеров, структуры и взаимосвязей изучаемых явлений. В плане сводки указывается также, кто и в какие сроки осуществляет сводку, каким способом, куда поступают сводные данные и кто проводит их дальнейшую обработку.

Одним из основных и наиболее распространенных методов обработки и анализа первичной статистической информации является группировка. Целостную характеристику совокупности необходимо сочетать с характеристикой составных ее частей, классов и т. п. Под группировкой в статистике понимают расчленение статистической совокупности на группы, однородные в каком-либо существенном отношении, и характеристику выделенных групп системой показателей в целях выделения типов явлений, изучения их структуры и взаимосвязей.

Метод группировки является основой для применения других методов статистического анализа основных сторон и характерных особенностей изучаемых общественных явлений. По своей роли в процессе исследования метод группировок выполняет некоторые функции, аналогичные функциям эксперимента в естественных науках: посредством группировки по отдельным признакам и комбинации самих признаков статистика имеет возможность выявить закономерности и взаимосвязи явлений в условиях, в известной мере определяемых ею. При использовании метода группировок появляется возможность проследить взаимоотношение различных факторов.

В развитие метода группировок огромный вклад внесли отечественные статистики. Им принадлежит первенство в применении комбинационных таблиц, в разработке классификации таблиц и в проведении многочисленных группировок материалов аграрных переписей и обследований, которые оказали благотворное влияние на другие отраслевые статистики и общую методологию.

Список использованных источников.

1. Бендина Н.В. Общая теория статистики (конспект лекций). - М.: ПРИОР, 1999.

2. Гусаров В.М. Теория статистики. - М.: Аудит,1998.

3. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. - М.: Инфра-М, 1998.

4. Толстик Н.В., Матегорина Н.М. Статистика. - Ростов-на-Дону, Феникс, 2000.

5. Ефимова М.Р., Рябцев В.М. Общая теория статистики: Учебник. – М.: Финансы и статистика, 1991. – 304 с.

6. Статистика: Курс лекций / Харченко Л.П., Долженкова В.Г., Ионин В.Г. и др.; Под ред. к.э.н. В.Г. Ионина. – Новосибирск: Изд-во НГАЭиУ, М.: ИНФРА-М, 1999. – 310 с.

7. Калинина В.Н., Панкин В.Ф. Математическая статистика: Учебник, Высшая школа, 2001г. - 336 стр.

8. Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и упражнениях, ЮНИТИ - 2001, 270 стр.

9. Адамов В.Е. и др. "Экономика и статистика фирм" Учебник. 3-е изд., перераб. и доп. – 2002, 288 с.

10. Кожухарь Л.И.Основы общей теории статистики, Финансы и статистика - 1999, 144 стр.

11. Башина О.Э. "Общая теория статистики" Учебник. - 5-е издание. – 2001. – 440 с.

12. Гришин А.Ф. "Статистика" Учеб. пособие 2003. - 240 с.

13. Практикум по теории статистики. Учебное пособие

14. Шмойлова Р.А., Финансы и статистика - 2001, 416 стр.

15. Под ред. И.И. Елисеевой "Социальная статистика" Учебник. - 3-е изд., перераб. и доп. 480 стр.

Скачать курсовую работу

Если Вас интересует помощь в НАПИСАНИИ ИМЕННО ВАШЕЙ РАБОТЫ, по индивидуальным требованиям - возможно заказать помощь в разработке по представленной теме - Методы построения многомерных группировок ... либо схожей. На наши услуги уже будут распространяться бесплатные доработки и сопровождение до защиты в ВУЗе. И само собой разумеется, ваша работа в обязательном порядке будет проверятся на плагиат и гарантированно раннее не публиковаться. Для заказа или оценки стоимости индивидуальной работы пройдите по ссылке и оформите бланк заказа.