Репетиторские услуги и помощь студентам!
Помощь в написании студенческих учебных работ любого уровня сложности

Тема: Методы построения многомерных группировок

  • Вид работы:
    Курсовая работа (т) по теме: Методы построения многомерных группировок
  • Предмет:
    Другое
  • Когда добавили:
    21.03.2012 10:33:51
  • Тип файлов:
    MS WORD
  • Проверка на вирусы:
    Проверено - Антивирус Касперского

Другие экслюзивные материалы по теме

  • Полный текст:



















    Курсовая работа

    по статистике:

    «Методы построения многомерных группировок»



















    2004

    Содержание.


    Введение......................................................................................................................................... 3

    1. Задачи и виды группировок..................................................................................................... 5

    2. Техника выполнения группировок........................................................................................ 10

    3. Статистические таблицы как результат группировок.......................................................... 16

    4. Кластерный анализ как метод многомерных группировок................................................. 21

    Заключение.................................................................................................................................. 28

    Список использованных источников........................................................................................ 29


    Введение.


    Основой методологии статистической науки служит всеобщий метод познания — диалектический и исторический материализм. Это означает, что метод статистики базируется на законах и ка­тегориях материалистической диалектики, согласно которым об­щественные явления и процессы рассматриваются в развитии, взаимной связи и причинной обусловленности.

    Знание законов и категорий материалистической диалектики, законов общественного развития — это и есть тот фундамент, с помощью которого можно понять и правильно истолковать явле­ния, подлежащие статистическому исследованию, выбрать над­лежащий инструмент, методологически правильный подход к их изучению.

    Специфика и достоинство статистических методов заключа­ются в их комплексности, соответствии принципу системного на­учного исследования. Это обусловлено наряду с многообразием форм статистической закономерности еще и сложностью самого процесса статистического исследования, состоящего по меньшей мере из трех стадий:

    1) статистическое наблюдение, включаю­щее сбор и оценку качества первичных статистических данных;

    2) сводку первичного статистического материала;

    3) обобщение и анализ сведенного материала.

    Прохождение каждой стадии исследования связано с исполь­зованием специфических методов, объясняемых содержанием вы­полняемой работы. На первой стадии в связи с необходимостью учета всего многообразия фактов и форм осуществления соци­ально-экономических процессов, в соответствии с их массовым характером   применяется     метод   массового   статистического   наблюдения, обеспечивающий всеобщность, полноту и представи­тельность (репрезентативность) полученной первичной инфор­мации.

    Сводка заключается в систематизации, обработке первичных данных, приведении их в определенный порядок, подсчете чис­ленности единиц совокупности и объема характеризующих их признаков и, что более характерно, — в разделении информации по признакам различия, т. е. группировке статистических дан­ных, переходе от характеристики единичных фактов к характе­ристике данных, объединенных в группы. Методы группировки различаются в зависимости от задач исследования и качествен­ного состояния первичного материала.

    Задачи третьего этапа статистического исследования — обобщение и анализ данных, т. е. выявление характерных свойств и закономерностей социально-экономических явлений, — решаются посредством применения весьма широкого и разнооб­разного круга статистических методов.

    Ведущую роль в процессе обобщения и разработки статисти­ческих данных занимает расчет обобщающих показателей уров­ня социально-экономических явлений: абсолютных, относитель­ных и средних, отличающихся еще большим многообразием форм в сравнении с теми статистическими методами, которые применяются на предшествующих этапах исследования.

    Многомерные группировки являются востребованными в экономике и математической науке. С их помощью проводятся экономические исследования в России. Компьютеризация вычислений позволяет проводить исследования  и анализ наиболее эффективно. В связи с этим, выбранная тема курсовой работы является весьма актуальной.

    1. Задачи и виды группировок.


    Огромное значение и роль группировок в статистическом ис­следовании вытекает из характера объекта статистики, его спе­цифики. Явления общественной жизни, изучаемые статистикой, отличаются многообразием форм и стадий развития, они состоят из существенно   различающихся   частей,   обладающих   многими специфическими свойствами.

    Изучая количественную сторону массовых общественных яв­лений в неразрывной связи с их качественными особенностями, статистика стремится показать совокупность явлений в диффе­ренциации, в многообразии их типов, рассмотреть взаимосвязи и отношения между последними. С помощью метода группировок решаются сложные задачи статистического анализа. Учитывая, что необходимость группировки обусловливается прежде всего наличием качественных различий между изучаемыми явлениями, первую задачу группировок можно сформулировать как задачу выделения в составе массового явления тех его частей, которые однородны по качеству и условиям развития и в которых дейст­вуют одни и те же закономерности влияния факторов. В резуль­тате такой группировки выделяются социально-экономические типы, а отсюда и название группировки — типологическая. В ле­нинских работах типы социально-экономических явлений рас­сматриваются исторически, как выражение конкретного общест­венного процесса, его форм и разветвлений, как выражение су­щественных  черт, общих для множества  единичных явлений.

    С задачами типологической группировки тесно связаны и две другие задачи группировок: характеристика структуры и струк­турных сдвигов в исследуемой совокупности и выявление взаи­мосвязи  между отдельными  признаками  изучаемого явления.

    Примерами типологических группировок могут служить груп­пировки хозяйств по формам собственности; населения — по классовой принадлежности или общественным группам; работ­ников—на занятых преимущественно физическим и преиму­щественно умственным трудом и т. д.

    Методология типологических группировок определяется тем, насколько ясно выступают качественные отличия в изучаемых явлениях. Например, при группировке отраслей промышленности по экономическому назначению продукции выделяются отрасли, производящие средства производства, и отрасли, производящие предметы потребления. В большинстве случаев качественные от­личия не выступают столь отчетливо. Например, выделение в от­раслях промышленности крупных, средних и мелких предприятий является достаточно сложной в методологическом отношении проблемой. В подобных случаях после предварительной наметки возможных типов на основе четкой формулировки познаватель­ной задачи необходимо определить те признаки, которые будут положены в основу выделения типов — так называемые группировочные признаки.

    Группировка может производиться как по одному, так и по нескольким признакам одновременно. Группировку по одному признаку называют простой, или одномерной, группировкой, а группировку по двум или нескольким признакам — комбинацион­ной, или многомерной. Выбор группировочных признаков всегда Должен  быть основан  на  анализе качественной  природы исследуемого явления. Всесторонний теоретико-экономический анализ сущности и закономерностей развития явления должен быть на­правлен на то, чтобы в соответствии с целью и задачами иссле­дования положить в основание группировки существенные при­знаки. Только совокупность признаков позволяет отобразить процессы развития, всесторонне выявить реальные связи, взаимоотношения отдельных сторон процесса.

    Использование одного признака, характеризовавшего лишь одну сторону, одну черту в развитии явления, может привести к искажению действительности, поскольку в последней, как пра­вило, переплетаются различные противоположные тенденции и направления. Множественность признаков, характеризующих объекты, является следствием их многосторонности и многооб­разия реальных связей между объектами.

    В зависимости от конкретных условий группировочные при­знаки должны видоизменяться, т. е. должны быть специализиро­ваны при выделении одного и того же типа в различных усло­виях.

    В настоящее время в промышленности при группировке пред­приятий по размерам могут использоваться показатели произ­водственной мощности предприятия, стоимости промышленно-производственных основных фондов, численности промышленно-производственного персонала; при группировке по размерам гру­зовых автотранспортных предприятий в качестве группировочного признака используется размер грузооборота и т. д.

    В зависимости от вида группировочных признаков различают группировки  по  количественным   и  качественным   признакам.

    В таблице 1 рассмотрена группировка работающего населения по уровню образования по данным переписей 1990, 1996 и 2003 гг.

    Таблица 1.

    Уровень образования

    Тыс. человек

    В % к числу лиц с высшим и средним образованием среди работающего населе­ния



    1990

    1996

    2003

    1990

    1996

    2003

    1

    2

    3

    4

    5

    6

    7

    Высшее   и   среднее     (полное   и   не­полное) образование

    75 447

    108634

    130600

    100

    100

    100

    В том числе:







    высшее законченное

    7 544

    13 486

    20200 

    10,0

    12,41  

    15,47

    высшее незаконченное

    1457

    1541

    1900

    1,93    

    1,42    

    1,45

    среднее специальное

    12 123

    21007

    33100

    16,07  

    19,34  

    25,35

    среднее общее

    18 347

    37 293   

    52600

    24,32  

    34,33  

    40,27

    неполное среднее

    35 976

    35 307

    22800

    47,68  

    32,50  

    17,46


    Сравнение данных по первой строке таблицы свидетельствует об увеличении на 44% в 1996 г. по сравнению с 1990 г. числен­ности лиц с высшим и средним образованием среди работающего населения. Даже за такой небольшой период жизни страны чис­ленность лиц, имеющих высшее и среднее (специальное и общее) образование среди работающего населения по сравнению с 1990 г. увеличилась на 85,8% и составила в 1996 г. 73,3 млн. че­ловек.

    Группировка по уровню образования и сравнение показателей структуры за 1990, 1996, 2003 гг. позво­ляют судить не только о количественном росте образовательного уровня, но и качественном его изменении — повышении удельно­го веса лиц с высшим и средним образованием.

    В приведенном примере признак, на основании которого про­изводится группировка, имеет качественный, или атрибутивный, характер. Качественный признак отражает определенные свойст­ва, качества данного явления и записывается в виде текста. Ес­ли качественный признак имеет мало разновидностей, то коли­чество групп определяется числом этих разновидностей. Таковы, например, группировки населения по полу, семейному положению, образованию, деление населения на городское  и  сельское и т.  д.

    Но нередки случаи, когда качественный признак имеет боль­шое число, разновидностей и перечислить их все не представля­ется возможным или целесообразным. Например, профессии Рабочих, номенклатура выпускаемой продукции, виды основных фондов и т. п. В таких случаях разрабатывают классификацию разновидностей, т. е. сходные по основным особенностям разно­видности объединяются в группы (классы). Под классификацией обычно понимается более устойчивое разграничение единиц на­блюдения, чем при группировке. Используются классификации в течение длительного времени, хотя со временем, отразив про­исходящие изменения в объекте наблюдения, классификации мо-гут подвергаться  более  или  менее    существенным    изменениям. Например, группировка населения по возрасту, группировка ра­бочих по разрядам, по степени выполнения норм, предприятий — по численности рабочих, стоимости продукции и основных фон­дов и т. д. В ряде случаев группировки, на первый взгляд, каза­лось бы, качественные, в действительности основываются на ко­личественных признаках. Например, при группировке детей по возрасту выделяют:

    1) ясельный возраст;

    2) дошкольный воз­раст;

    3) школьный возраст.

    При отнесении в ту или иную группу руководствуются тем, что в яслях дети находятся до 3 лет, в дошкольную возрастную группу относят детей возрастом до 6— 7 лет и, наконец, в третью группу относят детей возрастом до 17 лет.

    При группировке по количественному признаку нужно устано­вить количество групп, на которые следует разбить весь диапа­зон изменения количественного признака, и в соответствии с чис­лом групп определить интервалы группировки.

    Подытоживая вышеизложенное, можно перечислить те мето­дологические проблемы, решение которых необходимо при прак­тическом применении метода группировок:

    1) выбор группировочного признака или комбинации их;

    2) определение числа групп и величины интервалов группировки;

    3) установление примени­тельно к конкретной группировке перечня показателей, которы­ми должны характеризоваться выделенные группы;

    4) составле­ние макета таблицы, в которой должны быть представлены ре­зультаты группировки.

    2. Техника выполнения группировок.


    Остановимся подробнее на группировках по количественно­му признаку. Вопрос о количестве групп, а следовательно, и об интервалах группировки решается по-разному при типологиче­ских группировках и при выделении групп внутри типов. Изучая количественную сторону массовых общественных явлений, ста­тистика, опираясь на конкретные положения экономической тео­рии, должна в процессе группировки наметить точки перехода количества в новое качество; на основе анализа количественных изменений группировочных признаков наметить точки перехода одного качества в другое. При типологической группировке ин­тервалы должны намечаться таким образом, чтобы они отграни­чивали социально-экономические типы, установленные на основе экономической теории.

     Теоретико-экономический анализ изучаемого явления должен быть предпосылкой научной статистической группировки, но вместе с тем использование аппарата современных статистиче­ских методов позволяет количественно оценить степень однород­ности выделенных групп, производить отбор существенных груп­пировочных   признаков,   совершенствовать   методику  определения величины интервалов группировки. Количество выделяемых групп может зависеть и от характера вариации изучаемого показателя. Если в качестве группировочного используется дискретный при­знак, т. е. признак, способный принимать только некоторые оп­ределенные значения (например, целые), то число выделяемых групп соответствует количеству вариантов значения признака, если их число не очень велико. Например, распределение рабо­чих  предприятия по тарифным  разрядам, группировка семей  по размеру и т. д.

    В табл. 2 представлена группировка рабочих в промышлен­ности СССР по тарифным разрядам, тарифицируемых по 6-раз­рядной тарифной сетке. Но дискретный признак может иметь и очень большое число вариантов, которые не всегда могут по­вторяться. В таких случаях варианты значений объединяются в группы. Например, при группировке предприятий по численности рабочих, по числу единиц установленного металлорежущего обо­рудования и т. д.



    Всего рабочих,

    В том числе

    Средний тарифный разряд



    1

    2

    3

    4

    5

    6


    Вся промышленность









    1990

    100

    12,4

    22,4

    29,5

    20,8

    11,4

    3,5

    3,1

    1993

    100

    9,4

    21,4

    28,6

    22,1

    13,9

    4,6

    3,2

    1996

    100

    6,0

    20,3

    28,2

    22,5

    16,8

    6,2

    3,4

    2000

    100

    4,9

    18,3

    28,0

    23,4

    18,1

    7,3

    3,5

    2003

    100

    4,1

    16,8

    27,9

    24,1

    19,0

    8,1

    3,6

    Машиностроение и металлобработка









    1990

    100

    19,3

    28,2

    25,1

    16,8

    8,6

    2,0

    2,7

    1993

    100

    13,2

    27,2

    25,8

    18,9

    11,7

    3,2

    3,0

    1996

    100

    7,0

    24,3

    27,1

    20,7

    15,0

    5,9

    3,3

    2000

    100

    5,5

    21,3

    27,5

    22,1

    16,4

    7,2

    3,4

    2003

    100

    4,5

    19,2

    27,6

    23,2

    17,3

    8,2

    3:,5


    При непрерывном характере вариации группировочного при­знака, когда в определенных пределах признак может принимать любое значение (целое и дробное), весь диапазон изменения при­знака также разбивается на интервалы.

    Приведем пример, когда в основание группировки положен дискретный признак с большим количеством вариантов значе­ний. В табл. 3 представлены данные по использованию произ­водственного оборудования, занятого в основном производстве на машиностроительных предприятиях.

    Приведенная в табл. 3 группировка может служить приме­ром аналитической группировки, позволяющей характеризовать влияние размеров предприятия на степень использования произ­водственного оборудования. Аналитической называется группи­ровка, выявляющая взаимосвязи между изучаемыми явлениями и признаками, их характеризующими. Из таблицы видно, что с увеличением числа установленных металлорежущих станков на предприятиях улучшается использование производственного обо­рудования.

    Таблица  3

    Группы предприятий по количеству установ­ленных металлорежущих станков

    Количест­во пред­приятий


    Количество установленного обо­рудования, тыс. ед.


    Удельный вес ра­ботавшего обору­дования, % к установленному

    Коэффициент сменности обо­рудования


    До 50

    51 — 100

    101—200

    201—500

    501 — 1000

    1001—2000

    2001 и выше

    173

    300

     537

     867

    512

     241

    142

    6,4

    26,3

    82,9

    277,9

    350,1

    310,4

    488

    80

    82

    83

     85

    85

    85

    85

    1,20

    1,26

    1,30

    1,38

    1,40

    1,41

    1,48

     

    Группы предприятий по количеству установленных металло­режущих станков намечены с помощью неравных интервалов, т. е. интервалов, у которых разности между верхней и нижней границами неодинаковы в разных группах. Так, во второй груп­пе величина интервала равна 50, в третьей—100, в четвертой — 300 и т. д., т. е. в приведенной группировке величина интервала постепенно увеличивается, а в последней группе верхняя гра­ница не указывается совсем. Интервалы, в которых указана лишь одна граница (верхняя или нижняя), называются открытыми. В приводимом примере открытыми являются первый (указана верхняя граница) и последний (указана нижняя граница) интер­валы; остальные интервалы являются закрытыми, так как в них указана и верхняя, и нижняя граница. Неравные интервалы при­меняются при группировках, которые охватывают массу единиц неоднородной совокупности с неравномерными и значительными колебаниями признака. При этом учитывается, что небольшое изменение величины группировочного признака в низших груп­пах отражает более существенные изменения в характере груп­пы, чем такое же по абсолютной величине различие в высших группах. Так, нельзя считать однозначными различия предприя­тий с числом установленных станков 101—200 и 1001—1100: во втором случае предприятия гораздо меньше отличаются друг от друга. Кроме того, в экономических исследованиях, как правило, с увеличением значений признака уменьшается число единиц, значение признака у которых находится в интервале одной и той же длины. Поэтому применение равных интервалов может привести к тому, что число единиц в группах будет слишком ма­ло, а поэтому закономерности в изменениях взаимосвязанных факторов могут отчетливо и не проявиться. Открытые интерва­лы используются обычно в тех случаях, когда признак в выде­ляемой группе единиц изменяется неравномерно и в широких пределах и когда отсутствуют качественные различия у отдель­ных единиц, включаемых в группу.

    Границы интервалов проводимой с определенной целью груп­пировки следует видоизменять в зависимости от особенностей изучаемой совокупности и временного периода. Так, например, группируя предприятия по стоимости основных фондов для вы­деления мелких, средних и крупных предприятий, применяют различные интервалы в разных отраслях промышленности. С дру­гой стороны, те предприятия, которые могли быть отнесены к крупным в изучаемой отрасли в 40—50-е годы, в настоящее вре­мя скорее можно отнести к средним и даже мелким. Эти обстоя­тельства также должны найти отражение в видоизменении ин­тервалов группировки.

    Внутри типичных групп для характеристики количественных различий единиц, составляющих соответствующую группу, могут быть применены равные интервалы. В этом случае величина ин­тервала определяется делением размаха варьирования на при­нятое число групп. 

    При анализе разнородных данных, например при анализе ма­териала, собранного в различные периоды времени, относящего­ся к различным отраслям народного хозяйства, возникает необ­ходимость применения вторичной группировки. Кроме того, ме­тодом вторичной группировки пользуются также для того, чтобы показать интенсивность процессов и явлений в разнообразных условиях, например, когда нужно показать степень укрупнения колхозов в различных районах, причем исходные данные пред­ставлены разными группировками.

    Метод группировок является основой применения других методов статистического анализа основных сторон и характерных особенностей изучаемых явлений. По своей роли в процессе исследования метод группировок выполняет некоторые функции, аналогичные функциям эксперимента в естественных науках: посредством группировки по отдельным признакам и комбинации самих признаков статистика имеет возможность выявить закономерности и взаимосвязи явлений в условиях, в известной мере ею определяемых. При использовании метода группировок появляется возможность проследить взаимоотношение различных факторов и определить силу их влияния на результативные показатели.

    Изучая количественную сторону массовых общественных явлений в неразрывной связи с их качественными особенностями, статистика стремится показать совокупность явлений в дифференциации, в многообразии их типов, рассмотреть взаимосвязи и соотношения между последними. С помощью метода группировок решаются сложные задачи статистического анализа. Учитывая, что необходимость группировки обусловливается, прежде всего, наличием качественных различий между изучаемыми явлениями, первую задачу группировок можно сформулировать как задачу выделения в составе массового явления тех его частей, которые однородны по качеству и условиям развития, в которых действуют одни и те же закономерности влияния факторов. В результате такой группировки выделяются социально-экономические типы (а отсюда и название группировки - типологическая) как выражение конкретного общественного процесса, его форм и разветвлений, как выражение существенных черт, общих для множества единичных явлений.

    Рисунок 1. Виды группировок


    3. Статистические таблицы как результат группировок.


    Результаты группировки представляются в виде статистических таблиц, делающих информацию обозримой.

    Статистическая таблица - форма рационального и наглядного изложения цифровых характеристик исследуемых явлений.

    Статистическое обобщение информации и представление ее в виде сводных статистических таблиц дает возможность характеризовать размеры, структуру и динамику изучаемых явлений. Часто к статистической таблице дается общий заголовок, в котором указывается содержание таблицы, место и время, к которым относятся приводимые в таблице данные, а также единицы измерения, если они одинаковы для всех приведенных сведений.

    Основные элементы статистической таблицы - подлежащее и сказуемое.

    Подлежащим таблицы являются единицы статистической совокупности или их группы.

    Сказуемое таблицы отражает то, что в ней говорится о подлежащем с помощью цифровых данных.

    Статистическая таблица содержит три вида заголовков:

    ·   общий;

    ·   верхний;

    ·   боковые.

    Заголовки таблицы должны быть краткими и раскрывать содержание показателей.







    Рисунок 2.


    Общий заголовок отражает содержание всей таблицы с указанием, к какому месту и времени она относится. Он располагается над макетом и является внешним заголовком. Верхние заголовки характеризуют содержание граф (заголовок сказуемого), а боковые (заголовки подлежащего) - содержание строк.

    В зависимости от строения подлежащего все статистические таблицы можно разделить на три группы:

    1.   Таблицы простые, или перечневые , в которых содержатся сводные показатели, относящиеся к перечню единиц наблюдения, или к перечню хронологических дат или территориальных подразделений. Соответственно таблицы могут быть названы простыми перечневыми, хронологическими или территориальными;

    2.   Таблицы групповые, в которых статистическая совокупность расчленяется на отдельные группы по какому-либо одному признаку, причем каждая из групп может быть охарактеризована рядом показателей;

    3.   Таблицы комбинационные, в которых совокупность разбита на группы не по одному, а по нескольким признакам.

    Выбор типа таблицы зависит всегда от цели ее построения. Если таблицы используются для практических нужд планирования и управления, то в них должны содержаться сведения по тем частям, в разрезе которых ведется планирование и управление. Чаще всего этой задаче соответствуют простые таблицы, используются также и групповые. Если же ставится задача более глубокого познания исследуемого объекта, то используются групповые и комбинационные таблицы.

    В простых таблицах помещаются данные по различного рода организациям: предприятиям, стройкам, учреждениям, министерствам и т.д., имеющие, как правило, познавательное значение.

    Примером простой таблицы является таблица 3.1, где приведена динамика цен на муниципальные квартиры в разных районах Москвы за 5 месяцев 1995 г.

    Таблица 4.

    Динамика цен 1 кв. м муниципального жилья в Москве в 2000 г. (млн. руб.)

    Местоположение жилья

    Январь

    Февраль

    Март

    Апрель

    Май

    Митино

    3,4

    3,7

    4,0

    4,8

    5,2

    Южное Бутово

    3,2

    3,5

    3,8

    4,5

    4,9

    Северное Бутово

    3,5

    3,8

    4,1

    4,8

    5,8

    Отрадное

    4,5

    4,9

    5,3

    6,0

    6,5

    Веерная улица

    5,3

    5,5

    5,9

    7,0

    7,6

    Жулебино

    3,4

    3,7

    4,0

    4,5

    4,9


    Сочетание территориальной группировки с данными за несколько месяцев 1995 г. позволяет получить весьма полезную информацию. По данным таблицы 1, мы видим наличие вариации цен за 1 кв. м муниципального жилья по районам города Москвы и, если в январе цена варьировала от 3,2 млн. руб. (Южное Бутово) до 5,3 млн. руб. (ул. Веерная), то в мае границы вариации существенно сдвинулись вправо: от 4,9 млн. руб. (Северное Бутово) до 7,6 млн. руб. (ул. Веерная). Кроме того, можно сделать вывод о наличии общей для всех районов Москвы тенденции неуклонного роста цен муниципального жилья. Данные подобного рода таблиц могут использоваться для принятия оперативных решений, например оценки того, как изменятся затраты на приобретение жилья, если задержаться с принятием решения хотя бы на месяц.

    В отличие от простых групповые и комбинационные таблицы обладают важными аналитическими свойствами: они позволяют производить наглядные сравнения и вскрывать существенные связи и различия в развитии явлений. Идея комбинационной таблицы состоит в том, что каждую из групп в групповой таблице разбивают на подгруппы по какому-либо признаку; выделенные подгруппы могут дальше расчленяться по следующему признаку и т.д.

    Результаты комбинационной группировки по большому количеству признаков даже при небольшом числе интервалов группировки становятся трудно обозримыми, и таблица теряет свое важнейшее преимущество - наглядность. Поэтому нецелесообразно составлять комбинационные таблицы по сочетанию более чем трех признаков и при количестве интервалов более четырех. Использование комбинационных таблиц и системы взаимосвязанных группировок позволяет провести глубокий и всесторонний анализ сложных общественных явлений.

    Группировка, осуществляемая не последовательно по отдельным признакам, как при комбинационной группировке, а одновременно по комплексу признаков, называется многомерной. Как уже сказано, характеристика одной и той же качественной стороны изучаемого явления может быть дана с помощью набора признаков. Например, для характеристики технического уровня развития предприятий могут быть использованы следующие показатели: удельный вес активной части промышленно-производственных основных фондов, удельный вес автоматических машин и оборудования в составе рабочих машин и оборудования; электровооружснность труда, машиновооруженность рабочих; степень охвата механизированным трудом, коэффициент обновления машин и оборудования и т.д.

    Характеризуя таким образом каждую единицу совокупности набором признаков, можно рассматривать эту единицу как точку в m-мерном пространстве, а задача многомерной группировки будет состоять в выделении точек, составляющих однородные группы единиц. Мерой близости (сходства) между единицами могут служить различные критерии. В зависимости от выбранного критерия существуют различные методы многомерной группировки.

    Применение методов многомерной группировки связано с большой вычислительной работой и требует использования электронной вычислительной техники. С помощью специальных алгоритмов на ЭВМ осуществляется формирование групп, в которых единицы совокупности объединяются на основании близости по всему комплексу признаков. В таблице 5 приведены результаты группировки предприятий отрасли по уровню технического развития и производительности труда.

    Таблица 5

    Распределение предприятий по уровню технической оснащенности и эффективности использования живого труда


    Примечание. Выделение однородных по техническому уровню групп предприятий было осуществлено с помощью метода кластерного анализа по восьми показателям технического уровня развития.

    Анализ данных таблицы позволяет выделить группы предприятий, добившихся наибольшего эффекта в своей деятельности и группы предприятий, располагающих резервами роста производительности труда за счет лучшего использования технического потенциала. Это прежде всего те шесть предприятий (группа З.1, первая цифра - номер сроки, вторая - номер столбца), которые имеют высокий технический потенциал, но эффективность использования живого труда здесь ниже среднего по отрасли уровня. В то же время восемь предприятий с низким уровнем технического развития имеют уровень производительности труда выше среднего по отрасли, что позволяет говорить о высокоэффективной деятельности предприятий группы 1.3.

    Такие группировки дают возможность, безусловно, лишь в общем оценить результаты деятельности предприятий соответствующих групп. Однако уже на их основе очевидна необходимость дифференцированного подхода к оценке результатов деятельности предприятий отрасли, располагающих примерно одинаковым техническим потенциалом, но различающихся уровнем эффективности использования труда.


    4. Кластерный анализ как метод многомерных группировок.


    Современный уровень развития методов многомерного статистического анализа и наличие ЭВМ позволяют осуществлять классификацию объектов на широкой и объективной основе, с учетом всех существенных структурно-типологических признаков и характера распределения объектов в заданной системе признаков.

    В настоящее время существует много методов построения классификации многомерных объектов с помощью ЭВМ. При этом традиционно выделяют две группы методов. Методы первой группы связаны с задачей “узнавания'', идентификации ”объектов” они получили название методов распознавания образов. Смысл распознавания заключается в том, чтобы любой предъявляемый машине объект с наименьшей вероятностью ошибки был отнесен к одному из заранее сформированных классов. Здесь машине сначала предъявляют “обучающую последовательность” Объектов (о каждом из которых известно, к какому классу или “образу” он принадлежит), а затем, “обучившись”, машина должна распознать, к каким классам относятся новые объекты из изучаемой совокупности.

    Более общий подход к классификации включает не только отнесение объектов к одному из классов, но и одновременное формирование самих “образов”, число которых может быть заранее неизвестно. При отсутствии обучающей последовательности такая классификация производится на основе стремления собрать в одну группу в некотором смысле схожие объекты, да еще так, чтобы объекты из разных групп (классов) были по возможности несхожими. Именно такие методы получили название методов автоматической классификации (кластерного анализа, таксономии, распознавания образов без учителя”).

    В настоящее время разработаны десятки и сотни различных алгоритмов, реализующих многомерную классификацию автоматически. Они основаны на различных гипотезах о характере распределения объектов в многомерном пространстве признаков, на различных математических процедурах. Обзоры этих методов широко представлены в литературе.

    Отсутствие априорной информации о характере распределения объектов внутри каждой группы предполагает построение многомерной классификации на основе методов кластерного анализа (cluster (англ.) - скопление, “гроздь”, группа объектов, характеризующихся общими свойствами). На примере кластерного анализа рассмотрим основные этапы построения многомерной классификации.

    Кластер-анализ: Будем считать, что все m признаков измерены в количественной шкале. Тогда каждый из n объектов может быть представлен точкой в m-мерном пространстве признаков. Характер распределения этих точек в рассматриваемом пространстве определяет структуру сходства и различия объектов в заданной системе показателей.

    О сходстве объектов можно судить по расстоянию между соответствующими точками. Содержательный смысл такого понимания сходства означает, что объекты тем более близки, похожи в рассматриваемом аспекте, чем меньше различий между значениями одноименных показателей.

    Для определения близости пары точек в многомерном пространстве обычно используют евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, взятых для данной пары объектов:

    где dij - евклидово расстояние между i-м и j-м объектами; xit, - значение l-то показателя для i-го объекта.

    Вычислив расстояние между каждой парой объектов, получим квадратную матрицу D, имеющую размеры nxn (по числу объектов); эта матрица, очевидно, симметрична, т.е. dij = dij (i,j=1,…,n)

    Матрица расстояний D служит основой при реализации методов кластерного анализа, в том числе и агломеративно-иерархического метода, который часто используется для многомерной классификации объектов в социально-экономических исследованиях. Основная идея этого метода заключается в последовательном объединении группируемых объектов - сначала самых близких, затем более удаленных друг от друга. Процедура построения классификации состоит из последовательности шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров).

    Существуют различные способы определения расстояния между группами объектов (различающие методы кластерного анализа). Обычно близость двух кластеров определяется как средний квадрат расстояния между всеми такими парами объектов, где один объект пары принадлежит к одному кластеру, а другой - к другому:

    где Dpq - мера близости между р - м и q -м кластерами; Rp - р-й кластер; Rq - q -й кластер; nq- число объектов в p-м кластере; nq- число объектов в q -м кластере.

    На первом шаге процедуры агломеративно-иерархического метода кластерного анализа рассматривается начальная матрица расстояний между объектами и по ней определяется минимальное число di1j1; далее, наиболее близкие объекты с номерами i1 и j1 объединяются в один кластер, в матрице вычеркиваются строки и столбец с номером j1 , а расстояния от нового кластера (он получает номер i1 ) до всех остальных кластеров (на первом шаге - объектов) вычисляются по формуле; в данном случае квадраты таких расстояний равны полусуммам квадратов расстояний от i1-го и j1-го объектов до каждого из остальных. Эти вновь вычисленные значения расстояний заносятся в i1-ю строку и i1-й столбец матрицы D.

    На втором шаге процедуры по матрице D, содержащей уже n-1 строк и столбцов, определяют минимальное число di2j2 и формируют новый кластер с номером i2. Этот кластер может быть построен в результате объединения либо двух объектов, либо одного объекта с i1 -м кластером, построенным на первом шаге. Далее, в матрице D вычеркиваются строка столбец с номером j2, а строка и столбец с номером i2 перечитываются, и т.д.

    Таким образом, метод кластерного анализа включает п-1 аналогичных шагов. При этом после выполнения k-го шага (k n-1) число кластеров равно n-k (некоторые из них могут быть отдельными объектами), а матрица D имеет размеры (n-k)x (n-k).В конце этой процедуры, на (n-1)-м шагe, получится кластер, объединяющий все n объектов.

    Результаты классификации, построенной изложенным методом, можно изобразить в виде дерева иерархической структуры (дендрограммы), содержащего n уровней, каждый из которых соответствует одному из шагов описанного процесса последовательного укрупнения кластеров.

    В кластерном анализе существенным является выбор необходимого числа кластеров. В некоторых случаях число кластеров может быть выбрано из априорных соображений, однако чаще это число определяется в процессе формирования кластеров на основе значений некоторых показателей их однородности и степени удаленности друг от друга (например, показателей внутригрупповой дисперсии или вариации).

    Результаты классификации зависят от масштабов используемых значений показателей. Из формулы следует, что вменение масштаба значений показателей приводит к изменение расстояний между объектами. Так, например, если некоторый показатель, выраженный в рублях, переведен в копейки, то относительный вклад этого показателя при вычислении меры близости Dpq увеличивается в 100 раз. Для устранения такой неоднородности исходных данных показатели стандартизируют путем вычитания среднего значения и деления на среднее квадратическое отклонение, так что дисперсия каждого показателя оказывается равной 1, а среднее - О. С помощью стандартизации все показатели оказываются равноценными по отношению к сходству рассматриваемых объектов.

    Минимизация среднего расстояния между кластерами, которая производится на каждом шаге, эквивалентна минимизации некоторого критерия качества классификации, оценивающего степень однородности формируемых кластеров.

    Меры близости объектов. Отметим, что степень сходства многомерных объектов может быть охарактеризована не только с помощью евклидова расстояния, но и с помощью других мер, выбор которых определяется структурой пространства признаков и цепью классификаций. Например, если признаки имеют качественную природу (пусть для определенности все m признаков - альтернативные, т.е. принимают значения 0 или 1), то степень сходства пары объектов (i, j) может быть выражена различными коэффициентами, из которых приведем здесь

     

    а - расстояние, по Хеммингу,

    б - коэффициент композиционного сходства

     

    где Pij и qij- - числа признаков, имеющих соответственно одинаковые и различающиеся значения для i-го и j-го объектов; m - число признаков.

    Как следует из формулы (8), расстояние dij по Хеммингу, равно числу признаков, значения которых для обоих объектов не совпадают. Значения dij - изменяются от 0 до m ; они тем меньше, чем ближе эти объекты в заданной системе признаков.

    Что касается коэффициента композиционного сходства Sij то его значение тем больше, чем ближе данные два объекта; Sij изменяется в пределах от 0 до 1. Как следует из формулы (9), Sij =О, если значения всех одноименных признаков для обоих объектов различаются, и Sij=1, если значения всех признаков для них совпадают.

    Подсчитав значения коэффициентов dij или Sij для всех пар объектов, получим квадратную матрицу размером nxn аналогичную матрице расстояний D (и также симметричную), которую далее можно анализировать с помощью какого-либо метода автоматической классификации.

    Построенную с помощью этих методов многомерную группировку объектов можно рассматривать в типологическом аспекте, если содержательный анализ полученных результатов позволяет указать качественные и количественные особенности выделенных групп - кластеров.

    Характеризуя методы автоматической классификации с точки зрения возможности распространения выборочных результатов на генеральную совокупность, отметим, что статистические критерии значимости для проверки гипотезы о принадлежности объектов к тем или иным группам разработаны слабо. Полученная многомерная классификация рассматривается как характерная именно для изучаемой совокупности (как это и принято в анализе данных).

    Рассматривая многомерные задачи типологии, следует подчеркнуть плодотворность совместного использования методов автоматической классификации и факторного анализа. Существует несколько подходов к последовательному использованию этих методов для обработки одних и тех же данных. Наиболее органично методы автоматической классификации и факторного анализа сочетаются в новом синтетическом подходе, имеющем название лингвистического подхода к обработке данных.

    Заключение.


    Первой ступенью систематизации и обобщения данных стати­стического наблюдения является статистическая сводка. Понятие статистической сводки в широком смысле слова охватывает це­лый комплекс статистических операций, направленных на объе- | динение зарегистрированных при наблюдении единичных слу.?.' чаев в группы, сходные в том или ином отношении; подсчет ито­гов по выделенным группам и по всей совокупности в целом и оформление результатов группировки и сводки в виде статисти­ческих таблиц. В план статистической сводки включаются воп­росы, связанные с последовательным осуществлением отдельных этапов сводки, с очередностью обработки материалов наблюде­ния. При составлении плана сводки разрабатываются макеты сводных таблиц, на основе которых дается характеристика раз­меров, структуры и взаимосвязей изучаемых явлений. В плане сводки указывается также, кто и в какие сроки осуществляет сводку, каким способом, куда поступают сводные данные и кто проводит их дальнейшую обработку.

    Одним из основных и наиболее распространенных методов об­работки и анализа первичной статистической информации явля­ется группировка. Целостную характеристику совокупности необ­ходимо сочетать с характеристикой составных ее частей, классов и т. п. Под группировкой в статистике понимают расчленение статистической совокупности на группы, однородные в каком-ли­бо существенном отношении, и характеристику выделенных групп системой показателей в целях выделения типов явлений, изуче­ния их структуры и взаимосвязей.

    Метод группировки является основой для применения других методов статистического анализа основных сторон и характер­ных особенностей изучаемых общественных явлений. По своей роли в процессе исследования метод группировок выполняет не­которые функции, аналогичные функциям эксперимента в естест­венных науках: посредством группировки по отдельным призна­кам и комбинации самих признаков статистика имеет возмож­ность выявить закономерности и взаимосвязи явлений в усло­виях, в известной мере определяемых ею. При использовании метода группировок появляется возможность проследить взаимоот­ношение различных факторов.

    В развитие метода группировок огромный вклад внесли оте­чественные статистики. Им принадлежит первенство в примене­нии комбинационных таблиц, в разработке классификации таб­лиц и в проведении многочисленных группировок материалов аг­рарных переписей и обследований, которые оказали благотвор­ное влияние на другие отраслевые статистики и общую методо­логию.

    Список использованных источников.

    1.   Бендина Н.В. Общая теория статистики (конспект лекций). - М.: ПРИОР, 1999.

    2.   Гусаров В.М. Теория статистики. - М.: Аудит,1998.

    3.   Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. - М.: Инфра-М, 1998.

    4.   Толстик Н.В., Матегорина Н.М. Статистика. - Ростов-на-Дону, Феникс, 2000.

    5.   Ефимова М.Р., Рябцев В.М. Общая теория статистики: Учебник. – М.: Финансы и статистика, 1991. – 304 с.

    6.   Статистика: Курс лекций / Харченко Л.П., Долженкова В.Г., Ионин В.Г. и др.; Под ред. к.э.н. В.Г. Ионина. – Новосибирск: Изд-во НГАЭиУ, М.: ИНФРА-М, 1999. – 310 с.

    7.   Калинина В.Н., Панкин В.Ф. Математическая статистика: Учебник, Высшая школа, 2001г. -  336 стр.

    8.   Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и упражнениях, ЮНИТИ - 2001, 270 стр.

    9.   Адамов В.Е. и др. "Экономика и статистика фирм" Учебник. 3-е изд., перераб. и доп. – 2002, 288 с.

    10.   Кожухарь Л.И.Основы общей теории статистики, Финансы и статистика - 1999, 144 стр.

    11.   Башина О.Э. "Общая теория статистики" Учебник. - 5-е издание. – 2001. – 440 с.

    12.   Гришин А.Ф.  "Статистика" Учеб. пособие 2003. -  240 с.

    13.   Практикум по теории статистики. Учебное пособие

    14.    Шмойлова Р.А., Финансы и статистика - 2001, 416 стр.

    15.   Под ред. И.И. Елисеевой  "Социальная статистика" Учебник. - 3-е изд., перераб. и доп.  480 стр.


Если Вас интересует помощь в НАПИСАНИИ ИМЕННО ВАШЕЙ РАБОТЫ, по индивидуальным требованиям - возможно заказать помощь в разработке по представленной теме - Методы построения многомерных группировок ... либо схожей. На наши услуги уже будут распространяться бесплатные доработки и сопровождение до защиты в ВУЗе. И само собой разумеется, ваша работа в обязательном порядке будет проверятся на плагиат и гарантированно раннее не публиковаться. Для заказа или оценки стоимости индивидуальной работы пройдите по ссылке и оформите бланк заказа.