Классификации и анализа данных. Кластерный анализ — это алгоритм исследования данных, разбитых на группы по схожим признакам

Несмотря на то, что «процесс анализа информации» — это скорее технический термин, но его наполнение на 90 % связано с деятельностью человека.

Понимание потребностей в основе любой задачи по анализу информации тесно связано с пониманием бизнеса компании. Сбор данных из подходящих источников требует опыта в их подборе, независимо от того, насколько окончательный процесс сбора данных может быть автоматизирован. Для превращения собранных данных в аналитические выводы и эффективного применения их на практике необходимы глубокие знания бизнес-процессов и наличие навыков консультирования.

Процесс анализа информации представляет собой цикличный поток событий, который начинается с анализа потребностей в рассматриваемой области. Затем следует сбор информации из вторичных и (или) первичных источников, ее анализ и подготовка отчета для лиц, ответственных за принятие решений, которые будут его использовать, а также давать свои отзывы и готовить предложения.

На международном уровне процесс анализа информации характеризуется следующим образом:

  • Сначала в ключевых бизнес-процессах определяются этапы принятия решений, которые сопоставляются со стандартными конечными результатами анализа информации.
  • Процесс анализа информации начинается с оценки потребностей на международном уровне, т. е. с определения будущих потребностей, связанных с принятием решений, и их проверкой.
  • Этап сбора информации автоматизирован, что позволяет выделить время и ресурсы на первичный анализ информации и, соответственно, повысить ценность уже имеющейся вторичной информации.
  • Значительная часть времени и ресурсов тратится на анализ информации, выводы и интерпретацию.
  • Полученная в результате аналитическая информация доводится до сведения каждого лица, ответственного за принятие решений, в индивидуальном порядке с отслеживанием процесса ее дальнейшего использования.
  • У членов группы, которая занимается анализом информации, сформирована установка на непрерывное совершенствование.
Содержание
  1. Введение: цикл анализа информации
  2. 1. Анализ потребностей
  3. 2. Охват вторичных источников информации
  4. 3. Исследования первичных источников
  5. 4. Анализ
  6. 5. Предоставление результатов
  7. 6. Использование и предоставление комментариев/замечаний
  8. Начало работы: разработка процесса анализа информации
  9. Определение этапов принятия решений в бизнес-процессах, которые требуют проведения аналитических исследований рынка
  10. Работа в рамках цикла анализа информации и устранение «узких мест» в процессе
  11. Непрерывное развитие: стремление к международному уровню анализа информации
  12. Пример. Изучение бизнес-цикла для предприятия химической промышленности
  13. Пример. Оценка рынка гидродифторида аммония и фтористоводородной кислоты в России и СНГ
  14. Пример. Эффективный процесс анализа информации на основе оценки преобладающих тенденций для представления руководителям в виде отчетов
  15. Пример. Глобальная биотехнологическая компания разработала цикл анализа информации для своевременного предоставления аналитических данных и упреждающего принятия решений.
  16. Особенности кластерного анализа
  17. Торговля на Форекс с помощью КА
  18. Области и особенности применения анализа кластеров
  19. Древовидная кластеризация
  20. Правила объединения или связи
  21. Классификация объектов по характеризующим их признакам
  22. Общие сведения о кластерном анализе
  23. Преимущества и недостатки
  24. Методы
  25. Нормирование переменных
  26. Метод К-средних в программе Statistica
  27. 1.2. Обучение: с учителем и без
  28. 1.3. Типы классов
  29. 1.4. Проверка гипотез
  30. 1.5. Ошибки при классификации
  31. 1.6. Одноклассовая классификация
  32. 1.7. Обучение и проверка
  33. 1.8 . Проклятие размерности
  34. 2. Модельные данные
  35. 2.1. Пример
  36. 2.2. Данные
  37. 2.3. Рабочая книга Iris.xls
  38. 2.4. Анализ данных методом главных компонент
  39. 3. Классификация «с учителем»
  40. 3.1. Линейный дискриминатный анализ (LDA)
  41. 3.2. Квадратичный дискриминатный анализ (QDA)
  42. 3.3. PLS дискриминация (PLSDA )
  43. 4. Классификация без учителя
  44. 4.1. Опять PCA
  45. 4.2. Кластеризация с помощью K -средних (kMeans )
  46. Заключение

Введение: цикл анализа информации

Термин «процесс анализа информации» означает непрерывный, цикличный процесс, который начинается с определения информационных потребностей людей, ответственных за принятие решений, и заканчивается предоставлением того объема информации, который соответствует этим потребностям. В этом отношении необходимо сразу же провести различие между объемом информации и процессом анализа информации. Определение объема информации направлено на выявление целей и потребностей в информационных ресурсах для всей программы анализа информации, тогда как процесс анализа информации начинается с определения потребностей по одному, пусть даже и незначительному, конечному результату такого анализа.

Процесс анализа информации всегда должен быть привязан к существующим в компании процессам, то есть стратегическому планированию, продажам, маркетингу или управлению производством товара, в рамках которых и будет использоваться данная информация. На практике же использование полученной на выходе информации должно быть либо напрямую связано с ситуациями принятия решений, либо такая информация должна способствовать повышению уровня информированности организации по тем направлениям операционной деятельности, которые имеют отношение к различным бизнес-процессам.

На рис. 1 показаны этапы цикличного процесса анализа информации (подробнее об этом см. ниже). В свою очередь, в правой части диаграммы показаны конкретные итоги процесса анализа информации, когда решения принимаются на основе общих исследований рынка, и итоги процесса анализа информации, прямо связанного с различными бизнес-процессами и проектами.

Кликните мышкой по изображению, чтобы увеличить его

Цикл анализа информации состоит из шести этапов. Их подробное описание приведено ниже.

1. Анализ потребностей

Тщательная оценка потребностей позволяет определить цели и объем задачи по анализу информации. Даже если те, кто решает такую задачу, будут вести сбор информации для собственного использования, имеет смысл четко обозначить ключевые направления в решении этой задачи для концентрации ресурсов в наиболее подходящих областях. Однако в подавляющем большинстве случаев те, кто проводит исследования, не являются конечными пользователями его результатов. Поэтому они должны иметь полное представление о том, для чего будут использоваться конечные результаты, чтобы исключить сбор и анализ данных, которые в конечном итоге могут оказаться неактуальными для пользователей. Для этапа анализа потребностей разработаны различные шаблоны и анкеты, задающие высокую планку качества на начальной стадии решения задачи.

Однако самое важное заключается в том, что потребности организации в анализе информации должны быть до конца изучены и трансформированы из внешних во внутренние для того, чтобы программа анализа информации представляла собой определенную ценность. Сами по себе шаблоны и анкеты не могут обеспечить достижение этой цели. Они, естественно, могут оказаться полезными, но бывали случаи, когда отличный анализ потребностей проводился просто на основе неофициальной беседы с руководителями компании. Это, в свою очередь, требует от группы по анализу информации подхода с позиций консультирования или, по крайней мере, умения продуктивно вести деловые переговоры с теми, кто отвечает за принятие решений.

2. Охват вторичных источников информации

В рамках цикла анализа информации мы отдельно выделяем сбор информации из вторичных и первичных источников. Для этого есть ряд причин. Во-первых, сбор информации из общедоступных источников обходится дешевле, чем обращение напрямую к первичным источникам. Во-вторых, это проще, при том, разумеется, условии, что люди, перед которыми поставлена такая задача, имеют достаточный опыт изучения имеющихся вторичных источников. На самом деле, управление источниками информации и связанная с этим оптимизация затрат сами по себе являются отдельной областью знаний. В-третьих, охват вторичных источников информации перед проведением исследований в форме интервью даст тем, кто проводит такие исследования, ценную базовую информацию общего характера, которую можно проверить и использовать, выдавая ее в ответ на информацию от интервьюируемых. Кроме того, если в ходе изучения вторичных источников удастся получить ответы на некоторые вопросы, это снизит стоимость этапа исследований первичных источников, а иногда и вовсе исключит необходимость их проведения.

3. Исследования первичных источников

Каким бы огромным ни был объем имеющейся на сегодняшний день общедоступной информации, не ко всем сведениям можно получить доступ через изучение вторичных источников. После изучения вторичных источников пробелы в исследовании можно заполнить, интервьюируя экспертов, хорошо знакомых с темой исследования. Этот этап может оказаться относительно дорогим по сравнению с изучением вторичных источников, что, естественно, зависит от масштаба поставленной задачи, а также от того, какие ресурсы задействованы: нередко компании привлекают к участию в исследованиях первичных источников сторонних исполнителей.

4. Анализ

После сбора информации из различных источников необходимо разобраться, что именно из этого нужно для первоначального анализа потребностей в соответствии с поставленной задачей. Опять-таки, в зависимости от объема поставленной задачи этот этап исследований может оказаться довольно затратным, так как включает в себя, по меньшей мере, временные затраты внутренних, а иногда и внешних, ресурсов и, возможно, некую дополнительную проверку правильности результатов анализов посредством дальнейших интервью.

5. Предоставление результатов

Формат предоставления результатов после выполнения задачи по анализу информации имеет для конечных пользователей немаловажное значение. Как правило, у людей, ответственных за принятие решений, нет времени на поиск ключевых результатов анализа в большом объеме полученных ими данных. Основное содержание необходимо перевести в легкий для восприятия формат с учетом их требований. В то же время следует обеспечить удобный доступ к дополнительным фоновым данным для тех, кто заинтересуется и захочет «копнуть глубже». Эти основные правила применяются независимо от формата предоставления информации, будь то программное обеспечение с базой данных, информационный бюллетень, презентация PowerPoint, личная встреча или семинар. Кроме того, существует еще одна причина, по которой мы отделили этап предоставления информации от конечного использования, а также получения отзывов и предложений по предоставленной аналитической информации. Иногда решения будут приниматься в той же последовательности, в которой будет предоставляться аналитическая информация. Однако гораздо чаще базовые, справочные материалы будут предоставлены до того, как возникнет фактическая ситуация принятия решения, поэтому формат, канал и способ предоставления информации влияют на то, как она будет восприниматься.

6. Использование и предоставление комментариев/замечаний

Этап использования служит своего рода лакмусовой бумажкой для оценки успешности выполнения задачи по анализу информации. Он позволяет понять, отвечают ли полученные результаты потребностям, определенным в самом начале процесса анализа информации. Независимо от того, были ли получены ответы на все первоначально заданные вопросы, на этапе использования, как правило, возникают новые вопросы и необходимость в новом анализе потребностей, особенно если потребность в анализе информации носит постоянный характер. Кроме того, в результате совместных усилий по созданию информационных материалов конечными пользователями и специалистами в области анализа информации к моменту перехода на этап ее использования может оказаться, что конечные пользователи такой информации уже внесли свой вклад в ожидаемый конечный результат. С другой стороны, те, кто в основном занимался анализом, могут быть активно задействованы в процессе формирования выводов и интерпретации результатов, на основании которых будут приниматься окончательные решения. В идеале продуманные замечания и комментарии на этапе использования уже можно использовать в качестве основы для оценки потребностей в рамках следующей задачи анализа информации. Таким образом, цикл процесса анализа информации завершается.

Начало работы: разработка процесса анализа информации

Определение этапов принятия решений в бизнес-процессах, которые требуют проведения аналитических исследований рынка

Термин «анализ информации для этапа принятия решения» приобретает все большую популярность, поскольку компании, в которых уже действует программа анализа информации, начали рассматривать различные варианты более эффективной интеграции этих программ в процессы принятия решений. Насколько абстрактными, или наоборот конкретными, будут меры по «улучшению связи между конечными результатами анализа информации и бизнес-процессами», в значительной степени будет зависеть от того, были ли данные бизнес-процессы определены формально, а также от того, есть ли у группы по анализу информации понимание конкретных информационных потребностей, связанных с этапами принятия решений в рамках этих процессов.

Как мы упоминали в главе 1, методы и способы, которые обсуждаются в этой книге, оптимально подходят для компаний, у которых уже имеются структурированные бизнес-процессы, например процесс выработки стратегии. Компаниям, управление которыми не так четко структурировано, возможно, придется проявить некоторую креативность при использовании подходов методики проведения анализа рынка международного уровня с учетом действующих у них схем управления. Тем не менее, основные принципы, которые мы здесь рассматриваем, подойдут для любой компании.

Оценка потребностей в анализе информации: почему это так важно?

С учетом того, что понимание ключевых требований к анализу информации в самом начале этого процесса оказывает более сильное влияние на качество конечных результатов, чем какой бы то ни было этап данного процесса, поразительно, что этапу оценки потребностей нередко уделяется слишком мало внимания. Несмотря на потенциальную ограниченность ресурсов на других этапах процесса анализа информации, одно лишь пристальное внимание к оценке потребностей во многих случаях позволило бы существенно повысить ценность и применимость конечных результатов данного процесса, оправдывая таким образом затраты времени и ресурсов на выполнение задачи по анализу информации. Ниже мы рассмотрим конкретные способы улучшения качества оценки потребностей.

Нередко автоматически считается, что руководство знает, какая информация нужна компании. Однако на самом деле высшее руководство, как правило, имеет представление лишь о части информационных потребностей своей организации и даже в этом случае, возможно, находится не в самом лучшем положении, чтобы точно определить, какая информация нужна, не говоря уже о том, где ее можно найти.

В результате постоянно повторяется ситуация, когда для выполнения задач по анализу информации нет ни четко сформулированного представления о проблеме, ни ее бизнес-контекста. Те, кто лучше всего знаком с источниками информации и методами анализа, тратят время на беспорядочную, по всей видимости, обработку данных и не видят картины в целом, а также тех подходов, которые имеют наиболее существенное значение для компании. Неудивительно, что в результате люди, ответственные за принятие решений, получают гораздо больше информации, чем им нужно, что в принципе контрпродуктивно, поскольку вскоре они начинают игнорировать не только бесполезную, но и важную информацию. Им нужен не больший объем информации, а более качественная и точная информация.

В то же время у людей, ответственных за принятие решений, могут быть нереалистичные ожидания по поводу доступности и точности информации, так как перед постановкой задачи они не проконсультировались со специалистами в области анализа информации. Следовательно, в идеале специалисты в области анализа информации и люди, ответственные за принятие решений, должны находиться в постоянном контакте друг с другом и вместе работать над тем, чтобы обе стороны имели одинаковое представление о первоочередных информационных потребностях. Умение управлять этим процессом потребует от аналитиков, работающих в этом направлении, целого ряда навыков:

  • Аналитик должен понимать, как выявлять и определять информационные потребности людей, ответственных за принятие решений.
  • Аналитик должен развивать навыки эффективного общения, проведения интервью и презентаций.
  • В идеале аналитик должен разбираться в психологических типах личности, чтобы учитывать различную направленность людей, ответственных за принятие решений.
  • Аналитик должен знать организационную структуру, культуру и среду, а также ключевых опрашиваемых лиц.
  • Аналитик должен сохранять объективность.

Работа в рамках цикла анализа информации и устранение «узких мест» в процессе

На начальных этапах внедрения программы анализа информации целевая группа для проведения мероприятий, как правило, ограничена, равно как и конечные результаты, которые дает программа. Аналогичным образом при обработке конечных результатов часто возникают различные затруднения (так называемые «узкие места»): даже простой сбор разрозненных данных из вторичных и первичных источников может потребовать знаний и опыта, которых у компании нет, а после завершения сбора информации может оказаться, что времени и ресурсов для проведения детального анализа собранных данных недостаточно, не говоря уже о подготовке информативных и тщательно проработанных презентаций, которыми могли бы воспользоваться люди, ответственные за принятие решений. Более того, на начальных этапах разработки программы анализа информации практически ни у одной компании нет специальных инструментов хранения и распространения результатов такого анализа. Как правило, в конечном итоге результаты предоставляются целевым группам в виде обычных вложений, пересылаемых по электронной почте.

Сложности выполнения аналитической задачи в рамках цикла анализа информации можно описать, пользуясь стандартным треугольником управления проектом, т. е. необходимо выполнить задачу и выдать результат при трех основных ограничениях: бюджете, сроках и объеме работ. Во многих случаях эти три ограничения конкурируют между собой: в стандартной задаче по анализу информации увеличение объема работ потребует увеличения сроков и бюджета; жесткое ограничение по срокам, вероятно, будет означать увеличение бюджета и одновременное сокращение объема работ, а ограниченный бюджет, скорее всего, означает как ограничение объема работ, так и сокращение сроков на реализацию проекта.

Возникновение в процессе анализа информации «узких мест» обычно приводит к существенным трениям при выполнении исследовательской задачи в рамках цикла анализа информации на начальных этапах разработки программы для такого анализа. Поскольку ресурсы ограничены, в первую очередь следует устранить наиболее критичные «узкие места». Достаточно ли у группы по анализу информации возможностей для его проведения? Необходимо ли дополнительное обучение? Или проблема скорее заключается в том, что аналитикам не хватает ценной информации, с которой можно работать — другими словами, наиболее критичным «узким местом» является сбор информации? А может быть, группе по анализу информации просто не хватает времени, то есть группа не в состоянии своевременно реагировать на срочные запросы?

Повысить эффективность выполнения аналитической задачи в рамках цикла анализа информации можно в двух направлениях. «Производительность» цикла, т. е. тщательность, с которой группа по анализу информации может обрабатывать аналитические задачи на каждом этапе, и скорость ответа на вопрос. На рис. 2 показана разница между этими подходами и в целом различие между задачами по стратегическому анализу и запросами на проведение исследований, требующими оперативного реагирования.

Intelligence_Process-02

Хотя и тот, и другой подход предполагают прохождение аналитической задачи через все этапы цикла анализа информации, группа по анализу информации, перед которой поставлена задача оперативно провести исследования, будет работать над изучением вторичных и первичных источников параллельно (иногда один телефонный звонок специалисту может дать необходимые ответы на вопросы, поставленные в запросе на проведение исследований). Кроме того, во многих случаях анализ и предоставление информации объединены, например, в кратком обзоре, который аналитик передает руководителю, запросившему данную информацию.

Производительность цикла анализа информации можно повысить, добавив либо внутренние (нанятые), либо внешние (приобретенные) ресурсы там, где они необходимы, что позволит добиться более качественных результатов и расширить возможности по обслуживанию все большего количества групп пользователей в пределах организации.

Тот же принцип применим и к обеспечению быстродействия при реализации последовательности операций, т. е. важно то, насколько быстро срочная задача по проведению исследований проходит через различные этапы цикла. По сложившейся традиции компании преимущественно концентрируются на обеспечении стабильной пропускной способности посредством долгосрочных схем планирования ресурсов и обучения персонала. Однако по мере развития такого специализированного направления, как анализ информации, и повышения доступности глобальных профессиональных ресурсов, привлекаемых со стороны, все большее распространение получают и временные схемы, реализуемые в каждом конкретном случае и обеспечивающие необходимую гибкость.

На рис. 3 показаны два типа итоговых результатов цикла анализа информации, то есть стратегический анализ и исследования, требующие оперативного реагирования (см. график конечных результатов анализа информации). Несмотря на то, что задачи по проведению исследований, требующих оперативного реагирования, обычно связаны с бизнес-процессами, уровень их анализа не очень высок из-за банальной нехватки времени для проведения такого анализа. С другой стороны, задачи по стратегическому анализу, как правило, связаны с высоким уровнем совместного творчества на этапе анализа и предоставления информации, что ставит их практически на вершину треугольника, где осуществляется интерпретация и применение полученной информации.

Intelligence_Process-03

Непрерывное развитие: стремление к международному уровню анализа информации

Отлаженность процесса анализа информации можно наглядно представить в виде графика цикла равномерной толщины (рис. 2), в том смысле, что зрелый процесс анализа информации не имеет «слабых звеньев» или существенных «узких мест» в организации последовательности операций. Такая равномерность требует соответствующего планирования ресурсов на каждом этапе, что, в свою очередь, достигается благодаря многократному прохождению цикла с учетом всех деталей. Например, первоначальную оценку потребностей можно постепенно улучшить благодаря тому, что люди, ответственные за принятие решений и пользующиеся результатами работы, будут замечать недостатки и типичные расхождения на начальном этапе выполнения задач по аналитическим исследованиям рынка. С тем же успехом можно со временем развить сотрудничество между специалистами по поиску информации и аналитиками (если эти две функции разделены) благодаря тому, что вопросы, которые ранее остались незамеченными и были подняты в ходе анализа, передаются специалистам по поиску информации с целью сбора дополнительных данных. Со временем опыт покажет, какие ресурсы нужны для каждого из этих этапов, чтобы добиться оптимальных результатов.

Какие результаты в конечном итоге являются «оптимальными», определяется тем, насколько точно полученная на выходе информация соответствует потребностям людей, ответственных за принятие решений, в рамках бизнес-процессов. И это снова возвращает нас к равномерной толщине цикла анализа информации: процесс анализа информации международного уровня начинается не с оценки потребностей как таковых, а с четкого определения, где и как будет применяться полученная на выходе информация. На самом деле, общение между людьми, ответственными за принятие решений, и специалистами в области анализа информации в рамках всего аналитического процесса международного уровня должно быть постоянным, информативным и направленным в обе стороны.

Один из способов укрепления связей между принятием решений и исследованиями рынка — заключить соглашения об уровне услуг с ключевыми заинтересованными сторонами, которые обслуживает программа аналитических исследований рынка. Согласование необходимого уровня услуг по исследованиям рынка с руководителями высшего звена по стратегическому планированию, продажам, маркетингу и НИОКР позволит четко определить конечные результаты проведения таких аналитических исследований и мероприятия по каждой группе заинтересованных лиц на ближайшие 6–12 месяцев, в том числе бюджет на исследования рынка, задействованных лиц, основные этапы и взаимодействие на протяжении всего процесса.

Заключение соглашений об уровне услуг имеет ряд преимуществ:

  • Необходимо время, чтобы сесть и обсудить основные цели и этапы принятия решений по ответственным за ключевые бизнес-процессы = группа по исследованиям рынка получает более полное представление о том, что важно для руководства, и вместе с тем улучшает личные отношения.
  • Уменьшается риск непредвиденной избыточной нагрузки по специальным проектам, благодаря выявлению направлений для регулярного пересмотра, стратегического анализа информации и т. д.
  • Появляется время для совместного творчества в процессе анализа информации: нередко совещания и семинары по аналитическим исследованиям рынка с участием постоянно занятых руководителей нужно планировать за несколько месяцев.
  • Благодаря четкой постановке целей и оценке результатов упорядочиваются мероприятия по исследованиям рынка, повышается уровень аналитики.
  • В целом уменьшается замкнутость организации и так называемое «варение в собственном соку», сотрудничество между руководителями и специалистами по аналитическим исследованиям рынка становится более плодотворным.

Приведенные в конце два примера наглядно показывают, как благодаря налаженному процессу анализа информации аналитическая группа может реагировать на различные требования, содержащиеся в задаче по анализу информации, в зависимости от географического региона, который анализируется в рамках этой задачи. В «западном мире» из вторичных источников можно получить большое количество достоверной информации практически по любой теме. Благодаря этому задача специалистов в области анализа информации сводится к поискам наилучших источников для эффективного с точки зрения затрат сбора информации с целью ее последующего анализа и предоставления отчетов.

С другой стороны, на развивающихся рынках часто наблюдается нехватка надежных вторичных источников или же отсутствие необходимых данных на английском языке. Следовательно, специалистам в области анализа информации нужно быстро обратиться к первичным источникам и провести интервью, как правило, на языке данной страны. В этой ситуации важно полагаться на достаточно большое количество источников, чтобы оценить правильность результатов исследований, прежде чем перейти к их анализу.

Пример. Изучение бизнес-цикла для предприятия химической промышленности

Компании, работающей в химической отрасли, потребовался большой объем информации о существовавших ранее, современных и будущих бизнес-циклах по нескольким направлениям производства товаров химической промышленности на рынке Северной Америки. Данную информацию предполагалось использовать для оценки будущего роста по определенным направлениям производства химической продукции, а также для планирования развития бизнеса на основе понимания бизнес-циклов в отрасли.

Анализ проводился с использованием статистических методов, в том числе регрессионного и визуального анализа. Анализ бизнес-циклов проходил как в количественном, так и в качественном отношении, с учетом мнений отраслевых экспертов о долгосрочном росте. При выполнении задачи использовались исключительно вторичные источники информации, а для проведения анализа — статистические методы, в том числе регрессионный и визуальный анализ. В результате был представлен подробный аналитический отчет с описанием длительности и характера бизнес-циклов, а также оценкой перспектив на будущее для ключевых направлений производства продукции компании (этилен, полиэтилен, стирол, аммиак и бутилкаучук).

Пример. Оценка рынка гидродифторида аммония и фтористоводородной кислоты в России и СНГ

Перед одним из крупнейших в мире ядерных центров стояла задача по изучению рынка для этих двух побочных продуктов его производства, а именно гидродифторида аммония и фтористоводородной кислоты, в России и СНГ. При недостаточной емкости этого рынка им пришлось бы инвестировать в строительство объектов по утилизации указанных продуктов.

Были проведены исследования вторичных источников как на уровне России и СНГ, так и на глобальном уровне. В связи с узкоспециализированным характером рынка и высоким внутренним потреблением побочных продуктов основной упор делался на исследования первичных источников. При подготовке к последующему анализу были проведены 50 подробных интервью с потенциальными клиентами, конкурентами и специалистами отрасли.

В окончательном отчете была представлена оценка объема рынка без учета внутреннего потребления, анализ сегментов, анализ импорта, анализ цепочки создания стоимости, анализ замещающих технологий и продуктов по каждому промышленному сегменту, прогноз развития рынка, анализ ценообразования и, наконец, оценка потенциальных возможностей рынка в России и СНГ.

Пример. Эффективный процесс анализа информации на основе оценки преобладающих тенденций для представления руководителям в виде отчетов

Ведущая энергетическая и нефтехимическая компания успешно усовершенствовала процесс анализа информации, приняв за основу анализ стратегических сценариев для сбора, анализа и предоставления информации.

Благодаря интеграции мероприятий по анализу информации в ключевые бизнес-процессы на этапе планирования, удалось четко определить истинные стратегические потребности организации и довести их до аналитической группы, которая, соответственно, сумела организовать процесс анализа таким образом, чтобы основное внимание уделялось стратегии и действиям. Процесс анализа информации в компании начинается с изучения преобладающих тенденций и заканчивается наглядными примерами реагирования на риски с рекомендациями для руководства.

Ключом к повышению эффективности программы анализа информации стала успешная оценка потребностей с точки зрения стратегических целей компании. При этом ответственные за принятие решений люди участвовали в процессе анализа информации уже на начальном этапе (обсуждения, совещания, семинары). Это способствовало налаживанию двустороннего диалога и более полной интеграции программы анализа информации в другие направления деятельности компании.

Intelligence_Process-04

Пример. Глобальная биотехнологическая компания разработала цикл анализа информации для своевременного предоставления аналитических данных и упреждающего принятия решений.

Цель программы анализа информации заключалась в предоставлении информации с целью заблаговременного оповещения и предупреждения, что позволило бы ввести в действие реализуемые и выполнимые стратегии на всех рынках, где работает компания. Был введен в действие цикл анализа информации, в котором на нескольких этапах были задействованы лица, заинтересованные в анализе информации (как для ввода, так и для вывода информации), а также многочисленные источники информации.

Intelligence_Process-05

Лица, заинтересованные в анализе информации, представляли четыре ключевые функции в компании (группа по стратегии, маркетинг и продажи, финансы, связи с инвесторами и директора). Наиболее активная деятельность велась на этапах планирования и реализации. Успешное внедрение цикла анализа информации, объединившего внутренние заинтересованные стороны (для оценки потребностей) и многочисленные источники информации в рамках четко определенного процесса предоставления результатов анализа, означало, что реализованная аналитическая программа оказала определенное влияние на разработку стратегии и упреждающее принятие решений.

Применение современных практических методов анализа данных и распознавания востребовано в технических и гуманитарных областях, в науке и производстве, бизнесе и финансах. В данном описании представлена основная алгоритмическая суть, понимание которой является полезным для более эффективного использования методов распознавания и классификации при анализе данных.

1. Задача распознавания (классификации с учителем) и современное состояние в области практических методов для ее решения. Основные этапы в развитии теории и практики распознавания: создание эвристических алгоритмов, модели распознавания и оптимизация моделей, алгебраический подход к коррекции моделей. Основные подходы — основанные на построении разделяющих поверхностей, потенциальные функции, статистические и нейросетевые модели, решающие деревья, и другие.

Более подробно описаны основные подходы и алгоритмы комбинаторно-логических методов распознавания (модели вычисления оценок или алгоритмы, основанные на принципе частичной прецедентности), разработанные в ВЦ РАН им. А.А. Дородницына. В основе данных моделей лежит идея поиска важных частичных прецедентов в признаковых описаниях исходных данных (информативных фрагментов значений признаков, или представительных наборов). Для вещественных признаков находятся оптимальные окрестности информативных фрагментов. В другой терминологии, данные частичные прецеденты называют знаниями или логическими закономерностями, связывающими значения исходных признаков с распознаваемой или прогнозируемой величиной. Найденные знания являются важной информацией об исследуемых классах (образах) объектов. Они непосредственно используются при решении задач распознавания или прогноза, дают наглядное представление о существующих в данных взаимозависимостях, что имеет самостоятельную ценность для исследователей и может служить основой при последующем создании точных моделей исследуемых объектов, ситуаций, явлений или процессов. По найденной совокупности знаний вычисляются также значения таких полезных величин, как степень важности (информативности) признаков и объектов, логические корреляции признаков и логические описания классов объектов, и решается задача минимизации признакового пространства.

2. Методы решения основной задачи кластерного анализа (классификации без учителя) – нахождение группировок объектов (кластеров) в заданной выборке многомерных данных. Приведен краткий обзор основных подходов для решения задачи кластерного анализа и описание комитетного метода синтеза коллективных решений.

3. Программная система интеллектуального анализа данных, распознавания и прогноза РАСПОЗНАВАНИЕ. В основу требований к системе положены идеи универсальности и интеллектуальности. Под универсальностью системы понимается возможность ее применения к максимально широкому кругу задач (по размерностям, по типу, качеству и структуре данных, по вычисляемым величинам). Под интеллектуальностью понимается наличие элементов самонастройки и способности успешного автоматического решения задач неквалифицированным пользователем. В рамках Системы РАСПОЗНАВАНИЕ разработана библиотека программ, реализующих линейные, комбинаторно-логические, статистические, нейросетевые, гибридные методы прогноза, классификации и извлечения знаний из прецедентов, а также коллективные методы прогноза и классификации.

1. Алгоритмы распознавания, основанные на вычислении оценок. Распознавание осуществляется на основе сравнения распознаваемого объекта с эталонными по различным наборам признаков, и использования процедур голосования. Оптимальные параметры решающего правила и процедуры голосования находятся из решения задачи оптимизации модели распознавания — определяются такие значения параметров, при которых точность распознавания (число правильных ответов на обучающей выборке) является максимальной.

2. Алгоритмы голосования по тупиковым тестам. Сравнение распознаваемого объекта с эталонными осуществляется по различным «информативным» подмножествам признаков. В качестве подобных подсистем признаков используются тупиковые тесты (или аналоги тупиковых тестов для вещественнозначных признаков) различных случайных подтаблиц исходной таблицы эталонов.

По обучающей выборке вычисляются множества логических закономерностей каждого класса – наборы признаков и интервалы их значений, свойственные каждому классу. При распознавании нового объекта вычисляется число логических закономерностей каждого класса, выполняющихся на распознаваемом объекте. Каждое отдельное «выполнение» считается «голосом» в пользу соответствующего класса. Объект относится в тот класс, нормированная сумма «голосов» за который является максимальной. Настоящий метод позволяет оценивать веса признаков, логические корреляции признаков, строить логические описания классов, находить минимальные признаковые подпространства.

4. Алгоритмы статистического взвешенного голосования.

По данным обучающей выборки находятся статистически обоснованные логические закономерности классов. При распознавании новых объектов вычисляется оценка вероятности принадлежности объекта к каждому из классов, которая является взвешенной суммой «голосов».

5. Линейная машина.

Для каждого класса объектов находится некоторая линейная функция. Распознаваемый объект относится в тот класс, функция которого принимает максимальное значение на данном объекте. Оптимальные линейные функции классов находятся в результате решения задачи поиска максимальной совместной подсистемы системы линейных неравенств, которая формируется по обучающей выборке. В результате находится специальная кусочно-линейная поверхность, правильно разделяющая максимальное число элементов обучающей выборки.

6. Линейный дискриминант Фишера.

Классический статистический метод построения кусочно-линейных поверхностей, разделяющих классы. Благоприятными условиями применимости линейного дискриминанта Фишера являются выполнение следующих факторов: линейная отделимость классов, дихотомия, «простая структура» классов, невырожденность матриц ковариаций, отсутствие выбросов. Созданная модификация линейного дискриминанта Фишера позволяет успешно использовать его и в «неблагоприятных» случаях.

7. Метод к-ближайших соседей.

Классический статистический метод. Распознаваемый объектотносится в тот класс, из которого он имеет максимальное число соседей. Оптимальное число соседей и априорные вероятности классов оцениваются по обучающей выборке.

8. Нейросетевая модель распознавания с обратным распространением

Создана модификация известного метода обучения нейронной сети распознаванию образов (метод обратного распространения ошибки). В качестве критерия качества текущих параметров нейронной сети используется гибридный критерий, учитывающий как сумму квадратов отклонений значений выходных сигналов от требуемых, так и количество ошибочных классификаций на обучающей выборке.

9.Метод опорных векторов.

Метод построения нелинейной разделяющей поверхности с помощью опорных векторов. В новом признаковом пространстве (спрямляющем пространстве) строится разделяющая поверхность, близкая к линейной. Построение данной поверхности сводится к решению задачи квадратичного программирования.

10. Алгоритмы решения задач распознавания коллективами различных распознающих алгоритмов.

Задача распознавания решается в два этапа. Сначала применяются независимо различные алгоритмы Системы. Далее находится автоматически оптимальное коллективное решение с помощью специальных методов-«корректоров». В качестве корректирующих методов используются различные подходы.

11. Методы кластерного анализа (автоматической классификации или обучения без учителя).

Используются следующие известные подходы:

Алгоритмы иерархической группировки;

Кластеризация c критерием минимизации суммы квадратов отклонений;

Метод к-средних.

Возможно решение задачи классификации как при заданном, так и неизвестном числе классов.

12. Алгоритм построения коллективных решений задачи классификации.

Задача классификации решается в два этапа. Сначала находится набор различных решений (в виде покрытий или разбиений) при фиксированном числе классов с помощью различных алгоритмов Системы. Далее находится оптимальная коллективная классификация в результате решения специальной дискретной оптимизационной задачи.

10.2. Интеллектуальный анализ данных ( Data Mining )

Сфера закономерностей отличается от двух предыдущих тем, что в ней накопленные сведения автоматически обобщают­ся до информации , которая может быть охарактеризована КАК ЗНАНИЯ .

Технология data mining (DM) заняла свои позиции в последнее десятилетие, получив центральную роль во многих сферах бизнеса.

    Все мы являемся объектами применения Data Mining десятки раз в день — начиная от получения почтовых рассылок, конкурсы в магазинах, бесплатные газеты на улице и заканчивая применением алгоритмов выявления мошенничества, анализирующих любую покупку по кредитной карте.

    Причина широкого распространения методов data mining: они дают хорошие результаты. Технология позволяет существенно повысить возможности организации в достижении целей.

    Ее популярность растет, поскольку инструменты совершенствуются, получают широкое применение, дешевеют и становятся проще в использовании .

Существует два термина, переводимые как интеллектуальный анализ данных (ИАД) – это Knowledge Discovery in Databases (KDD) и Data Mining (DM).

Интеллектуальный анализ данных – это процесс поиска в сырых данных 1) корреляций, тенденций, взаимосвязей, ассоциаций и закономерностей посредством различных 2) математических и статистических алгоритмов.

    Большинство методов ИАД было пер­воначально разработано в рамках теории искусственного ин­теллекта в 1970-1080-х годах. Но они получили распространение только в 1990-е годы, когда проблема интеллектуализации обработки больших и быстро растущих объемов корпоративных данных потребовала их использования в качестве надстройки над хранилищами данных.

Цель этого поиска (стадии ИАД) –

        1) Подготовить данные в виде, четко отражающем бизнес-процессы.

        2) Построить модели, при помощи которых можно прогнозировать процессы, критичные для планирования бизнеса:

        • (2a) выполнить проверку и оценку моделей;

        3) Проводить исторический анализ данных для принятия решений:

        • (3а) выбор и применение модели;

          (3б) коррекция и обновление моделей.

Классификация задач ИАД по типам извлекаемой информации

В большинстве случаев классификацию задач ИАД проводят по типам производимой информации . Задачи (модели) Data Mining делятся на 2 класса:

    (1) прогнозирующие модели с их помощью осуществляется прогноз числовых значений атрибутов .

    (2) описательные (дескриптивные) модели , которые описывают общие закономерности предметной области.

Наиболее яркий представитель первого класса – задача классификации.

1. Классификация – это выявление признаков, набора правил, характеризующих группу.

Наиболее распространенная задача ИАД. Она позволяет выявить признаки, характеризующие однотипные группы объектов (классы), для того чтобы по известным значениям этих характеристик можно было отнести новый объект к одному классу.

    Типичный пример использова­ния классификации — конкурентная борьба между поставщи­ками товаров и услуг за определенные группы клиентов. Классификация способна помочь определить характеристи­ки неустойчивых клиентов, склонных перейти к другому по­ставщику, что позволяет найти оптимальную стратегию их удержания от этого шага (посредством предоставления ски­док, льгот или даже с помощью индивидуальной работы с представителями «групп риска» ).

При помощи классификационной модели решаются следующие задачи:

    принадлежит ли новый клиент к одному из набора существующих классов;

    подходит ли пациенту определенный курс лечения;

    выявление групп ненадежных клиентов;

    определение групп клиентов, которым следует рассылать каталог с новой продукцией.

В качестве методов решения задачи классификации могут использоваться:

      алгоритмы ти­па Lazy-Learning, в том числе известные алгоритмы бли­жайшего соседа (Nearest Neighbor) и k-ближайшего соседа (k-Nearest Neighbor),

      байесовские сети (Bayesian Networks) или нейронные сети.

      классификация с помощью деревьев решений;

      классификация методом опорных векторов;

      статистические методы, в частности, линейная регрессия;

      классификация CBR-методом;

      классификация при помощи генетических алгоритмов.

Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта , которым можно оперировать, используя математический аппарат классификации. Таким описанием обычно выступает база данных . Каждый объект (запись базы данных) несет информацию о некотором свойстве объекта. Набор исходных данных разбивают на два множества: обучающее и тестовое.

        Обучающее множество (training set ) — множество, которое включает данные, использующиеся для обучения (конструирования) модели.

        Тестовое (test set ) множество используется для проверки работоспособности модели.

Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например обучающее множество — две трети данных и тестовое — одна треть данных . Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться

Процесс классификации состоит из двух этапов: конструирования модели и ее использования.

    Конструирование модели: описание множества предопределенных классов .

Каждый пример набора данных относится к одному предопределенному классу.

На этом этапе используется обучающее множество, на нем происходит конструирование модели. Полученная модель представлена классификационными правилами, деревом решений или математической формулой.

    Использование модели: классификация новых или неизвестных значений.

Оценка правильности (точности) модели.

        А) Известные значения из тестового примера сравниваются с результатами использования полученной модели.

        Б) Уровень точности — процент правильно классифицированных примеров в тестовом множестве.

        В) Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.

Если полученная точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.

Точность классификации: оценка уровня ошибок

Оценка точности классификации может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) — это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.

Наиболее яркие представители второго класса – задачи кластеризации, ассоциации, последовательности и т.д.

Рис. Сравнение задач классификации и кластеризации

2. Кластеризация – это выделение однородных групп данных.

Логически продолжает идею классификации на более сложный случай, когда сами классы не предопре­делены. Результатом использования метода, выполняющего кластеризацию, как раз является определение (посредством свободного поиска) присущего исследуемым данным разбие­ния на группы.

    В приведенном выше примере «группы риска» — категории клиентов, готовых уйти к другому поставщику — средствами кластеризации могут быть определены до начала процесса ухода, что позволит производить профилактику проблемы, а не экстренное ис­правление положения.

В качестве используемых методов — обучение «без учителя» особого вида нейронных сетей — сетей Кохонена, а также индукцию правил.

Кластеризация предназначена для разбиения совокупности объектов на однородные группы (кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению «сгущений точек».

Цель кластеризации — поиск существующих структур . Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить «структуру данных».

Само понятие «кластер» определено неоднозначно: в каждом исследовании свои «кластеры». Переводится понятие кластер (cluster) как «скопление», «гроздь».

Кластер можно охарактеризовать как группу объектов, имеющих общие свойства.

Характеристиками кластера можно назвать два признака:

        внутренняя однородность;

        внешняя изолированность.

Кластеры могут быть непересекающимися, или эксклюзивными (non-overlapping, exclusive), и пересекающимися (overlapping).

Оценка качества кластеризации может быть проведена на основе следующих процедур:

    ручная проверка;

    установление контрольных точек и проверка на полученных кластерах;

    определение стабильности кластеризации путем добавления в модель новых переменных ;

    создание и сравнение кластеров с использованием различных методов . Разные методы кластеризации могут создавать разные кластеры, и это является нормальным явлением. Однако создание схожих кластеров различными методами указывает на правильность кластеризации.

Кластерный анализ в маркетинговых исследованиях

В маркетинговых исследованиях кластерный анализ применяется достаточно широко — как в теоретических исследованиях, так и практикующими маркетологами, решающими проблемы группировки различных объектов. При этом решаются вопросы о группах клиентов, продуктов и т.д.

Одной из наиболее важных задач при применении кластерного анализа в маркетинговых исследованиях является анализ поведения потребителя , а именно:

    группировка потребителей в однородные классы для получения максимально полного представления о поведении клиента из каждой группы и о факторах, влияющих на его поведение.

Важной задачей, которую может решить кластерный анализ, является позиционирование, т.е. определение ниши, в которой следует позиционировать новый продукт , предлагаемый на рынке. В результате применения кластерного анализа строится карта, по которой можно определить уровень конкуренции в различных сегментах рынка и соответствующие характеристики товара для возможности попадания в этот сегмент. С помощью анализа такой карты возможно определение новых, незанятых ниш на рынке , в которых можно предлагать существующие товары или разрабатывать новые.

Кластерный анализ также может быть удобен, например, для анализа клиентов компании . Для этого все клиенты группируются в кластеры, и для каждого кластера вырабатывается индивидуальная политика. Такой подход позволяет существенно сократить объекты анализа, и, в то же время, индивидуально подойти к каждой группе клиентов.

3. Ассоциативные правила – поиск связанных друг с другом событий.

Ассоциация определяется не на основе значений свойств одного объекта или события, а имеет место между двумя или несколькими одновременно наступающими собы­тиями . При этом производимые правила указывают на то, что при наступлении одного события с той или иной степенью вероятности наступает другое. Количественно сила ассо­циации определяется несколькими величинами; например, возможно использование следующих трех характеристики:

    а) предсказуемость (predictability ) определяет, как час­то события Х и Y случаются вместе, в виде доли от общего числа событий X;

Так, в случае покупки телевизора (X) одно­временно покупается видеомагнитофон в 65% случаев (Y);

    б) распространенность (prevalence) показывает, как часто происходит одновременное наступление событий Х и Y отно­сительно общего числа моментов зафиксированных событий;

Иными словами, насколько часто производится одновремен­ная покупка телевизора и видеомагнитофона среди всех сделанных покупок;

    в) ожидаемая предсказуемость (expected predictability) показывает предсказуемость, которая сложилась бы при отсутствии взаимосвязи между событиями;

Например, как часто покупался бы видеомагнитофон безотносительно к то­му, покупался ли телевизор.

4. Выявление последовательностей – поиск цепочек, связанных во времени событий.

Подобно ассоциациям, по­следовательности имеют место между событиями, но насту­пающими не одновременно, а с некоторым определенным раз­рывом во времени. Таким образом, ассоциация есть частный случай последовательности с нулевым временным лагом.

Если видеомагнитофон не был куплен вместе с телевизором, то в течение месяца после покупки нового телевизо­ра покупка видеомагнитофона производится в 51% случаев.

5. Прогнозирование – попытка найти шаблоны, адекватно отражающие динамику поведения системы, т.е. предсказание поведения системы в будущем на основе исторической информации.

Форма предсказания, которая на основе особенностей поведения текущих и исторических данных оценивает будущие значения определенных числен­ных показателей.

В задачах подобного типа наиболее часто используются традиционные методы ма­тематической статистики, а также нейронные сети.

Прогнозирование (от греческого Prognosis), в широком понимании этого слова, определяется как опережающее отражение будущего. Целью прогнозирования является предсказание будущих событий.

Решение задачи прогнозирования сводится к решению таких подзадач:

    выбор модели прогнозирования;

    анализ адекватности и точности построенного прогноза.

Задачи классификации и прогнозирования — сходства и различия.

Так в чем же сходство задач прогнозирования и классификации ?

При решении обеих задач используется двухэтапный процесс построения модели на основе обучающего набора и ее использования для предсказания неизвестных значений зависимой переменной.

Различие задач классификации и прогнозирования состоит в том, что в первой задаче предсказывается класс зависимой переменной, а во второй — числовые значения зависимой переменной, пропущенные или неизвестные (относящиеся к будущему).

Например, рассматривая туристическое агентство, определение класса клиента является решением задачи классификации, а прогнозирование дохода, который принесет этот клиент в будущем году, будет решением задачи прогнозирования.

Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов .

Два принципиальных отличия временного ряда от простой последовательности наблюдений:

    Члены временного ряда, в отличие от элементов случайной выборки, не являются статистически независимыми .

    Члены временного ряда не являются одинаково распределенными .

Тренд, сезонность и цикл

Основными составляющими временного ряда являются тренд и сезонная компонента.

Тренд является систематической компонентой временного ряда, которая может изменяться во времени. Трендом называют неслучайную функцию , которая формируется под действием общих или долговременных тенденций, влияющих на временной ряд.

Сезонная составляющая временного ряда является периодически повторяющейся компонентой временного ряда. Свойство сезонности означает , что через примерно равные промежутки времени форма кривой, которая описывает поведение зависимой переменной, повторяет свои характерные очертания.

Свойство сезонности важно при определении количества ретроспективных данных, которые будут использоваться для прогнозирования.

Важно не путать понятия сезонной компоненты ряда и сезонов природы . Несмотря на близость их звучания, эти понятия разнятся. Так, например, объемы продаж мороженого летом намного больше, чем в другие сезоны, однако это является тенденцией спроса на данный товар!!!

Фрагмент временного ряда за сезонный период

Фрагмент временного ряда за 12 сезонных периодов

Период прогнозирования — основная единица времени, на которую делается прогноз.

    Например, мы хотим узнать доход компании через месяц. Период прогнозирования для этой задачи — месяц.

Горизонт прогнозирования — это число периодов в будущем, которые покрывает прогноз.

    Если прогноз на 12 месяцев вперед, с данными по каждому месяцу, то период прогнозирования в этой задаче — месяц, горизонт прогнозирования — 12 месяцев.

Интервал прогнозирования — частота, с которой делается новый прогноз.

    Интервал прогнозирования может совпадать с периодом прогнозирования.

Точность прогноза характеризуется ошибкой прогноза.

Наиболее распространенные виды ошибок:

    Средняя ошибка (СО). Она вычисляется простым усреднением ошибок на каждом шаге. Недостаток этого вида ошибки — положительные и отрицательные ошибки аннулируют друг друга.

    Средняя абсолютная ошибка (САО). Она рассчитывается как среднее абсолютных ошибок. Если она равна нулю, то мы имеем совершенный прогноз. В сравнении со средней квадратической ошибкой, эта мера «не придает слишком большого значения» выбросам.

    Сумма квадратов ошибок (SSE), среднеквадратическая ошибка . Она вычисляется как сумма (или среднее) квадратов ошибок. Это наиболее часто используемая оценка точности прогноза.

    Относительная ошибка (ОО). Предыдущие меры использовали действительные значения ошибок. Относительная ошибка выражает качество подгонки в терминах относительных ошибок.

6. Аномалии – выявление аномальных значений в данных.

Их выявление позволяет выявить – 1) ошибки в данных, 2) появлении новой ранее неизвестной закономерности или 3) уточнение известных закономерностей.

Кластерный анализ это

Доброго времени суток. Вот есть у меня уважение к людям, которые являются фанатами своего дела.

Максим, мой друг, относится именно к этой категории. Постоянно работает с цифрами, анализирует их, делает соответствующие отчеты.

Вчера вместе обедали, так почти полчаса рассказывал мне про кластерный анализ – что это и в каких случаях его применения является обоснованным и целесообразным. Ну а я что?

Память у меня хорошая, поэтому все эти данные, к слову, о которых я и так знала, предоставлю вам в первозданном и максимально информативном виде.

Кластерный анализ предназначен для разбиения совокупности объектов на однородные группы (кластеры или классы). Это задача многомерной классификации данных.

Существует около 100 разных алгоритмов кластеризации, однако, наиболее часто используемые — иерархический кластерный анализ и кластеризация методом k-средних.

Где применяется кластерный анализ? В маркетинге это сегментация конкурентов и потребителей.

В менеджменте: разбиение персонала на различные по уровню мотивации группы, классификация поставщиков, выявление схожих производственных ситуаций, при которых возникает брак.

В медицине — классификация симптомов, пациентов, препаратов. В социологии — разбиение респондентов на однородные группы. По сути кластерный анализ хорошо зарекомендовал себя во всех сферах жизнедеятельности человека.

Прелесть данного метода — он работает даже тогда, когда данных мало и невыполняются требования нормальности распределений случайных величин и другие трбования классических методов статистического анализа.

Поясним суть кластерного анализа, не прибегая к строгой терминологии:
допустим, Вы провели анкетирование сотрудников и хотите определить, каким образом можно наиболее эффективно управлять персоналом.

То есть Вы хотите разделить сотрудников на группы и для каждой из них выделить наиболее эффективные рычаги управления. При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.

Для решения задачи предлагается использовать иерархический кластерный анализ.

В результате мы получим дерево, глядя на которое мы должны определиться на сколько классов (кластеров) мы хотим разбить персонал.

Предположим, что мы решили разбить персонал на три группы, тогда для изучения респондентов, попавших в каждый кластер получим табличку примерно следующего содержания:

Поясним, как сформирована приведенная выше таблица. В первом столбце расположен номер кластера — группы, данные по которой отражены в строке.

Например, первый кластер на 80% составляют мужчины. 90% первого кластера попадают в возрастную категорию от 30 до 50 лет, а 12% респондентов считает, что льготы очень важны. И так далее.

Попытаемся составить портреты респондентов каждого кластера:

  1. Первая группа — в основном мужчины зрелого возраста, занимающие руководящие позиции. Соцпакет (MED, LGOTI, TIME-своб время) их не интересует. Они предпочитают получать хорошую зарплату, а не помощь от работодателя.
  2. Группа два наоборот отдает предпочтение соцпакету. Состоит она, в основном, из людей «в возрасте», занимающих невысокие посты. Зарплата для них безусловно важна, но есть и другие приоритеты.
  3. Третья группа наиболее «молодая». В отличие от предыдущих двух, очевиден интерес к возможностям обучения и профессионального роста. У этой категории сотрудников есть хороший шанс в скором времени пополнить первую группу.

Таким образом, планируя кампанию по внедрению эффективных методов управления персоналом, очевидно, что в нашей ситуации можно увеличить соцпакет у второй группы в ущерб, к примеру, зарплате.

Если говорить о том, каких специалистов следует направлять на обучение, то можно однозначно рекомендовать обратить внимание на третью группу.

Источник: http://www.nickart.spb.ru/analysis/cluster.php

Особенности кластерного анализа

Кластер — это цена актива в определенный промежуток времени, на котором совершались сделки. Результирующий объём покупок и продаж указан цифрой внутри кластера.

Бар любого ТФ вмещает в себя,как правило, несколько кластеров. Это позволяет детально видеть объемы покупок, продаж и их баланс в каждом отдельном баре, по каждому ценовому уровню.

Изменение цены одного актива, неизбежно влечёт за собой цепочку ценовых движений и на других инструментах.

Внимание!

В большинстве случаев понимание трендового движения происходит уже в тот момент, когда оно бурно развивается, и вход в рынок по тренду чреват попаданием в коррекционную волну.

Для успешных сделок необходимо понимать текущую ситуацию и уметь предвидеть будущие ценовые движения. Этому можно научиться, анализируя график кластеров.

С помощью кластерного анализа можно видеть активность участников рынка внутри даже самого маленького ценового бара. Это наиболее точный и детальный анализ, так как показывает точечное распределение объёмов сделок по каждому ценовому уровню актива.

На рынке постоянно идёт противоборство интересов продавцов и покупателей. И каждое самое маленькое движение цены (тик), является тем ходом к компромиссу – ценовому уровню — который в данный момент устраивает обе стороны.

Но рынок динамичен, количество продавцов и покупателей непрерывно изменяется. Если в один момент времени на рынке доминировали продавцы, то в следующий момент, вероятнее всего, будут покупатели.

Не одинаковым оказывается и количество совершённых сделок на соседних ценовых уровнях. И всё же сначала рыночная ситуация отражается на суммарных объёмах сделок, а уж затем на цене.

Если видеть действия доминирующих участников рынка (продавцов или покупателей), то можно предсказывать и само движение цены.

Для успешного применения кластерного анализа прежде всего следует понять, что такое кластер и дельта.

Кластером называют ценовое движение, которое разбито на уровни, на которых совершались сделки с известными объёмами. Дельта показывает разницу между покупками и продажами, происходящими в каждом кластере.

Каждый кластер, или группа дельт, позволяет разобраться в том, покупатели или продавцы преобладают на рынке в данный момент времени.

Достаточно лишь подсчитать общую дельту, просуммировав продажи и покупки. Если дельта отрицательна, то рынок перепродан, на нём избыточными являются сделки на продажу. Когда же дельта положительна, то на рынке явно доминируют покупатели.

Сама дельта может принимать нормальное или критическое значение. Значение объёма дельты сверх нормального в кластере выделяют красным цветом.

Если дельта умеренна, то это характеризует флетовое состояние на рынке. При нормальном значении дельты на рынке наблюдается трендовое движение, а вот критическое значение всегда является предвестником разворота цены.

Торговля на Форекс с помощью КА

Для получения максимальной прибыли нужно уметь определить переход дельты из умеренного уровня в нормальный. Ведь в этом случае можно заметить само начало перехода от флета к трендовому движению и суметь получить наибольшую прибыль.

Более наглядным является кластерный график на нём можно увидеть значимые уровни накопления и распределения объемов, построить уровни поддержки и сопротивления. Это позволяет трейдеру найти точный вход в сделку.

Используя дельту, можно судить о преобладании на рынке продаж или покупок. Кластерный анализ позволяет наблюдать сделки и отслеживать их объёмы внутри бара любого ТФ.

Особо это важно при подходе к значимым уровням поддержки или сопротивления. Суждения по кластерам — ключ к пониманию рынка.

Источник: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Области и особенности применения анализа кластеров

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации.

Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии.

В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным.

Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе.

Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с «отдаленными» членами семейства млекопитающих (например, собаками) и т.д.

Заметим, что предыдущие рассуждения ссылаются на алгоритмы кластеризации, но ничего не упоминают о проверке статистической значимости.

Фактически, кластерный анализ является не столько обычным статистическим методом, сколько «набором» различных алгоритмов «распределения объектов по кластерам».

Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования.

Внимание!

Следует понимать, что кластерный анализ определяет «наиболее возможно значимое решение».

Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны p-уровни (как, например, в методе K средних).

Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа.

Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям.

В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д.

Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать «горы» информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.

Древовидная кластеризация

Приведенный в разделе Основная цель пример поясняет цель алгоритма объединения (древовидной кластеризации).

Назначение этого алгоритма состоит в объединении объектов (например, животных) в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.

Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы).

Теперь представим себе, что постепенно (очень малыми шагами) вы «ослабляете» ваш критерий о том, какие объекты являются уникальными, а какие нет.

Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.

В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов.

Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения).

Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер.

Когда данные имеют ясную «структуру» в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями.

В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Объединение или метод древовидной кластеризации используется при формировании кластеров несходства или расстояния между объектами. Эти расстояния могут определяться в одномерном или многомерном пространстве.

Например, если вы должны кластеризовать типы еды в кафе, то можете принять во внимание количество содержащихся в ней калорий, цену, субъективную оценку вкуса и т.д.

Наиболее прямой путь вычисления расстояний между объектами в многомерном пространстве состоит в вычислении евклидовых расстояний.

Если вы имеете двух- или трёхмерное пространство, то эта мера является реальным геометрическим расстоянием между объектами в пространстве (как будто расстояния между объектами измерены рулеткой).

Однако алгоритм объединения не «заботится» о том, являются ли «предоставленные» для этого расстояния настоящими или некоторыми другими производными мерами расстояния, что более значимо для исследователя; и задачей исследователей является подобрать правильный метод для специфических применений.

Евклидово расстояние. Это, по-видимому, наиболее общий тип расстояния. Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:

Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным.

Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом).

Внимание!

Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния. К примеру, если одна из осей измерена в сантиметрах, а вы потом переведете ее в миллиметры (умножая значения на 10), то окончательное евклидово расстояние (или квадрат евклидова расстояния), вычисляемое по координатам, сильно изменится, и, как следствие, результаты кластерного анализа могут сильно отличаться от предыдущих.

Квадрат евклидова расстояния. Иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам.

Это расстояние вычисляется следующим образом:

Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является просто средним разностей по координатам.

В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида.

Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:

Расстояние Чебышева. Это расстояние может оказаться полезным, когда желают определить два объекта как «различные», если они различаются по какой-либо одной координате (каким-либо одним измерением). Расстояние Чебышева вычисляется по формуле:

Степенное расстояние. Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются.

Это может быть достигнуто с использованием степенного расстояния. Степенное расстояние вычисляется по формуле:

где r и p — параметры, определяемые пользователем. Несколько примеров вычислений могут показать, как «работает» эта мера.

Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра — r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.

Процент несогласия. Эта мера используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:

Правила объединения или связи

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой.

Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами?

Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, вы можете связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи.

Другими словами, вы используете «правило ближайшего соседа» для определения расстояния между кластерами; этот метод называется методом одиночной связи.

Это правило строит «волокнистые» кластеры, т.е. кластеры, «сцепленные вместе» только отдельными элементами, случайно оказавшимися ближе остальных друг к другу.

Как альтернативу вы можете использовать соседей в кластерах, которые находятся дальше всех остальных пар объектов друг от друга. Этот метод называется метод полной связи.

Существует также множество других методов объединения кластеров, подобных тем, что были рассмотрены.

Одиночная связь (метод ближайшего соседа). Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах.

Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными «цепочками».

Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. «наиболее удаленными соседями»).

Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них.

Метод эффективен, когда объекты в действительности формируют различные «рощи», однако он работает одинаково хорошо и в случаях протяженных («цепочного» типа) кластеров.

Отметим, что в своей книге Снит и Сокэл (Sneath, Sokal, 1973) вводят аббревиатуру UPGMA для ссылки на этот метод, как на метод невзвешенного попарного арифметического среднего — unweighted pair-group method using arithmetic averages.

Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента.

Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров.

В книге Снита и Сокэла (Sneath, Sokal, 1973) вводится аббревиатура WPGMA для ссылки на этот метод, как на метод взвешенного попарного арифметического среднего — weighted pair-group method using arithmetic averages.

Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести.

Внимание!

Снит и Сокэл (Sneath and Sokal (1973)) используют аббревиатуру UPGMC для ссылки на этот метод, как на метод невзвешенного попарного центроидного усреднения — unweighted pair-group method using the centroid average.

Взвешенный центроидный метод (медиана). тот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них).

Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.

Снит и Сокэл (Sneath, Sokal 1973) использовали аббревиатуру WPGMC для ссылок на него, как на метод невзвешенного попарного центроидного усреднения — weighted pair-group method using the centroid average.

Метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами.

Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге.

Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.

Ранее этот метод обсуждался в терминах «объектов», которые должны быть кластеризованы. Во всех других видах анализа интересующий исследователя вопрос обычно выражается в терминах наблюдений или переменных.

Оказывается, что кластеризация, как по наблюдениям, так и по переменным может привести к достаточно интересным результатам.

Например, представьте, что медицинский исследователь собирает данные о различных характеристиках (переменные) состояний пациентов (наблюдений), страдающих сердечными заболеваниями.

Исследователь может захотеть кластеризовать наблюдения (пациентов) для определения кластеров пациентов со сходными симптомами.

В то же самое время исследователь может захотеть кластеризовать переменные для определения кластеров переменных, которые связаны со сходным физическим состоянием.е

После этого обсуждения, относящегося к тому, кластеризовать наблюдения или переменные, можно задать вопрос, а почему бы не проводить кластеризацию в обоих направлениях?

Модуль Кластерный анализ содержит эффективную двувходовую процедуру объединения, позволяющую сделать именно это.

Однако двувходовое объединение используется (относительно редко) в обстоятельствах, когда ожидается, что и наблюдения и переменные одновременно вносят вклад в обнаружение осмысленных кластеров.

Так, возвращаясь к предыдущему примеру, можно предположить, что медицинскому исследователю требуется выделить кластеры пациентов, сходных по отношению к определенным кластерам характеристик физического состояния.

Трудность с интерпретацией полученных результатов возникает вследствие того, что сходства между различными кластерами могут происходить из (или быть причиной) некоторого различия подмножеств переменных.

Поэтому получающиеся кластеры являются по своей природе неоднородными. Возможно это кажется вначале немного туманным; в самом деле, в сравнении с другими описанными методами кластерного анализа, двувходовое объединение является, вероятно, наименее часто используемым методом.

Однако некоторые исследователи полагают, что он предлагает мощное средство разведочного анализа данных (за более подробной информацией вы можете обратиться к описанию этого метода у Хартигана (Hartigan, 1975)).

Метод K средних

Этот метод кластеризации существенно отличается от таких агломеративных методов, как Объединение (древовидная кластеризация) и Двувходовое объединение. Предположим, вы уже имеете гипотезы относительно числа кластеров (по наблюдениям или по переменным).

Вы можете указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно.

Это именно тот тип задач, которые решает алгоритм метода K средних. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

В примере с физическим состоянием, медицинский исследователь может иметь «подозрение» из своего клинического опыта, что его пациенты в основном попадают в три различные категории.

Внимание!

Если это так, то средние различных мер физических параметров для каждого кластера будут давать количественный способ представления гипотез исследователя (например, пациенты в кластере 1 имеют высокий параметр 1, меньший параметр 2 и т.д.).

С вычислительной точки зрения вы можете рассматривать этот метод, как дисперсионный анализ «наоборот». Программа начинает с K случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы:

  1. минимизировать изменчивость внутри кластеров,
  2. максимизировать изменчивость между кластерами.

Данный способ аналогичен методу «дисперсионный анализ (ANOVA) наоборот» в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга.

В кластеризации методом K средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA).

Обычно, когда результаты кластерного анализа методом K средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга.

В идеале вы должны получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе.

Источник: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Классификация объектов по характеризующим их признакам

Кластерный анализ (cluster analysis) – совокупность многомерных статистических методов классификации объектов по характеризующим их признакам, разделение совокупности объектов на однородные группы, близкие по определяющим критериям, выделение объектов определенной группы.

Кластер – это группы объектов, выделенные в результате кластерного анализа на основе заданной меры сходства или различий между объектами.

Объект – это конкретные предметы исследования, которые необходимо классифицировать. Объектами при классификации выступают, как правило, наблюдения. Например, потребители продукции, страны или регионы, товары и т.п.

Хотя можно проводить кластерный анализ и по переменным. Классификация объектов в многомерном кластерном анализе происходит по нескольким признакам одновременно.

Это могут быть как количественные, так и категориальные переменные в зависимости от метода кластерного анализа. Итак, главная цель кластерного анализа – нахождение групп схожих объектов в выборке.

Совокупность многомерных статистических методов кластерного анализа можно разделить на иерархические методы (агломеративные и дивизимные) и неиерархические (метод k-средних, двухэтапный кластерный анализ).

Однако общепринятой классификации методов не существует, и к методам кластерного анализа иногда относят также методы построения деревьев решений, нейронных сетей, дискриминантного анализа, логистической регрессии.

Сфера использования кластерного анализа, из-за его универсальности, очень широка. Кластерный анализ применяют в экономике, маркетинге, археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, социологии и других областях.

Вот несколько примеров применения кластерного анализа:

  • медицина – классификация заболеваний, их симптомов, способов лечения, классификация групп пациентов;
  • маркетинг – задачи оптимизации ассортиментной линейки компании, сегментация рынка по группам товаров или потребителей, определение потенциального потребителя;
  • социология – разбиение респондентов на однородные группы;
  • психиатрия – корректная диагностика групп симптомов является решающей для успешной терапии;
  • биология – классификация организмов по группе;
  • экономика – классификация субъектов РФ по инвестиционной привлекательности.

Источник: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Общие сведения о кластерном анализе

Кластерный анализ включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры.

Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними.

Задача кластерного анализа состоит в разбиении исходной совокупности объектов на группы схожих, близких между собой объектов. Эти группы называют кластерами.

Другими словами, кластерный анализ – это один из способов классификации объектов по их признакам. Желательно, чтобы результаты классификации имели содержательную интерпретацию.

Результаты, полученные методами кластерного анализа, применяют в самых различных областях. В маркетинге – это сегментация конкурентов и потребителей.

В психиатрии для успешной терапии является решающей правильная диагностика симптомов, таких как паранойя, шизофрения и т.д.

В менеджменте важна классификация поставщиков, выявление схожих производственных ситуаций, при которых возникает брак. В социологии – разбиение респондентов на однородные группы. В портфельном инвестировании важно сгруппировать ценные бумаги по сходству в тенденции доходности, чтобы составить на основе полученных сведений о фондовом рынке оптимального инвестиционного портфеля, позволяющего максимизировать прибыль от вложений при заданной степени риска.

В общем, всякий раз, когда необходимо классифицировать большое количество информации такого рода и представлять её в виде, пригодном для дальнейшей обработки, кластерный анализ оказывается весьма полезным и эффективным.

Кластерный анализ позволяет рассматривать достаточно большой объём информации и сильно сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Внимание!

Большое значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной конъюнктуры).

Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа.

В задачах социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа с другими количественными методами (например, с регрессионным анализом).

Преимущества и недостатки

Кластерный анализ позволяет провести объективную классификацию любых объектов, которые охарактеризованы рядом признаков. Из этого можно извлечь ряд преимуществ:

  1. Полученные кластеры можно интерпретировать, то есть описывать, какие же собственно группы существуют.
  2. Отдельные кластеры можно выбраковывать. Это полезно в тех случаях, когда при наборе данных допущены определённые ошибки, в результате которых значения показателей у отдельных объектов резко отклоняются. При применении кластерного анализа такие объекты попадают в отдельный кластер.
  3. Для дальнейшего анализа могут быть выбраны только те кластеры, которые обладают интересующими характеристиками.

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения. В частности, состав и количество кластеров зависит от выбираемых критериев разбиения.

При сведении исходного массива данных к более компактному виду могут возникать определённые искажения, а также могут теряться индивидуальные черты отдельных объектов за счёт замены их характеристиками обобщённых значений параметров кластера.

Методы

В настоящее время известно более сотни разных алгоритмов кластеризации. Их разнообразие объясняется не только разными вычислительными методами, но и различными концепциями, лежащими в основе кластеризации.

В пакете Statistica реализуются следующие методы кластеризации.

  • Иерархические алгоритмы – древовидная кластеризация. В основе иерархических алгоритмов лежит идея последовательной кластеризации. На начальном шаге каждый объект рассматривается как отдельный кластер. На следующем шаге некоторые из ближайших друг к другу кластеров будут объединяться в отдельный кластер.
  • Метод К-средних. Этот метод используется наиболее часто. Он относится к группе так называемых эталонных методов кластерного анализа. Число кластеров К задаётся пользователем.
  • Двухвходовое объединение. При использовании этого метода кластеризация проводится одновременно как по переменным (столбцам), так и по результатам наблюдений (строкам).

Процедура двухвходового объединения производится в тех случаях, когда можно ожидать, что одновременная кластеризация по переменным и наблюдениям даст возможность получить осмысленные результаты.

Результатами процедуры являются описательные статистики по переменным и наблюдениям, а также двумерная цветная диаграмма, на которой цветом отмечаются значения данных.

По распределению цвета можно составить представление об однородных группах.

Нормирование переменных

Разбиение исходной совокупности объектов на кластеры связано с вычислением расстояний между объектами и выбора объектов, расстояние между которыми наименьшее из всех возможных.

Наиболее часто используется привычное всем нам евклидово (геометрическое) расстояние. Эта метрика отвечает интуитивным представлениям о близости объектов в пространстве (как будто расстояния между объектами измерены рулеткой).

Но для данной метрики на расстояние между объектами могут сильно влиять изменения масштабов (единиц измерения). Например, если один из признаков измерен в миллиметрах, а затем его значение переведены в сантиметры, евклидово расстояние между объектами сильно изменится. Это приведет к тому, что результаты кластерного анализа могут значительно отличаться от предыдущих.

Если переменные измерены в разных единицах измерения, то требуется их предварительная нормировка, то есть преобразование исходных данных, которое переводит их в безразмерные величины.

Нормировка сильно искажает геометрию исходного пространства, что может изменить результаты кластеризации

В пакете Statistica нормировка любой переменной x выполняется по формуле:

Для этого нужно щёлкнуть правой кнопкой мыши по имени переменной и в открывшемся меню выбрать последовательность команд: Fill/ Standardize Block/ Standardize Columns. Значения нормированной переменной станут равными нулю, а дисперсии – единице.

Метод К-средних в программе Statistica

Метод K-средних (K-means) разбивает множество объектов на заданное число K различных кластеров, расположенных на возможно больших расстояниях друг от друга.

Обычно, когда результаты кластерного анализа методом K-средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга.

В идеале вы должны получить сильно различающиеся средние для большинства измерений, используемых в анализе.

Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.

В качестве примера рассмотрим результаты опроса 17-ти сотрудников предприятия по удовлетворённости показателями качества служебной карьеры. В таблице даны ответы на вопросы анкеты по десятибалльной шкале (1 – минимальный балл, 10 – максимальный).

Имена переменных соответствуют ответам на следующие вопросы:

  1. СЛЦ – сочетание личных целей и целей организации;
  2. ОСО – ощущение справедливости в оплате труда;
  3. ТБД – территориальная близость к дому;
  4. ОЭБ – ощущение экономического благосостояния;
  5. КР – карьерный рост;
  6. ЖСР – желание сменить работу;
  7. ОСБ – ощущение социального благополучия.

Используя эти данные, необходимо разделить сотрудников на группы и для каждой из них выделить наиболее эффективные рычаги управления.

При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.

На сегодняшний день большинство социологических опросов дает лишь процентное соотношение голосов: считается основное количество положительно ответивших, либо процент неудовлетворённых, но системно этот вопрос не рассматривают.

Чаще всего опрос не показывает тенденции изменения ситуации. В некоторых случаях необходимо считать не количество человек, которые «за» или «против», а расстояние, или меру сходства, то есть определять группы людей, которые думают примерно одинаково.

Для выявления на основе данных опроса некоторых реально существующих взаимосвязей признаков и порождения на этой основе их типологии можно использовать процедуры кластерного анализа.

Внимание!

Наличие каких-либо априорных гипотез социолога при работе процедур кластерного анализа не является необходимым условием.

В программе Statistica кластерный анализ выполняется следующим образом.

При выборе количества кластеров руководствуйтесь следующим: количество кластеров, по возможности, не должно быть слишком большим.

Расстояние, на котором объединялись объекты данного кластера, должно быть, по возможности, гораздо меньше расстояния, на котором к этому кластеру присоединяется ещё что-либо.

При выборе количества кластеров чаще всего есть одновременно несколько правильных решений.

Нас интересует, например, как соотносятся ответы на вопросы анкеты у рядовых сотрудников и руководства предприятия. Поэтому выбираем K=2. Для дальнейшей сегментации можно увеличивать число кластеров.

  1. выбрать наблюдения с максимальным расстоянием между центрами кластеров;
  2. рассортировать расстояния и выбрать наблюдения с постоянными интервалами (установка по умолчанию);
  3. взять первые наблюдения за центры и присоединять остальные объекты к ним.

Для наших целей подходит вариант 1).

Многие алгоритмы кластеризации часто «навязывают» данным не присущую им структуру и дезориентируют исследователя. Поэтому крайне необходимо применять несколько алгоритмов кластерного анализа и делать выводы на основании общей оценки результатов работы алгоритмов

Результаты анализа можно посмотреть в появившемся диалоговом окне:

Если выбрать вкладку Graph of means, будет построен график координат центров кластеров:

Каждая ломаная линия на этом графике соответствует одному из кластеров. Каждое деление горизонтальной оси графика соответствует одной из переменных, включенных в анализ.

Вертикальная ось соответствует средним значениям переменных для объектов, входящих в каждый из кластеров.

Можно отметить, что просматриваются существенные отличия в отношении двух групп людей к служебной карьере почти по все вопросам. Лишь в одном вопросе наблюдается полное единодушие – в ощущении социального благополучия (ОСБ), вернее, отсутствии такового (2,5 балла из 10).

Можно предположить, что кластер 1 отображает рабочих, а кластер 2 – руководство. Руководители больше удовлетворены карьерным ростом (КР), сочетанием личных целей и целей организации (СЛЦ).

У них выше уровень ощущения экономического благосостояния (ОЭБ) и ощущения справедливости в оплате труда (ОСО).

Территориальная близость к дому (ТБД) волнует их меньше, чем рабочих, вероятно, из-за меньших проблем с транспортом. Также у руководителей меньше желания сменить работу (ЖСР).

Не смотря на то, что работники делятся на две категории, они относительно одинаково отвечают на большинство вопросов. Другими словами, если что-то не устраивает общую группу работников, то же самое не устраивает и высшее руководство, и наоборот.

Согласование графиков позволяет сделать выводы о том, что благосостояние одной группы отражается на благосостоянии другой.

Кластер 1 не доволен территориальной близостью к дому. Данной группой является основная часть работников, которые в основном приходят на предприятие с разных сторон города.

Следовательно, можно предложить главному руководству направить часть прибыли на строительство жилья для сотрудников предприятия.

Просматриваются существенные отличия в отношении двух групп людей к служебной карьере. Те сотрудники, которых устраивает карьерный рост, у которых высоко совпадение личных целей и целей организации, не имеют желание сменить работу и ощущают удовлетворённость результатами труда.

И наоборот, сотрудников, желающих сменить работу и неудовлетворённых результатами труда, не устраивают изложенные показатели. Высшему руководству следует обратить особое внимание на сложившуюся ситуацию.

Результаты дисперсионного анализа по каждому признаку выводятся по нажатию кнопки Analysis of variance.

Выводятся суммы квадратов отклонения объектов от центров кластеров (SS Within) и суммы квадратов отклонений между центрами кластеров (SS Between), значения F-статистики и уровни значимости р.

Внимание!

Для нашего примера уровни значимости для двух переменных довольно велики, что объясняется малым числом наблюдений. В полном варианте исследования, с которым можно ознакомиться в работе, гипотезы о равенстве средних для центров кластеров отклоняются на уровнях значимости меньше 0,01.

Кнопка Save classifications and distances выводит номера объектов, входящих в каждый кластер и расстояния объектов до центра каждого кластера.

В таблице показаны номера наблюдений (CASE_NO), составляющие кластеры с номерами CLUSTER и расстояния от центра каждого кластера (DISTANCE).

Информация о принадлежности объектов к кластерам может быть записана в файл и использоваться в дальнейшем анализе. В данном примере сравнение полученных результатов с анкетами показало, что кластер 1 состоит, в основном, из рядовых работников, а кластер 2 – из менеджеров.

Таким образом, можно заметить, что при обработке результатов анкетирования кластерный анализ оказался мощным методом, позволяющим сделать выводы, к которым невозможно прийти, построив гистограмму средних или посчитав процентное соотношение удовлетворённых различными показателями качества трудовой жизни.

Древовидная кластеризация – это пример иерархического алгоритма, принцип работы которого состоит в последовательном объединении в кластер сначала самых близких, а затем и всё более отдалённых друг от друга элементов.

Большинство из этих алгоритмов исходит из матрицы сходства (расстояний), и каждый отдельный элемент рассматривается вначале как отдельный кластер.

После загрузки модуля кластерного анализа и выбора Joining (tree clustering), в окне ввода параметров кластеризации можно изменить следующие параметры:

  • Исходные данные (Input). Они могут быть в виде матрицы исследуемых данных (Raw data) и в виде матрицы расстояний (Distance matrix).
  • Кластеризацию (Cluster) наблюдений (Cases (raw)) или переменных (Variable (columns)), описывающих состояние объекта.
  • Меры расстояния (Distance measure). Здесь возможен выбор следующих мер: евклидово расстояние (Euclidean distances), квадрат евклидова расстояния (Squared Euclidean distances), расстояние городских кварталов (манхэттенское расстояние, City-block (Manhattan) distance), расстояние Чебышёва (Chebychev distance metric), степенное расстояние (Power…), процент несогласия (Percent disagreement).
  • Метод кластеризации (Amalgamation (linkage) rule). Здесь возможны следующие варианты: одиночная связь (метод ближайшего соседа) (Single Linkage), полная связь (метод наиболее удаленных соседей) (Complete Linkage), невзвешенное попарное среднее (Unweighted pair-group average), взвешенное попарное среднее (Weighted pair-group average), невзвешенный центроидный метод (Unweighted pair-group centroid), взвешенный центроидный метод (медиана) (Weighted pair-group centroid (median)), метод Уорда (Ward’s method).

В результате кластеризации строится горизонтальная или вертикальная дендрограмма – график, на котором определены расстояния между объектами и кластерами при их последовательном объединении.

Древовидная структура графика позволяет определить кластеры в зависимости от выбранного порога – заданного расстояния между кластерами.

Кроме того, выводится матрица расстояний между исходными объектами (Distance matrix); средние и среднеквадратичные отклонения для каждого исходного объекта (Distiptive statistics).

Для рассмотренного примера проведём кластерный анализ переменных с установками по умолчанию. Результирующася дендрограмма изображена на рисунке.

На вертикальной оси дендрограммы откладываются расстояния между объектами и между объектами и кластерами. Так, расстояние между переменными ОЭБ и ОСО равно пяти. Эти переменные на первом шаге объединяются в один кластер.

Горизонтальные отрезки дендрограммы проводятся на уровнях, соответствующих пороговым значениям расстояний, выбираемым для данного шага кластеризации.

Из графика видно, что вопрос «желание сменить работу» (ЖСР) образует отдельный кластер. Вообще, желание свалить куда угодно посещает всех в равной степени. Далее отдельный кластер составляет вопрос о территориальной близости к дому (ТБД).

По степени важности он стоит на втором месте, что подтверждает вывод о необходимости строительства жилья, сделанный по результатам исследования методом K-средних.

Ощущение экономического благосостояния (ОЭБ) и справедливости в оплате труда (ОСО) объединены — это блок экономических вопросов. Карьерный рост (КР) и сочетание личных целей и целей организации (СЛЦ) также объединены.

Другие методы кластеризации, а также выбор других видов расстояний не приводит к существенному изменению дендрограммы.

Результаты:

  1. Кластерный анализ является мощным средством разведочного анализа данных и статистических исследований в любой предметной области.
  2. В программе Statistica реализованы как иерархические, так и структурные методы кластерного анализа. Преимущества этого статистического пакета обусловлены их графическими возможностями. Предусмотрены двумерные и трёхмерные графические отображения полученных кластеров в пространстве исследуемых переменных, а также результаты работы иерархической процедуры группирования объектов.
  3. Необходимо применять несколько алгоритмов кластерного анализа и делать выводы на основании общей оценки результатов работы алгоритмов.
  4. Кластерный анализ можно считать успешным, если он выполнен разными способами, проведено сравнение результатов и найдены общие закономерности, а также найдены стабильные кластеры независимо от способа кластеризации.
  5. Кластерный анализ позволяет выявить проблемные ситуации и наметить пути их решения. Следовательно, этот метод непараметрической статистики можно рассматривать как составную часть системного анализа.

Классификацией называется процедура, в которой объекты распределяются по группам (классам) в соответствии с численными значениями их переменных, характеризующими свойства этих объектов. Исходными данными для классификации является матрица X , в которой каждая строка представляет один объект, а каждый столбец – одну из переменных. Эта матрица называется исходным набором данных. Число объектов (строк в матрице X ) мы будем обозначать буквой I , а число переменных (строк в матрице X ) – буквой J . Число классов мы будем обозначать буквой K .

Классификацией называют не только саму процедуру распределения, но и ее результат. Употребляется также термин распознавание образов (pattern recognition) , который можно считать синонимом. В математической статистике классификацию часто называют дискриминацией .

Метод (алгоритм), которым проводят классификацию, называют классификатором . Классификатор переводит вектор признаков объекта x в целое число, 1, 2, … , соответствующее номеру класса, в который он помещает этот объект.

1.2. Обучение: с учителем и без

Если для всех объектов исходного набора известно, к какому классу они принадлежат, то такая постановка задачи называется классификацией с учителем (или с обучением). Обучение без учителя происходит тогда, когда принадлежность объектов в исходном наборе нам заранее не известна.

1.3. Типы классов

Классификация может делаться для разного числа классов .

Классификация с одним классом проводится в том случае, когда нам нужно установить принадлежность объектов к единственной выделенной группе. Например, отделить яблоки от всех остальных фруктов в корзине.

Двухклассная классификация – это наиболее простой, базовый случай, который чаще всего называют дискриминацией. Например, разделить яблоки и груши, при условии, что никаких других фруктов в корзине нет.

Многоклассовая классификация часто сводится к последовательности: либо одноклассных (SIMCA), либо двухклассных (LDA) задач и является наиболее сложным случаем.

В большинстве случаев классы изолированы и не пересекаются. Тогда каждый объект принадлежит только к одному классу. Однако могут быть задачи и с пересекающимися классами, когда объект может относиться одновременно к нескольким классам.

1.4. Проверка гипотез

В математической статистике рассматривается задача проверки гипотез , которая, по сути, очень близка к классификации. Поясним это на простом примере.

Пусть имеется смесь слив и яблок, которую надо автоматически разделить. Очевидно, что в среднем сливы меньше яблок, поэтому задачу можно легко решить, используя подходящее сито. Анализ размеров объектов показал, что они хорошо описываются нормальными распределениями со следующими параметрами. Сливы: среднее 3, дисперсия 1.4. Яблоки: среднее 8, дисперсия 2.1. Таким образом, разумно будет выбрать сито диаметром 5. .

Рис. 1 Распределение объектов по размерам

С точки зрения математической статистики в этой задаче мы проверяем гипотезу о том, что среднее нормального распределения равно 3 (слива), против альтернативы 8 (яблоко). Проверка происходит по одному единственному наблюдению x . Критическое значение равно 5: если x <5 (область принятия гипотезы), то гипотеза принимается (объект – слива), если x >5, то принимается альтернатива (объект – яблоко).

1.5. Ошибки при классификации

Очевидно, что в рассмотренном выше примере классификация не является идеальной – мелкие яблоки попадут в класс слив, а крупные сливы останутся вместе с яблоками. Используя распределения объектов по размерам, можно рассчитать вероятности этих событий.

α=1–Φ(5| 3, 1.4)=0.05 β=Φ(5| 8, 2.1)=0.01

Величинаα (ложное отклонение) называется ошибкой первого рода , а величинаβ (ложное принятие) – ошибкой второго рода. Если поменять местами гипотезу и альтернативу, то ошибка 1-го рода станет ошибкой 2-го рода, и наоборот.

Таким образом, при этом критическом уровне, 5% слив будет потеряно, и 1% яблок примешается к сливам. Если уменьшить критическое значение до 4, то примеси яблок практически не будет, зато потери слив достигнут 20%. Если же его увеличить до 6, то потери слив уменьшатся до 1%, но примесь яблок будет уже 5%. Понятно, что в этой задаче невозможно выбрать такое сито, которое правильно разделяло бы сливы и яблоки – всегда будут ошибки.

При проверке гипотезы (классификации) важно понимать, какую ошибку важнее минимизировать. Приведем два классических примера. В юриспруденции, при гипотезе «невиновен», руководствуясь презумпцией невиновности, необходимо минимизировать ошибку 1-го рода – вероятность ложного обвинения. В медицине, при гипотезе «здоров», необходимо минимизировать ошибку 2-го рода – вероятность не распознать болезнь.

Можно ли одновременно уменьшить обе ошибки? Да, в принципе, можно. Для этого надо изменить саму процедуру принятия решения, сделав ее более эффективной. Одним из главных способов является увеличение числа переменных, характеризующих классифицируемые объекты. В нашем примере такой новой, полезной переменной мог быть цвет – синий для слив, и зеленый для яблок. Поэтому в хемометрике применяют методы классификации, основанные на многомерных данных.

1.6. Одноклассовая классификация

Для случая одного класса ошибка первого рода αназывается уровнем значимости . Ошибка 2-го рода для такой классификации равна 1 –α. Объяснение этому парадоксальному факту очень простое – альтернативой одному классу является все оставшееся мыслимые объекты, лежащие вне этого класса. Поэтому, какой бы классификатор мы не использовали, всегда найдется объект, не лежащий в этом классе, но очень похожий на объекты из него. Допустим, для примера, что мы отбираем сливы, отличая их от всего прочего, существующего на свете. Тогда, тщательно изучив придуманный нами метод классификации, можно создать искусственный объект (например, пластмассовый муляж), который подходит по всем выбранным критериям.

1.7. Обучение и проверка

Классификатор (помимо вектора переменных x ) зависит от свободных (неизвестных) параметров. Их надо подобрать так, чтобы минимизировать ошибку классификации. Подбор параметров называется обучением классификатора . Эта процедура проводится на обучающем наборе X c . Помимо обучения, необходима еще и проверка (валидация) классификатора. Для этого должен использоваться новый проверочный набор данных X t . Альтернативой валидации с помощью проверочного набора является проверка с помощью метода кросс-валидации .

1.8 . Проклятие размерности

В задачах классификации имеет место проблема, которая поэтически называется проклятием размерности (Curse of dimensionality). Суть дела в том, что при увеличении числа переменных J сложность задачи возрастает экспоненциально. Поэтому, даже относительно скромное их число (J >10) может доставить неприятности. Заметим, что в хемометрических приложениях (например, при анализе спектральных данных) может быть и 1000 и 10000 переменных.

В классических методах классификации большая размерность приводит к мультиколлинеарности, которая проявляется как вырожденность матрицы X t X , которую надо обращать в методах линейного и квадратичного дискриминационного анализа. В методах, опирающихся на расстояния между объектами (например, kNN ), большая размерность приводит к усреднению всех расстояний. Основным способом решения этой проблемы являются методы понижения размерности, прежде всего метод главных компонент

2. Модельные данные

2.1. Пример

Для иллюстрации различных методов классификации мы будем использовать знаменитый пример – Ирисы Фишера , помещенный в рабочую книгу Iris.xls . Этот набор данных стал популярным после основополагающей работы , в которой Роберт Фишер предложил метод линейного дискриминационного анализа (LDA).

Набор данных включает три класса по 50 образцов в каждом. Каждый класс соответствует виду ириса: Iris Setosa (класс 1), Iris Versicolour (класс 2) и Iris Virginica (класс 3). .

Рис. 4 Ирисы Фишера (слева направо): Setosa , Versicolour и Virginica

В своей работе Р. Фишер использовал данные, собранные американским ботаником Э. Андерсоном, который измерил следующие характеристики цветков каждого из 150 образцов:

  • Длина чашелистика (англ. sepal length);
  • Ширина чашелистика (англ. sepal width);
  • Длина лепестка (англ. petal length);
  • Ширина лепестка (англ. petal width).

Все эти значения (в см) приведены в таблице на листе Data . Пытаясь понять, где у ирисов чашелистики, а где лепестки, естественно заглянуть в Wikipedia . Там сказано следующее.

«Соцветия ириса имеют форму веера и содержат один или более симметричных шестидольных цветков. Растут они на коротком стебельке. Три чашелистика направлены вниз. Они расширяются из узкого основания в обширное окончание, украшенное прожилками, линиями или точками. Три лепестка, которые иногда могут быть редуцированными, находятся в вертикальной позиции и частично скрыты основанием чашелистика. У более мелких ирисов вверх направлены все шесть доль. Чашелистики и лепестки отличаются друг от друга. Они объединены у основания в цветочный цилиндр, который лежит над завязью»

2.2. Данные

Исходный массив данных (3 класса по 50 образцов) был разбит на две части: обучающую и проверочную. В первое подмножество X c вошли по 40 первых образцов из каждого класса (всего 120 образцов), а во второе подмножество X t – оставшиеся в каждом классе 10 образцов (всего 30 образцов). Очевидно, что первую часть мы будем использовать для обучения разных классификаторов, а вторую часть – для их проверки. Обучающую выборку мы будем называть Training , а проверочную Test .

Классы называются в соответствие с их латинскими наименованиями: Setosa , Versicolor и Virginica , а переменные обозначаются двумя буквами, соответственно: SL – длина чашелистика (sepal length); SW – ширина чашелистика (sepal width), PL – длина лепестка (petal length), PW – ширина лепестка (petal width).

Рис. 5 Статистические характеристики обучающего и проверочного наборов

На Рис. 5 показаны основные статистические характеристики обучающего и проверочного наборов. Средние значения (m ) каждой переменной (SL, SW, PL и PW ) показаны точками, а их среднеквадратичные отклонения (s ) – отрезками. Цвет значков соответствует классу: красный Setosa , голубой Versicolor и зеленый Virginica . Форма значка соответствует набору, которому принадлежит образец: круг – обучающий набор, треугольник – проверочный набор. Мы и в дальнейшем будем использовать эту систему обозначений на графиках.

Из Рис. 5 видно, что переменные в разных классах отличаются как по m , так и по s . Кроме того, мы можем заключить, что разбиение на обучающий и проверочный наборы было сделано правильно – соответствующие графики похожи.

2.3. Рабочая книга Iris.xls

Это пособие сопровождает файл Iris.xls – рабочая книга Excel

Эта книга включает в себя следующие листы:

2.4. Анализ данных методом главных компонент

Метод главных компонент (PCA) – один из главных инструментов, применяемых в хемометрике. В задачах классификации он используется с двумя целями. Во-первых, PCA понижает размерность данных, заменяя многочисленные переменные на небольшой набор (обычно 2-5) главных компонент. Во-вторых, он служит основой для построения многих методов классификации, например метода SIMCA, который рассмотрен .

В рассматриваемом нами примере по классификации ирисов переменных немного – всего четыре, поэтому первая цель не столь важна. Тем не менее, мы построим PCA модель и посмотрим, насколько можно снизить эту размерность. PCA-анализ выполняется с помощью функций ScoresPCA и , PCA модель строится на обучающем наборе X c и затем применяется к проверочному набору X t . Из следует, что данные необходимо центрировать, но не шкалировать.

Графики первых счетов приведены на Рис. 6.

Рис.6 Результаты PCA-анализа данных

Графики старших компонент (PC3 – PC4) приведены .

Для того, чтобы определить сколько главных компонент достаточно для моделирование данных, нужно исследовать график, на котором объясненная дисперсия (ERV) для обучающего и проверочного изображается в зависимости от числа главных компонент (PC).

Рис.7 Графики объясненной (ERV) дисперсии остатков для обучающего и проверочного наборов

Из Рис. 7 видно, что двух PC достаточно для моделирования данных – они объясняют 98% вариаций, как для обучающего, так и для проверочного наборов.

3. Классификация «с учителем»

3.1. Линейный дискриминатный анализ (LDA)

Линейный дискриминантный анализ или LDA (Linear Discriminant Analysis) это старейший из методов классификации, разработанный Р. Фишером, и опубликованный им в работе, которую мы уже упоминали . Метод предназначен для разделения на два класса.

Обучающий набор состоит из двух матриц X 1 и X 2 , в которых имеется по I 1 и I 2 строк (образцов). Число переменных (столбцов) одинаково и равно J . Исходные предположения состоят в следующем:

Классификационное правило в LDA очень простое – новый образец x относится к тому классу, к которому он ближе в метрике Махаланобиса

На практике неизвестные математические ожидания и ковариационная матрица заменяются их оценкам

Величины, стоящие в разных частях уравнения называются LDA-счетами , f 1 и f 2 . Образец относится к классу 1, если f 1 > f 2 , и, наоборот, к классу 2, если f 1 < f 2 .

Главной проблемой в методе LDA является обращение матрицы S . Если она вырождена, то метод использовать нельзя. Поэтому часто, перед применением LDA, исходные данные X заменяют на матрицу PCA-счетов T , которая уже не вырождена.

Покажем, как LDA работает на примере классификации ирисов. Для большей иллюстративности мы сначала применим PCA, а уже потом LDA. Из раздела ясно, что двух главных компонент будет достаточно.

Т.к. LDA – это двухклассовый дискриминатор, то мы проведем классификацию в два шага. Сначала построим классификатор, который отделяет класс 1 (Setosa ) от всех других ирисов, объединенных в класс 23 (Versicolor + Virginica ). Затем построим второй классификатор, разделяющий классы 2 (Versicolor ) и 3 (Virginica ). Вычисления показаны на листе PCA-LDA .

Начнем с вычисления средних значений для всех классов по обучающим наборам. Нам надо вычислить средние значения по классу 1 (I 1 =40), объединенному классу 23 (I 23 =80), и классам 2 (I 2 =40) и 3 (I 3 =40). Значения приведены в массивах с локальными именами: m1c , m23c , m2c и m3c . .

Рис.8 Расчет средних значений

Вычислим ковариационные матрицы, составленные из классов 1 и 23, а также из классов 2 и 3 и обратим их. Результаты представлен в массивах с локальными именами Sinv123 и Sinv23 . Используя формулы вычислим все необходимые нам величины.

Рис.9 Расчет матриц ковариациий и других параметров LDA

Рис.14 Результат первой дискриминации между классами 1 и 23

На Рис. 14 и Рис. 15 показаны результаты LDA классификации.

Рис.15 Результат второй дискриминации между классами 2 и 3

Т.к. переменных теперь не две, а четыре, то графики, иллюстрирующие результаты, можно построить только в координатах LDA-счетов (f 1 , f 2) и дискриминирующая прямая — это биссектрисаf 1 = f 2 первого квадранта. Вторая дискриминации в обучающем наборе проведена с ошибками: два образца из класса 2 ошибочно отнесены к классу 3, и один образец из класса 3 ошибочно отнесен к классу 2. Эти точки показаны квадратными значками. В проверочном наборе ошибок нет

Недостатки LDA.

    Не работает, когда матрица ковариаций вырождена, например, при большом числе переменных. Требуется регуляризация, например, PCA.

    Не пригоден, если ковариационные матрицы классов различны.

    Не позволяет менять уровни ошибок 1-го и 2-го родов.

Достоинства LDA:

    Прост в применении.

3.2. Квадратичный дискриминатный анализ (QDA)

Квадратичный дискриминантный анализ, QDA (Quadratic Discriminant Analysis) является естественным обобщением метода LDA. QDA– многоклассный метод и он может использоваться для одновременной классификации нескольких классов k =1,…, K .

Обучающий набор состоит из K матриц X 1 ,…, X K , в которых имеется I 1 ,…, I K строк (образцов). Число переменных (столбцов) одинаково и равно J . Сохраняя первое предположение LDA в , откажемся от второго, т.е. допустим, что ковариационные матрицы в каждом классе различны. Тогда QDA-счета вычисляются по формуле

В этих формулах обозначает центрированную матрицу X k . Поверхность, разделяющая классы k и l определяется квадратичным уравнением

f k =f l

поэтому метод и называется квадратичным.

Рассмотрим, как метод QDA применяется к задаче классификации ирисов. Все расчеты приведены на листе QDA . Обучающий массив состоит из трех классов (с локальными именами X1c , X2c , X3c ), по 40 образцов в каждом. Для каждого массива вычисляются средние значения (локальные имена m1c , m2c и m3c ) .

Рис.16 Расчет средних значений

Потом вычисляются и обращаются ковариационные матрицы (локальные имена Sinv1 , Sinv2 и Sinv3 .

Рис.17 Расчет матриц ковариаций

Рис.18 Расчет QDA-счетов и принадлежности к классам

Результаты классификации представлены графиками QDA-счетов, показанными на Рис. 19 .

Рис.19 Результаты QDA классификации

Из этих рисунков (а также из анализа QDA-счетов) видно, что классификация в обучающем наборе проведена с ошибками: три образца из второго класса (Versicolor ) отнесены к третьему (Virginica ). В проверочном наборе ошибок нет.

Квадратичный дискриминантный анализ сохраняет большинство недостатков LDA.

    Не работает, когда матрицы ковариаций вырождены, например, при большом числе переменных. Требуется регуляризация, например, PCA.

    Неявно использует предположение о нормальности распределения.

    Не позволяет менять уровни ошибок 1-го и 2-го родов. .

3.3. PLS дискриминация (PLSDA )

Рис.20 Построение PLS2 регрессии

Заметим, что при получении PLS2-счетов для проверочного набора используется несколько другая формула.

Для вычисления прогнозных значений откликов Y hat применяется функция ТЕНДЕНЦИЯ ( TREND ) . В версии Excel 2003 эта функция иногда дает неправильный результат . Чтобы предотвратить эту ошибку, мы используем центрированные значения фиктивных откликов в обучающем наборе.

Рис.21 Расчет прогноза фиктивных откликов

Результаты PLSDA классификации на обучающем наборе таковы: 15 образцов из второго класса (Versicolor ) ошибочно отнесены к третьему классу (Virginica ), четыре образца из третьего класса (Virginica ) ошибочно отнесены ко второму классу (Versicolor ). В проверочном наборе тоже есть ошибки: один образец из первого класса ошибочно отнесен ко второму, и два образца из второго класса ошибочно отнесены к третьему классу. Таким образом, мы можем заключить, что PLSDA классификация удовлетворительных результатов не дала. Однако ситуацию можно значительно улучшить, если отказаться от плохого правила классификации () и продолжить вычисления дальше.

Рис.22 Результаты PLSDA классификации

Будем рассматривать найденные величины прогнозных значений фиктивных откликов Y hat не как окончательные, а как промежуточные данные, и применим к ним какой-нибудь другой метод классификации, например LDA. Напрямую это сделать нельзя, поскольку матрица Y c hat имеет ранг K –1, и матрицы ковариаций будут вырождены. Поэтому, до применения LDA, необходимо использовать метод главных компонент (PCA), так же, как мы делали в разделе . Соответствующие вычисления приведены на листе PLSDA-PCA-LDA .

Рис.23 Результаты PLSDA -PCA-LDA классификации

Этим способом мы получаем результат, в котором имеется всего одна ошибка в обучении: один образец из второго класса (Versicolor ) ошибочно отнесен к третьему классу (Virginica ). В проверочном наборе ошибок нет.

В этом методе PLS2-регрессия на матрицу фиктивных откликов с последующей PCA проекцией (PLSDA-PCA) является предварительной подготовкой исходных данных X , т.е. некоторым фильтром, выявляющим в этих данных новые характеристики, непосредственно связанные с различиями между классами. Здесь принципиально важно, что в PCA-LDA метод применяется к матрице предсказанных фиктивных откликов Y hat , не к матрице PLS2-счетов.

Недостатки PLSDA

    Требует предварительного регрессионного анализа данных.

    Результат зависит от выбора числа PC в PLS 2регрессии.

Достоинства PLSDA

    Не использует вид распределения.

    Применим для большого числа переменных, устойчив к проклятию размерности.

(12 )

где h 0 и v 0 – это средние значения величин h и v , а N h , и N v – это числа степеней свободы соответственно для h и v .

Используя обучающий набор X c =(x 1 ,…x I ) t , можно найти I значений размахов h 1 ,….,h I и отклонений v 1 ,….,v I . По ним можно оценить соответствующие средние значения

(13 )

Первым делом применим PCA, используя в качестве обучающего набора матрицу X1c (часть матрицы X c относящуюся к классу 1), а в качестве проверочного набора всю матрицу Xt . Также как и в других методах, мы используем две PCA компоненты.

Рис.25 Вычисление счетов и нагрузок PCA

Области, в которых находятся значения счетов (обучающих и проверочных) и нагрузок, имеют локальные имена Tc , Tt и Pc . После этого можно вычислить сингулярные значения , суммируя квадраты счетов для каждой PC, и затем извлекая корень из результата.

Затем вычисляем значения размахов h по формуле для обучающего и проверочного наборов. .

Рис.26 Вычисление размахов

Рис.27 Вычисление отклонений

Вычисление отклонений для проверочного набора проводится по аналогичной формуле с заменой X1c на Xt , и Tc на Tt.

Рис.30 Вычисление числа степеней свободы

На Рис. 30 показаны результаты классификации. График для проверочного набора модифицирован так, чтобы показать на нем все имеющиеся образцы. Для этого оси координат трансформированы степенным преобразованием x 1/p , p =3.

Все образцы обучающего набора классифицированы правильно. В проверочном наборе один образец из первого класса (Setosa ) не распознан.

Аналогично делается классификация для других классов. При этом для класса 2 (лист SIMCA_2 ) обучающей является подматрица X2c , а для класса 3 (лист SIMCA_3 ) – подматрица X3c . Соответственно меняются и средние значения mean2

Недостатки SIMCA

    Требует предварительного анализа данных методом PCA .

    Результат зависит от выбора числа PC. Однако его выбор облегчается тем, что можно брать минимальное число, при котором обучающий набор правильно распознается.

    Чувствителен к выбросам., однако они легко распознаются самим методом.

    Плохо работает для малого числа образцов в обучающем наборе.

Достоинства SIMCA

4. Классификация без учителя

4.1. Опять PCA

Метод главных компонент является простейшим и наиболее популярным методом классификации без обучения. Для его исследования мы будем использовать только обучающий набор, исключив проверочный из рассмотрения. Вычисления приведены на листе PCA-Explore .

Теперь мы заранее не знаем, к какому из классов принадлежат образцы и, более того, даже число классов нам неизвестно.

Рис.35 . PCA анализ обучающего набора

Однако, рассматривая график PCA-счетов для всего обучающего набора, мы легко можем выделить группу образцов (обведенную эллипсом), которая явно отделяется от всех прочих объектов. Естественно предположить, что эти образцы принадлежат к отдельному классу.

Удалим все эти образцы из обучающего набора и применим PCA к оставшимся образцам. На графике PC1-PC2 счетов, показанных на Рис. 36 можно (при большом воображении) различить два кластера, показанные эллипсами. Но уже на графике старших счетов PC1-PC3, мы ничего похожего на классы не видим.

Рис.36 . PCA анализ укороченного обучающего набора

Таким образом, исследование данных с помощью PCA может выявить скрытые классы, а может, и нет. В любом случае необходима дальнейшая проверка этих гипотез с помощью других методов классификации без учителя.

4.2. Кластеризация с помощью K -средних (kMeans )

Существует большой класс методов, выполняющих так называемую кластеризацию . Кластеризация состоит в том, чтобы разделить образцы на подмножества (называемые кластерами) так, чтобы все образцы в одном кластере были в каком-то смысле похожи друг на друга. Оценка схожести образцов x 1 и x 2 обычно основана на анализе расстояний d (x 1 , x 2) между ними. Для измерения расстояний чаще всего используют Эвклидову метрику.

Самым простым (и поэтому – популярным) является метод K -средних (K -means ). Этот метод разбивает исходный набор образцов на заранее известное число K кластеров. При этом каждый образец xi обязательно принадлежит к одному из этих кластеров S k ., k =1,…, K . Каждый кластер k характеризуется своим цетнроидом m k – точкой, являющейся центром масс всех образцов кластера. Метод K-средних – это итерационный алгоритм, в котором на каждом шаге выполняются следующие операции.

1. Определяются расстояния от всех образцов до центроидов d (x j , m k ), j =1,…J ; k =1,…,K .

2. Образцы относятся к кластерам в соответствии с тем, какой из центроидов оказался ближе.

3. По этому новому разбиению вычисляются центроиды m k для каждого из кластеров

где J k – это число образцов в кластере S k .

Операции 1-3 повторяются до сходимости.

Для инициализации алгоритма нужно задать исходные значения всех центроидов m k . Это можно сделать произвольно, например, положить их равными первым K образцам.

m 1 = x 1 , m 2 = x 2 ,…., m K = x K

Покажем, как метод K-средних работает в примере с ирисами. Полный набор данных весьма громоздкий, да и первый класс (Setosa ) легко отделяется от остальных методом PCA . Поэтому мы будем анализировать только укороченный обучающий набор из первых двух PC, показанный на .

Рис.40 . Расчет новых значений центроидов

Чтобы замкнуть итерационную последовательность надо скопировать значения из области KMeansNew и вставить их (как значения!) в область KMeans . И это надо повторять столько раз, сколько потребуется, пока все значения kMeans – kMeansNew не станут равными нулю. На листе kMeans имеется кнопка Calculate . Она запускает простейший VBA макрос , который копирует содержание области KMeansNew и вставляет значения в область KMeans . Эта операция повторяется столько раз, сколько указано в клетке P2 . Тем самым реализуется заданное число итераций.

Итерационная процедура всегда сходится, но результат может быть разным, в зависимости от выбора начальных центроидов.

Если выбрать в качестве начального приближения первые две точки: ve01 и ve02 , то получится результат, представленный на Рис. 41. Левый график показывает, как образцы распределялись в начале работы алгоритма, а правый график – как они распределились в итоге.

Рис.41 . Кластеризация методом K-средних. Начало и конец работы алгоритма.
Начальная точка – первые два образца

На Рис. 42 показан результат кластеризации, который получается, если в качестве начального приближения берутся последние два образца: vi39 и vi40 . Во-первых, видно, что кластеры поменялись местами. Во-вторых, заметно, что некоторые точки ушли в другие кластеры.

Рис.42 . Кластеризация методом K-средних. Начало и конец работы алгоритма.
Начальная точка – последние два образца

Для того, чтобы понять какое решение лучше, используют целевую функцию

которая должна быть минимальна. В первом случае S =52.830, а во втором S =52.797. Таким образом, второе решение предпочтительнее.

Естественно отождествить первый кластер с классом 2 (Versicolor ), а второй кластер с классом 3 (Virginica ). Тогда полученные результаты можно интерпретировать так: два образца класса 2 идентифицированы неправильно, а среди образцов класса 3 одиннадцать неверно отнесены к классу 2.

Метод K-средних имеет несколько недостатков.

    Число кластеров K неизвестно и как его найти непонятно. Можно только наращивать это значения и исследовать результаты.

    Результат зависит от начального выбора центроидов. Нужно перебирать разные варианты.

    Результат зависит от выбора метрики.

Заключение

Мы рассмотрели некоторые методы, используемые для решения задач классификации. Эта область хемометрики, как никакая другая, изобилует разнообразными подходами. Поэтому, с неизбежностью, за рамками этого пособия остались многие интересные методы, такие как, например, UNEQ, CART и другие. Разобраться с тем, как они работают можно самостоятельно, используя это пособие как руководство к действию.

Несколько методов классификации достойны специального изучения. Это методы опорных векторов и искусственных нейронных сетей. Им будут посвящены отдельные пособия

Профессиональные мужские инструменты
Добавить комментарий