Data Mining — добыча данных. Технологии Data Mining Что неправильно характеризует data mining

Средства Data Mining

В настоящее время технология Data Mining представлена целым рядом ком­мерческих и свободно распространяемых программных продуктов. Доста­точно полный и регулярно обновляемый список этих продуктов можно найти на сайте www . kdnuggets . com , посвященном Data Mining. Классифицировать программные продукты Data Mining можно по тем же принципам, что поло­жены в основу классификации самой технологии. Однако подобная класси­фикация не будет иметь практической ценности. Вследствие высокой конку­ренции на рынке и стремления к полноте технических решений многие из продуктов Data Mining охватывают буквально все аспекты применения ана­литических технологий. Поэтому целесообразнее классифицировать продук­ты Data Mining по тому, каким образом они реализованы и, соответственно, какой потенциал для интеграции они предоставляют. Очевидно, что и это ус­ловность, поскольку такой критерий не позволяет очертить четкие границы между продуктами. Однако у подобной классификации есть одно несомнен­ное преимущество. Она позволяет быстро принять решение о выборе того или иного готового решения при инициализации проектов в области анализа данных, разработки систем поддержки принятия решений, создания храни­лищ данных и т. д.

Итак, продукты Data Mining условно можно разделить на три больших кате­гории:

    входящие, как неотъемлемая часть, в системы управления базами данных;

    библиотеки алгоритмов Data Mining с сопутствующей инфраструктурой;

    коробочные или настольные решения ("черные ящики").

Продукты первых двух категорий предоставляют наибольшие возможности для интеграции и позволяют реализовать аналитический потенциал практиче­ски в любом приложении в любой области. Коробочные приложения, в свою очередь, могут предоставлять некоторые уникальные достижения в области Data Mining или быть специализированными для какой-либо конкретной сфе­ры применения. Однако в большинстве случаев их проблематично интегри­ровать в более широкие решения.

Включение аналитических возможностей в состав коммерческих систем управления базами данных является закономерной и имеющей огромный по­тенциал тенденцией. Действительно, где, как ни в местах концентрации дан­ных, имеет наибольший смысл размещать средства их обработки. Исходя из этого принципа, функциональность Data Mining в настоящий момент реали­зована в следующих коммерческих базах данных:

    Microsoft SQL Server;

Основные тезисы

  • Интеллектуальный анализ данных позволяет автоматически, основываясь на большом количестве накопленных данных, генерировать гипотезы, ко­торые могут быть проверены другими средствами анализа (например. OLAP).

    Data Mining- исследование и обнаружение машиной (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны и доступны для интерпретации человеком.

    Методами Data Mining решаются три основные задачи: задача классифи­кации и регрессии, задача поиска ассоциативных правил и задача класте­ризации. По назначению они делятся на описательные и предсказатель­ные. По способам решения задачи разделяют на supervised learning (обуче­ние с учителем) и unsupervised learning (обучение без учителя).

    Задача классификации и регрессии сводится к определению значения за­висимой переменной объекта по его независимым переменным. Если зависимая переменная принимает численные значения, то говорят о задаче регрессии, в противном случае - о задаче классификации.

    При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Най­денные зависимости представляются в виде правил и могут быть исполь­зованы как для лучшего понимания природы анализируемых данных, так и для предсказания событий.

    Задача кластеризации заключается в поиске независимых групп (класте­ров) и их характеристик во всем множестве анализируемых данных. Реше­ние этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

    Методы Data Mining находятся на стыке разных направлений информаци­онных технологий: статистики, нейронных сетей, нечетких множеств, ге­нетических алгоритмов и др.

    Интеллектуальный анализ включает в себя следующие этапы: понимание и формулировка задачи анализа, подготовка данных для автоматизирован­ного анализа, применение методов Data Mining и построение моделей, проверка построенных моделей, интерпретация моделей человеком.

    Перед применением методов Data Mining исходные данные должны быть преобразованы. Вид преобразований зависит от применяемых методов.

    Методы Data Mining могут эффективно использоваться в различных об­ластях человеческой деятельности: в бизнесе, медицине, науке, телеком­муникациях и т. д.

3. Анализ текстовой информации - Text Mining

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по опре­деленным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т. п. Таким образом, непосредственно для анализа этой информации и получения из нее новых знаний необходимо затратить дополнительные усилия. При этом они не всегда связаны с анализом и не обязательно приводят к желаемому результату. Из-за этого КПД анализа структурированной информации снижается. Кроме того, не все виды данных можно структурировать без потери полезной информации. Например, тексто­вые документы практически невозможно преобразовать в табличное пред­ставление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как тек­стовые поля (BLOB-поля). В го же время в тексте скрыто огромное количест­во информации, но ее неструктурированность не позволяет использовать ал­горитмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста. В западной литературе такой анализ называют Text Mining.

Методы анализа в неструктурированных текстах лежат на стыке нескольких областей: Data Mining, обработка естественных языков, поиск информации, извлечение информации и управление знаниями.

Определение Text Mining: Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных.

Как видно, от определения Data Mining оно отличается только новым поняти­ем "неструктурированные текстовые данные". Под такими знаниями понима­ется набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру. Примерами таких доку­ментов являются: web-страницы, электронная почта, нормативные документы ит. п. В общем случае такие документы могут быть сложными и большими и включать в себя не только текст, но и графическую информацию. Документы, использующие язык расширяемой разметки XML (extensible Markup Lan­guage), стандартный язык обобщенной разметки SGML (Standard Generalised Markup Language) и другие подобные соглашения по структуре формирова­ния текста, принято называть полуструктурированными документами. Они также могут быть обработаны методами Text Mining.

Процесс анализа текстовых документов можно представить как последова­тельность нескольких шагов

    Поиск информации. На первом шаге необходимо идентифицировать, какие документы должны быть подвергнуты анализу, и обеспечить их доступ­ность. Как правило, пользователи могут определить набор анализируемых документов самостоятельно - вручную, но при большом количестве до­кументов необходимо использовать варианты автоматизированного отбо­ра по заданным критериям.

    Предварительная обработка документов. На этом шаге выполняются простейшие, но необходимые преобразования с документами для пред­ставления их в виде, с которым работают методы Text Mining. Целью та­ких преобразований является удаление лишних слов и придание тексту более строгой формы. Подробнее методы предварительной обработки бу­дут описаны в разд.

    Извлечение информации. Извлечение информации из выбранных докумен­тов предполагает выделение в них ключевых понятий, над которыми в дальнейшем будет выполняться анализ.

Применение методов Text Mining. На данном шаге извлекаются шаблоны и отношения, имеющиеся в текстах. Данный шаг является основным в процессе анализа текстов, и практические задачи, решаемые на этом шаге.

Интерпретация результатов. Последний шаг в процессе обнаружения знаний предполагает интерпретацию полученных результатов. Как прави­ло, интерпретация заключается или в представлении результатов на есте­ственном языке, или в их визуализации в графическом виде.

Визуализация также может быть использована как средство анализа текста. Для этого извлекаются ключевые понятия, которые и представляются в гра­фическом виде. Такой подход помогает пользователю быстро идентифициро­вать главные темы и понятия, а также определить их важность.

Предварительная обработка текста

Одной из главных проблем анализа текстов является большое количество слов в документе. Если каждое из этих слов подвергать анализу, то время по­иска новых знаний резко возрастет и вряд ли будет удовлетворять требовани­ям пользователей. В то же время очевидно, что не все слова в тексте несут полезную информацию. Кроме того, в силу гибкости естественных языков формально различные слова (синонимы и т. п.) на самом деле означают оди­наковые понятия. Таким образом, удаление неинформативных слов, а также приведение близких по смыслу слов к единой форме значительно сокращают время анализа текстов. Устранение описанных проблем выполняется на этапе предварительной обработки текста.

Обычно используют следующие приемы удаления неинформативных слов и повышения строгости текстов:

    Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.

    Стэмминг- морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме.

    Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;

    Приведение регистра. Этот прием заключается в преобразовании всех сим­волов к верхнему или нижнему регистру.

Наиболее эффективно совместное применение перечисленных методов.

Задачи Text Mining

В настоящее время в литературе описано много прикладных задач, решаемых с помощью анализа текстовых документов. Это и классические задачи Data Mining: классификация, кластеризация, и характерные только для текстовых документов задачи: автоматическое аннотирование, извлечение ключевых понятий и др.

Классификация (classification) - стандартная задача из области Data Mining. Ее целью является определение для каждого документа одной или несколь­ких заранее заданных категорий, к которым этот документ относится. Осо­бенностью задачи классификации является предположение, что множество классифицируемых документов не содержит "мусора", т. е. каждый из доку­ментов соответствует какой-нибудь заданной категории.

Частным случаем задачи классификации является задача определения тема­тики документа .

Целью кластеризации (clustering) документов является автоматическое выяв­ление групп семантически похожих документов среди заданного фиксиро­ванного множества. Отметим, что группы формируются только на основе по­парной схожести описаний документов, и никакие характеристики этих групп не задаются заранее.

Автоматическое аннотирование (summarization) позволяет сократить текст, сохраняя его смысл. Решение этой задачи обычно регулируется пользовате­лем при помощи определения количества извлекаемых предложений или процентом извлекаемого текста по отношению ко всему тексту. Результат включает в себя наиболее значимые предложения в тексте.

Первичной целью извлечения кчючевых понятий (feature extraction) является идентификация фактов и отношений в тексте. В большинстве случаев такими понятиями являются имена существительные и нарицательные: имена и фа­милии людей, названия организаций и др. Алгоритмы извлечения понятий могут использовать словари, чтобы идентифицировать некоторые термины и лингвистические шаблоны для определения других.

Навигация по тексту (text-base navigation) позволяет пользователям переме­щаться по документам относительно тем и значимых терминов. Это выпол­няется за счет идентификации ключевых понятий и некоторых отношений между ними.

Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени. Тренд может быть использован, например, для обнаружения изменений интересов компании от одного сегмента рынка к другому.

Поиск ассоциаций также является одной из основных задач Data Mining. Для ее решения в заданном наборе документов идентифицируются ассоциатив­ные отношения между ключевыми понятиями.

Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость анализа текстов. Далее в этой главе рассматриваются решения следующих задач: извлечение ключевых понятий, классификация, кластеризация и авто­матическое аннотирование.

Классификация текстовых документов

Классификация текстовых документов, так же как и в случае классификации объектов заключается в отнесении документа к одному из заранее известных классов. Часто классификацию применительно к текстовым доку­ментам называют категоризацией или рубрикацией. Очевидно, что данные названия происходят от задачи систематизации документов по каталогам, категориям и рубрикам. При этом структура каталогов может быть как одно­уровневой, так и многоуровневой (иерархической).

Формально задачу классификации текстовых документов описывают набо­ром множеств.

В задаче классификации требуется на основе этих данных построить про­цедуру, которая заключается в нахождении наиболее вероятной категории из множества С для исследуемого документа.

Большинство методов классификации текстов так или иначе основаны на предположении, что документы, относящиеся к одной категории, содержат одинаковые признаки (слова или словосочетания), и наличие или отсутствие таких признаков в документе говорит о его принадлежности или непринад­лежности к той или иной теме.

Такое множество признаков часто называют словарем, т. к. оно состоит из лексем, которые включают слова и/или словосочетания, характеризующие категорию.

Необходимо заметить, что данные наборы признаков являются отличитель­ной чертой классификации текстовых документов от классификации объек­тов в Data Mining, которые характеризуются набором атрибутов.

Решение об отнесении документа d, к категории с, принимается на основании пересечения общих признаков

Задача методов классификации состоит в том, чтобы наилучшим образом вы­брать такие признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении документа к рубрике.

Средства анализа текстовой информации

    Средства Oracle - Oracle Text2

Начиная с версии Oracle 7.3.3, средства текстового анализа являются неотъ­емлемой частью продуктов Oracle. В Oracle эти средства развились и полу­чили новое название- Oracle Text- программный комплекс, интегриро­ванный в СУБД, позволяющий эффективно работать с запросами, относящи­мися к неструктурированным текстам. При этом обработка текста сочетается с возможностями, которые предоставлены пользователю для работы с реля­ционными базами данных. В частности, при написании приложений для об­работки текста стало возможно использование SQL.

Основной задачей, на решение которой нацелены средства Oracle Text, явля­ется задача поиска документов по их содержанию - по словам или фразам, которые при необходимости комбинируются с использованием булевых опе­раций. Результаты поиска ранжируются по значимости, с учетом частоты встречаемости слов запроса в найденных документах.

    Средства от IBM - Intelligent Miner for Text1

Продукт фирмы IBM Intelligent Miner for Text представляет собой набор от­дельных утилит, запускаемых из командной строки или из скриптов незави­симо друг от друга. Система содержит объединение некоторых утилиты для решения задач анализа текстовой информации.

IBM Intelligent Miner for Text объединяет мощную совокупность инструмен­тов, базирующихся в основном на механизмах поиска информации (infor­mation retrieval), что является спецификой всего продукта. Система состоит ряд базовых компонентов, которые имеют самостоятельное значение вне пре­делов технологии Text Mining:

    Средства SAS Institute - Text Miner

Американская компания SAS Institute выпустила систему SAS Text Miner для сравнения определенных грамматических и словесных рядов в письменной речи. Text Miner весьма универсальна, поскольку может работать с тексто­выми документами различных форматов - в базах данных, файловых систе­мах и далее в web.

Text Miner обеспечивает логическую обработку текста в среде пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с сущест­вующими структурированными данными, такими как возраст, доход и харак­тер покупательского спроса.

Основные тезисы

    Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в не­структурированных текстовых данных.

    Процесс анализа текстовых документов можно представить как последо­вательность нескольких шагов: поиск информации, предварительная обра­ботка документов, извлечение информации, применение методов Text Mining, интерпретация результатов.

    Обычно используют следующие приемы удаления неинформативных слов и повышения строгости текстов: удаление стоп-слов, стэмминг, Л-граммы, приведение регистра.

    Задачами анализа текстовой информации являются: классификация, кла­стеризация, автоматическое аннотирование, извлечение ключевых поня­тий, навигация по тексту, анализ трендов, поиск ассоциаций и др.

    Извлечение ключевых понятий из текстов может рассматриваться и как отдельная прикладная задача, и как отдельный этап анализа текстов. В по­следнем случае извлеченные из текста факты используются для решения различных задач анализа.

    Процесс извлечения ключевых понятий с помощью шаблонов выполняет­ся в две стадии: на первой из текстовых документов извлекаются отдель­ные факты с помощью лексического анализа, на второй стадии выполня­ется интеграция извлеченных фактов и/или вывод новых фактов.

    Большинство методов классификации текстов так или иначе основаны на предположении, что документы, относящиеся к одной категории, содер­жат одинаковые признаки (слова или словосочетания), и наличие или от­сутствие таких признаков в документе говорит о его принадлежности или непринадлежности к той или иной теме.

    Большинство алгоритмов кластеризации требуют, чтобы данные были представлены в виде модели векторного пространства, которая широко применяется для информационного поиска и использует метафору для от­ражения семантического подобия как пространственной близости.

    Выделяют два основных подхода к автоматическому аннотированию тек­стовых документов: извлечение (выделение наиболее важных фрагментов) и обобщение (использование предварительно собранных знаний).

Вывод

Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения, не говоря уже о предупреждении критических ситуаций. «Интеллектуальный анализ данных» извлечь максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. Помогает сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами. Помогает строить алгоритмы, способные обучаться принятию решений в различных профессиональных областях.

Средства «Интеллектуального анализа данных» предохраняют людей от информационной перегрузки, перерабатывая оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужные времена.

Прикладные разработки ведутся по следующим направлениям: прогнозирование в экономических системах; автоматизация маркетинговых исследований и анализ клиентских сред для производственных, торговых, телекоммуникационных и Интернет-компаний; автоматизация принятия кредитных решений и оценка кредитных рисков; мониторинг финансовых рынков; автоматические торговые системы.

Список литературы

    «Технологии анализа данных: Data Mining. Visual Mining. Text Mining, OLAP» А. А. Барсегян. M. С. Куприянов, В. В. Стенаненко, И. И. Холод. - 2-е изд., перераб. и доп.

    http://inf.susu.ac.ru/~pollak/expert/G2/g2.htm - статья интернета

    http://www.piter.com/contents/978549807257/978549807257_p.pdf -Технологии анализа данных

    Дипломная работа >> Банковское дело

    Заемщика с использованием кластерного, вербального анализа , корректирующих коэффициентов и т.д., также... кредитоспособности заемщика на основе интеллектуального анализа данных Data Mining (с... На начальном этапе анализа проводится анализ собственных средств и...

  1. Анализ и классификация современного рынка информационных систем, реализующих дискреционную, м

    Реферат >> Информатика

    1.3 Ролевое разграничение 6 2. Сравнительный анализ различных типов систем 7 Операционные системы... системы, включающий в себя: анализ политик безопасности и их характеристик, ... приложений или реализующие более интеллектуальный анализ данных. К тому же...

  2. Интеллектуальные способности одаренных детей в связи со школьной успеваемостью

    Дипломная работа >> Психология

    Взаимосвязь успеваемости и особенностей интеллектуального развития. На основании теоретического анализа проблемы исследования была... к интеллекту без анализа его психологической структуры. Решающей для оценки интеллектуальных способностей является...

Министерство образования и науки РФ

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Институт Кибернетики

Направление Информатика и вычислительная техника

Кафедра ВТ

Контрольная работа

по дисциплине информатика и вычислительная техника

Тема: Методы Data Mining

Введение

Data Mining. Основные понятия и определения

1 Этапы в процессе интеллектуального анализа данных

2 Компоненты систем интеллектуального анализа

3 Методы исследования данных в Data Mining

Методы Data Mining

1 Вывод ассоциативных правил

2 Нейросетевые алгоритмы

3 Методы ближайшего соседа и k-ближайших соседей

4 Деревья решений

5 Алгоритмы кластеризации

6 Генетические алгоритмы

Сферы применения

Производители средств Data Mining

Критика методов

Заключение

Список литературы

Введение

Результатом развития информационных технологий является колоссальный объем данных, накопленных в электронном виде, растущий быстрыми темпами. При этом данные, как правило, обладают разнородной структурой (тексты, изображения, аудио, видео, гипертекстовые документы, реляционные базы данных). Накопленные за длительный срок данные могут содержать в себе закономерности, тенденции и взаимосвязи, являющиеся ценной информацией при планировании, прогнозировании, принятии решений, контроле за процессами. Однако человек физически не способен эффективно анализировать такие объемы неоднородных данных. Методы традиционной математической статистики долгое время претендовали на роль основного инструмента анализа данных. Однако они не позволяют синтезировать новые гипотезы, а могут использоваться лишь для подтверждения заранее сформулированных гипотез и “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP). Нередко именно формулировка гипотезы оказывается самой сложной задачей при проведении анализа для последующего принятия решений, поскольку далеко не все закономерности в данных очевидны с первого взгляда. Поэтому технологии интеллектуального анализа данных (Data mining) рассматриваются как одна из самых важных и многообещающих тем для исследований и применения в отрасли информационных технологий. Под интеллектуальным анализом данных в этом случае понимается процесс определения новых, корректных и потенциально полезных знаний на основе больших массивов данных. Так, MIT Technology Review охарактеризовал Data Mining как одну из десяти развивающихся технологий, которые изменят мир.

1. Data Mining. Основные понятия и определения

Data Mining - это процесс обнаружения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Суть и цель технологии Data Mining можно сформулировать следующим образом: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Неочевидные закономерности - это такие закономерности, которые нельзя обнаружить стандартными методами обработки информации или экспертным путем.

Под объективными закономерностями следует понимать закономерности, полностью соответствующие действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Эта концепция анализа данных, предполагает, что:

§ данные могут быть неточными, неполными (содержать пропуски), противоречивыми, разнородными, косвенными, и при этом иметь гигантские объёмы; поэтому понимание данных в конкретных приложениях требует значительных интеллектуальных усилий;

§ сами алгоритмы анализа данных могут обладать «элементами интеллекта», в частности, способностью обучаться по прецедентам, то есть делать общие выводы на основе частных наблюдений; разработка таких алгоритмов также требует значительных интеллектуальных усилий;

§ процессы переработки сырых данных в информацию, а информации в знания не могут быть выполнены вручную, и требуют автоматизации.

В основу технологии Data Mining положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме.

Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

Важной особенностью Data Mining является нестандартность и неочевидность разыскиваемых шаблонов. Иными словами, средства Data Mining отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере. Выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

· ассоциация - высокая вероятность связи событий друг с другом. Примером ассоциации являются товары в магазине, часто приобретаемые вместе;

· последовательность - высокая вероятность цепочки связанных во времени событий. Примером последовательности является ситуация, когда в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой;

· классификация - имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект;

· кластеризация - закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы - они выявляются автоматически в процессе обработки данных;

· временные закономерности - наличие шаблонов в динамике поведения тех или иных данных. Характерный пример временной закономерности - сезонные колебания спроса на те или иные товары либо услуги.

1.1 Этапы в процессе интеллектуального анализа данных

Традиционно выделяются следующие этапы в процессе интеллектуального анализа данных:

1. Изучение предметной области, в результате которого формулируются основные цели анализа.

2. Сбор данных.

Предварительная обработка данных:

a. Очистка данных - исключение противоречий и случайных "шумов" из исходных данных

b. Интеграция данных - объединение данных из нескольких возможных источников в одном хранилище. Преобразование данных. На данном этапе данные преобразуются к форме, подходящей для анализа. Часто применяется агрегация данных, дискретизация атрибутов, сжатие данных и сокращение размерности.

4. Анализ данных. В рамках данного этапа применяются алгоритмы интеллектуального анализа с целью извлечения паттернов.

5. Интерпретация найденных паттернов. Данный этап может включать визуализацию извлеченных паттернов, определение действительно полезных паттернов на основе некоторой функции полезности.

Использование новых знаний.

1.2 Компоненты систем интеллектуального анализа

Обычно в системах интеллектуального анализа данных выделяются следующие главные компоненты:

1. База данных, хранилище данных или другой репозиторий информации. Это может быть одна или несколько баз данных, хранилище данных, электронные таблицы, другие виды репозиториев, над которыми могут быть выполнены очистка и интеграция.

2. Сервер базы данных или хранилища данных. Указанный сервер отвечает за извлечение существенных данных на основании пользовательского запроса.

База знаний. Это знания о предметной области, которые указывают, как проводить поиск и оценивать полезность результирующих паттернов.

Служба добычи знаний. Она является неотъемлемой частью системы интеллектуального анализа данных и содержит набор функциональных модулей для таких задач, как характеризация, поиск ассоциаций, классификация, кластерный анализ и анализ отклонений.

Модуль оценки паттернов. Данный компонент вычисляет меры интереса или полезности паттернов.

Графический пользовательский интерфейс. Этот модуль отвечает за коммуникации между пользователем и системой интеллектуального анализа данных, визуализацию паттернов в различных формах.

1.3 Методы исследования данных в Data Mining

Большинство аналитических методов, используемые в технологии Data Mining - это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Следует отметить, что большинство методов Data Mining были разработаны в рамках теории искусственного интеллекта. Рассмотрим наиболее широко употребляемые методы:

Вывод ассоциативных правил.

2. Нейросетевые алгоритмы, идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные.

Выбор близкого аналога исходных данных из уже имеющихся исторических данных. Называются также методом «ближайшего соседа».

Деревья решений - иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «Да» или «Нет».

Кластерные модели применяются для объединения сходных событий в группы на основании сходных значений нескольких полей в наборе данных.

В следующей главе подробнее опишем вышеперечисленные методы.

2. Методы Data Mining

2.1 Вывод ассоциативных правил

Ассоциативные правила - это правила вида «если…, то...». Поиск таких правил в наборе данных обнаруживает скрытые связи в, на первый взгляд, никак не связанных данных. Одним из наиболее часто цитируемых примеров поиска ассоциативных правил служит проблема поиска устойчивых связей в корзине покупателя. Эта проблема состоит в том, чтобы определить какие товары приобретаются покупателями вместе, так, чтобы специалисты по маркетингу могли соответствующим образом разместить эти товары в магазине для повышения объема продаж.

Ассоциативные правила определяются как утверждения вида {X1,X2,…,Xn} -> Y, где подразумевается, что Y может присутствовать в транзакции при условии, что X1,X2,…,Xn присутствуют в этой же транзакции. Следует обратить внимание, что слово "может" подразумевает, что правило не является тождеством, а выполняется только с некоторой вероятностью. Кроме того, в качестве Y может выступать набор элементов, а не только один элемент. Вероятность нахождения Y в транзакции, в которой имеются элементы X1,X2,…,Xn, называется достоверностью (confidence). Процент транзакций, содержащих правило, от общего числа транзакций называется поддержкой (support). Уровень достоверности, который должна превышать достоверность правила, называется интересностью (interestingness).

Существуют различные типы ассоциативных правил. В простейшей форме ассоциативные правила сообщают только о наличии или отсутствии ассоциации. Такие правила называются булевыми ассоциативными правилами (Boolean Association Rule). Пример такого правила: «покупатели, которые приобретают йогурт, так же приобретают масло с низким уровнем жира».

Правила, которые собирают несколько ассоциативных правил вместе, называются мультиуровневые или обобщенные ассоциативные правила (Multilevel or Generalized Association Rules). При построении таких правил, элементы обычно группируются согласно иерархии, и поиск ведется на самом высоком концептуальном уровне. Например, "покупатели, которые приобретают молоко, так же приобретают хлеб". В этом примере, молоко и хлеб содержат иерархию различных типов и брендов, однако поиск на нижнем уровне не позволит найти интересные правила.

Более сложным типом правил являются количественные ассоциативные правила (Quantitative Association Rules). Этот тип правил ищется с применением количественных (например, цена) или категориальных (например, пол) атрибутов, и определен как {, ,…,} -> . Например, "покупатели, чей возраст находится между 30 и 35 годами с доходом более 75000 в год покупают машины стоимостью более 20000".

Вышеперечисленные типы правил не затрагивают тот факт, что транзакции, по своей природе, зависят от времени. Например, поиск до того, как продукт был выставлен на продажу или после того, как он исчез с рынка, неблагоприятно повлияет на пороговое значение поддержки. С учетом этого, в введена концепция атрибутного времени жизни в алгоритмах поиска временных ассоциативных правил (Temporal Association Rules).

Проблема поиска ассоциативных правил может быть в общем виде разложена на две части: поиск часто встречающихся наборов элементов, и генерация правил на основе найденных часто встречающихся наборов. Предыдущие исследования, по большей части, придерживались этих направлений и расширяли их в различных направлениях.

С момента появления алгоритма Apriori, этот алгоритм является наиболее часто применяемым на первом шаге. Многие улучшения, например, по скорости и по масштабируемости, направлены на совершенствование алгоритма Apriori, на исправление его ошибочного свойства генерировать слишком много кандидатов на наиболее часто встречающиеся наборы элементов. Apriori генерирует наборы элементов используя только большие наборы, найденные на предыдущем шаге, без повторного рассмотрения транзакций. Модифицированный алгоритм AprioriTid улучшает Apriori за счет того, что использует базу данных только при первом проходе. При подсчетах на последующих шагах используются лишь данные, созданные при первом проходе и имеющие гораздо меньший размер, чем исходная база данных. Это приводит к колоссальному росту производительности. Дальнейшая усовершенствованная версия алгоритма, названная AprioriHybrid, может быть получена, если при нескольких первых проходах использовать Apriori, а затем, на более поздних проходах, когда k-ые наборы-кандидаты уже могут быть целиком размещены в памяти компьютера, переключатся на AprioriTid.

Дальнейшие усилия по улучшению алгоритма Apriori связаны с распараллеливанием алгоритма (Count Distribution, Data Distribution, Candidate Distribution и др.), его масштабированием(Intelligent Data Distribution, Hybrid Distribution), введение новых структур данных, таких как деревья часто встречающихся элементов(FP-growth).

Второй шаг в основном характеризуется достоверностью и интересностью. В новых модификациях к традиционным булевым правилам правил добавляются размерность, качество и временная поддержка, описанные выше. Для поиска правил зачастую используется эволюционный алгоритм.

2.2 Нейросетевые алгоритмы

Искусственные нейронные сети появились в результате применения математического аппарата к исследованию функционирования нервной системы человека с целью ее воспроизведения. А именно: способность нервной системы обучаться и исправлять ошибки, что должно позволить смоделировать, хотя и достаточно грубо, работу человеческого мозга. Основной структурной и функциональной частью нейронной сети является формальный нейрон (formal neuron), представленный на рис. 1, где x0 , x1,..., xn - компоненты вектора входных сигналов, w0 ,w1,...,wn - значения весов входных сигналов нейрона, а y - выходной сигнал нейрона.

Рис. 1. Формальный нейрон: синапсы (1), сумматор (2), преобразователь (3).

Формальный нейрон состоит из элементов 3 типов: синапсов, сумматора и преобразователя. Синапс характеризует силу связи между двумя нейронами.

Сумматор выполняет сложение входных сигналов, предварительно помноженных на соответствующие веса. Преобразователь реализует функцию одного аргумента - выхода сумматора. Эта функция называется функцией активации или передаточной функцией нейрона.

Описанные выше формальные нейроны можно объединять таким образом, что выходные сигналы одних нейронов являются входными для других. Полученное множество связанных между собой нейронов называют искусственными нейронными сетями (artificial neural networks, ANN) или, коротко, нейронными сетями.

Различают следующие три общих типа нейронов, в зависимости от их положения в нейронной сети:

Входные нейроны (input nodes), на которые подаются входные сигналы. Такие нейроны нейроны имеют, как правило, один вход с единичным весом, смещение отсутствует, а значение выхода нейрона равно входному сигналу;

Выходные нейроны (output nodes), выходные значения которых представляют результирующие выходные сигналы нейронной сети;

Скрытые нейроны (hidden nodes), не имеющие прямых связей с входными сигналами, при этом значения выходных сигналов скрытых нейронов не являются выходными сигналами ИНС.

По структуре межнейронных связей различают два класса ИНС:

ИНС прямого распространения, в которых сигнал распространяется только от входных нейронов к выходным.

Рекуррентные ИНС - ИНС с обратными связями. В таких ИНС сигналы могут передаваться между любыми нейронами, вне зависимости от их расположения в ИНС.

Существуют два общих подхода к обучению ИНС:

Обучение с учителем.

Обучение без учителя.

Обучение с учителем (supervised learning) подразумевает использование заранее сформированного множества обучающих примеров. Каждый пример содержит вектор входных сигналов и соответствующий вектор эталонных выходных сигналов, которые зависят от поставленной задачи. Данное множество называют обучающей выборкой или обучающим множеством. Обучение нейронной сети направлено на такое изменение весов связей ИНС, при котором значение выходных сигналов ИНС как можно меньше отличаются от требуемых значений выходных сигналов для данного вектора входных сигналов.

При обучении без учителя (unsupervised learning) подстройка весов связей производится либо в результате конкуренции между нейронами, либо с учетом корреляции выходных сигналов нейронов, между которыми существует связь. В случае обучения без учителя обучающая выборка не используется.

Нейронные сети применяются для решения широкого спектра задач, например, таких как планирование полезной нагрузки для космических челноков и прогнозирования валютных курсов. Однако они не часто используются в системах интеллектуального анализа данных в связи со сложностью модели (знания, зафиксированные как веса нескольких сотен межнейронных связей, совершенно не поддаются анализу и интерпретации человеком) и длительным временем обучения на большой обучающей выборке. С другой стороны, нейронные сети обладают такими преимуществами для использования в задачах анализа данных, как устойчивость к зашумленным данным и высокая точность.

2.3 Методы ближайшего соседа и k-ближайших соседей

В основе алгоритмов ближайших соседей (nearest neighbor algorithm) и k-ближайших соседей (k-nearest neighbor algorithm, KNN) лежит сходство объектов. Алгоритм ближайшего соседа выделяет среди всех известных объектов объект, максимально близкий (используется метрика расстояния между объектами, например, евклидова) к новому ранее неизвестному объекту. Главная проблема метода ближайшего соседа это его чувствительность к выбросам в обучающих данных.

Описанную проблему позволяет избегать алгоритм KNN, выделяющий среди всех наблюдений уже k-ближайших соседей, похожих на новый объект. На основе классов ближайших соседей выносится решение касательно нового объекта. Важной задачей данного алгоритма является подбор коэффициента k - количество записей, которые будут считаться похожими. Модификация алгоритма, при которой вклад соседа пропорционален расстоянию до нового объекта (метод k-взвешенных ближайших соседей) позволяет достичь большей точности классификации. Метод k ближайших соседей, так же, позволяет оценить точность прогноза. Например, все k ближайших соседей имеют один и тот же класс, то вероятность, что проверяемый объект будет иметь такой же класс, очень высока.

Среди особенностей алгоритма стоит отметить устойчивость к аномальным выбросам, так как вероятность попадания такой записи в число k-ближайших соседей мала. Если же это произошло, то влияние на голосование (особенно взвешенное) (при k>2) также, скорее всего, будет незначительным, и, следовательно, малым будет и влияние на итог классификации. Также, преимуществами являются проста реализации, легкость интерпретации результата работы алгоритма, возможность модификации алгоритма, путём использования наиболее подходящих функций сочетания и метрик, что позволяет подстроить алгоритм под конкретную задачу. Алгоритм KNN обладает и рядом недостатков. Во-первых, набор данных, используемый для алгоритма, должен быть репрезентативным. Во-вторых, модель нельзя отделить от данных: для классификации нового примера нужно использовать все примеры. Эта особенность сильно ограничивает использование алгоритма.

2.4 Деревья решений

Под термином «деревья решений» подразумевается семейство алгоритмов, основанных на представлении классификационных правил в иерархической, последовательной структуре. Это самый популярный класс алгоритмов для решения задач интеллектуального анализа данных.

Семейство алгоритмов построения деревьев решений позволяет предсказать значение какого-либо параметра для заданного случая на основе большого количества данных о других подобных случаях. Обычно алгоритмы этого семейства применяются для решения задач, позволяющих разделить все исходные данные на несколько дискретных групп.

При применении алгоритмов построения деревьев решений к набору исходных данных результат отображается в виде дерева. Подобные алгоритмы позволяют осуществить несколько уровней такого разделения, разбивая полученные группы (ветви дерева) на более мелкие на основании других признаков. Разделение продолжается до тех пор, пока значения, которые предполагается предсказывать, не станут одинаковыми (или, в случае непрерывного значения предсказываемого параметра, близкими) для всех полученных групп (листьев дерева). Именно эти значения и применяются для осуществления предсказаний на основе данной модели.

Действие алгоритмов построения деревьев решений базируется на применении методов регрессионного и корреляционного анализа. Один из самых популярных алгоритмов этого семейства - CART (Classification and Regression Trees), основанный на разделении данных в ветви дерева на две дочерние ветви; при этом дальнейшее разделение той или иной ветви зависит от того, много ли исходных данных описывает данная ветвь. Некоторые другие сходные алгоритмы позволяют разделить ветвь на большее количество дочерних ветвей. В данном случае разделение производится на основе наиболее высокого для описываемых ветвью данных коэффициента корреляции между параметром, согласно которому происходит разделение, и параметром, который в дальнейшем должен быть предсказан.

Популярность подхода связана с наглядностью и понятностью. Но деревья решений принципиально не способны находить “лучшие” (наиболее полные и точные) правила в данных. Они реализуют наивный принцип последовательного просмотра признаков и находят фактически части настоящих закономерностей, создавая лишь иллюзию логического вывода.

2.5 Алгоритмы кластеризации

Кластеризация - это задача разбиения множества объектов на группы, называемые кластерами. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.

Применение кластерного анализа в общем виде сводится к следующим этапам:

· отбор выборки объектов для кластеризации;

· определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости - нормализация значений переменных;

· вычисление значений меры сходства между объектами;

· применение метода кластерного анализа для создания групп сходных объектов (кластеров);

· представление результатов анализа.

После получения и анализа результатов возможна корректировка выбранной метрики и метода кластеризации до получения оптимального результата.

Среди алгоритмов кластеризации выделяют иерархические и плоские группы. Иерархические алгоритмы (также называемые алгоритмами таксономии) строят не одно разбиение выборки на непересекающиеся кластеры, а систему вложенных разбиений. Таким образом, выход алгоритма представляет собой дерево кластеров, корнем которого является вся выборка, а листьями - наиболее мелкие кластеры. Плоские алгоритмы строят одно разбиение объектов на непересекающиеся между собой кластеры.

Еще одна классификация алгоритмов кластеризации - на четкие и нечеткие алгоритмы. Четкие (или непересекающиеся) алгоритмы каждому объекту выборки ставят в соответствие номер кластера, то есть каждый объект принадлежит только одному кластеру. Нечеткие (или пересекающиеся) алгоритмы каждому объекту ставят в соответствие набор вещественных значений, показывающих степень отношения объекта к кластерам. Таким образом, каждый объект относится к каждому кластеру с некоторой вероятностью.

Среди алгоритмов иерархической кластеризации выделяются два основных типа: восходящие и нисходящие алгоритмы. Нисходящие алгоритмы работают по принципу «сверху-вниз»: вначале все объекты помещаются в один кластер, который затем разбивается на все более мелкие кластеры. Более распространены восходящие алгоритмы, которые в начале работы помещают каждый объект в отдельный кластер, а затем объединяют кластеры во все более крупные, пока все объекты выборки не будут содержаться в одном кластере. Таким образом, строится система вложенных разбиений. Результаты таких алгоритмов обычно представляют в виде дерева.

К недостатку иерархических алгоритмов можно отнести систему полных разбиений, которая может являться излишней в контексте решаемой задачи.

Рассмотрим теперь плоские алгоритмы. Простейшие среди этого класса - алгоритмы квадратичной ошибки. Задачу кластеризации для этих алгоритмов можно рассматривают как построение оптимального разбиения объектов на группы. При этом оптимальность может быть определена как требование минимизации среднеквадратической ошибки разбиения:

,

где c j - «центр масс» кластера j (точка со средними значениями характеристик для данного кластера).

Самым распространенным алгоритмом этой категории является метод k-средних. Этот алгоритм строит заданное число кластеров, расположенных как можно дальше друг от друга. Работа алгоритма делится на несколько этапов:

Случайно выбрать k точек, являющихся начальными «центрами масс» кластеров.

2. Отнести каждый объект к кластеру с ближайшим «центром масс».

Если критерий остановки алгоритма не удовлетворен, вернуться к п. 2.

В качестве критерия остановки работы алгоритма обычно выбирают минимальное изменение среднеквадратической ошибки. Так же возможно останавливать работу алгоритма, если на шаге 2 не было объектов, переместившихся из кластера в кластер. К недостаткам данного алгоритма можно отнести необходимость задавать количество кластеров для разбиения.

Наиболее популярным алгоритмом нечеткой кластеризации является алгоритм c-средних (c-means). Он представляет собой модификацию метода k-средних. Шаги работы алгоритма:

1. Выбрать начальное нечеткое разбиение n объектов на k кластеров путем выбора матрицы принадлежности U размера n x k .

2. Используя матрицу U, найти значение критерия нечеткой ошибки:

,

где c k - «центр масс» нечеткого кластера k :

3. Перегруппировать объекты с целью уменьшения этого значения критерия нечеткой ошибки.

4. Возвращаться в п. 2 до тех пор, пока изменения матрицы U не станут незначительными.

Этот алгоритм может не подойти, если заранее неизвестно число кластеров, либо необходимо однозначно отнести каждый объект к одному кластеру.

Следующая группа алгоритмов - алгоритмы, основанные на теории графов. Суть таких алгоритмов заключается в том, что выборка объектов представляется в виде графа G=(V, E) , вершинам которого соответствуют объекты, а ребра имеют вес, равный «расстоянию» между объектами. Достоинством графовых алгоритмов кластеризации являются наглядность, относительная простота реализации и возможность вносения различных усовершенствований, основанные на геометрических соображениях. Основными алгоритмам являются алгоритм выделения связных компонент, алгоритм построения минимального покрывающего (остовного) дерева и алгоритм послойной кластеризации.

Для подбора параметра R обычно строится гистограмма распределений попарных расстояний. В задачах с хорошо выраженной кластерной структурой данных на гистограмме будет два пика - один соответствует внутрикластерным расстояниям, второй - межкластерным расстояния. Параметр R подбирается из зоны минимума между этими пиками. При этом управлять количеством кластеров при помощи порога расстояния довольно затруднительно.

Алгоритм минимального покрывающего дерева сначала строит на графе минимальное покрывающее дерево, а затем последовательно удаляет ребра с наибольшим весом. Алгоритм послойной кластеризации основан на выделении связных компонент графа на некотором уровне расстояний между объектами (вершинами). Уровень расстояния задается порогом расстояния c . Например, если расстояние между объектами , то .

Алгоритм послойной кластеризации формирует последовательность подграфов графа G , которые отражают иерархические связи между кластерами:

,

где G t = (V, E t ) - граф на уровне с t , ,

с t - t-ый порог расстояния, m - количество уровней иерархии,
G 0 = (V, o) , o - пустое множество ребер графа, получаемое при t 0 = 1,
G m = G , то есть граф объектов без ограничений на расстояние (длину ребер графа), поскольку t m = 1.

Посредством изменения порогов расстояния {с 0 , …, с m }, где 0 = с 0 < с 1 < …< с m = 1, возможно контролировать глубину иерархии получаемых кластеров. Таким образом, алгоритм послойной кластеризации способен создавать как плоское разбиение данных, так и иерархическое.

Кластеризация позволяет добиться следующих целей:

· улучшает понимание данных за счет выявления структурных групп. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа;

· позволяет компактно хранить данные. Для этого вместо хранения всей выборки можно оставить по одному типичному наблюдению из каждого кластера;

· обнаружение новых нетипичных объектов, которые не попали ни в один кластер.

Обычно, кластеризация используется как вспомогательный метод при анализе данных.

2.6 Генетические алгоритмы

Генетические алгоритмы относятся к числу универсальных методов оптимизации, позволяющих решать задачи различных типов (комбинаторные, общие задачи с ограничениями и без ограничений) и различной степени сложности. При этом генетические алгоритмы характеризуются возможностью как однокритериального, так и многокритериального поиска в большом пространстве, ландшафт которого является негладким.

Эта группа методов использует итеративный процесс эволюции последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. В начале работы алгоритма популяция формируется случайным образом. Для оценки качества закодированных решений используют функцию приспособленности, которая необходима для вычисления приспособленности каждой особи. По результатам оценивания особей наиболее приспособленные из них выбираются для скрещивания. В результате скрещивания выбранных особей посредством применения генетического оператора кроссинговера создается потомство, генетическая информация которого формируется в результате обмена хромосомной информацией между родительскими особями. Созданные потомки формируют новую популяцию, причем часть потомков мутирует, что выражается в случайном изменении их генотипов. Этап, включающий последовательность «Оценивание популяции» - «Селекция» - «Скрещивание» - «Мутация», называется поколением. Эволюция популяции состоит из последовательности таких поколений.

Выделяют следующие алгоритмы отбора особей для скрещивания:

· Панмиксия. Обе особи, которые составят родительскую пару, случайным образом выбираются из всей популяции. Любая особь может стать членом нескольких пар. Данный подход универсален, но эффективность алгоритма снижается с ростом численности популяции.

· Селекция. Родителями могут стать особи с приспособленностью не ниже среднего. Такой подход обеспечивает более быструю сходимость алгоритма.

· Инбридинг. Метод построен на формировании пары на основе близкого родства. Под родством здесь понимается расстояние между членами популяции как в смысле геометрического расстояния особей в пространстве параметров так и хемингово расстояние между генотипами. Потому различают генотипный и фенотипный инбридинг. Первый член пары для скрещивания выбирается случайно, а вторым с большей вероятностью будет максимально близкая к нему особь. Инбридинг можно охарактеризовать свойством концентрации поиска в локальных узлах, что фактически приводит к разбиению популяции на отдельные локальные группы вокруг подозрительных на экстремум участков ландшафта.

· Аутбридинг. Формировании пары на основе дальнего родства, для максимально далеких особей. Аутбридинг направлен на предупреждение сходимости алгоритма к уже найденным решениям, заставляя алгоритм просматривать новые, неисследованные области.

Алгоритмы формирования новой популяции:

· Отбор с вытеснением. Из всех особей с одинаковыми генотипами предпочтение отдается тем, чья приспособленность выше. Таким образом, достигаются две цели: не теряются лучшие найденные решения, обладающие различными хромосомными наборами, в популяции постоянно поддерживается достаточное генетическое разнообразие. Вытеснение формирует новую популяцию из далеко расположенных особей, вместо особей, группирующихся около текущего найденного решения. Этот метод применяют для многоэкстремальных задач.

· Элитный отбор. Элитные методы отбора гарантируют, что при отборе обязательно будут выживать лучшие члены популяции. При этом часть самых лучших особей без каких-либо изменений переходит в следующее поколение. Быстрая сходимость, обеспечиваемая элитным отбором, может быть компенсирована подходящим методом выбора родительских пар. В данном случае часто используют аутбридингом. Именно такая комбинация «аутбридинг - элитный отбор» является одной из наиболее эффективной.

· Турнирный отбор. Турнирный отбор реализует n турниров, чтобы выбрать n особей. Каждый турнир построен на выборке k элементов из популяции, и выбора лучшей особи среди них. Наиболее распространен турнирный отбор с k = 2.

Одним из наиболее востребованных приложений генетических алгоритмов в области Data Mining является поиск наиболее оптимальной модели (поиск алгоритма, соответствующего специфике конкретной области). Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако, их также возможно использовать и как самостоятельный инструмент.

3. Сферы применения

Технология Data Mining имеет действительно широкий спектр применения, являясь, по сути, набором универсальных инструментов для анализа данных любого типа.

Маркетинг

Одной из самых первых сфер, где были применены технологии интеллектуального анализа данных, была сфера маркетинга. Задача, с которой началось развитие методов Data Mining, называется анализ покупательской корзины.

Данная задача состоит в выявлении товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для проведения рекламных компаний, формирование персональных рекомендаций покупателям, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.

Также в маркетинге решаются такие задачи, как определение целевой аудитории того или иного продукта для более успешного его продвижения; исследование временных шаблонов, которое помогает предприятиям принимать решения о создании товарных запасов; создание прогнозирующих моделей, что дает возможность предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением; прогнозирование лояльности клиента, что позволяет заблаговременно выявить момент ухода клиента при анализе его поведения и, возможно, предотвратить потерю ценного клиента.

Промышленность

Одним из важных направлений в этой сфере является мониторинг и контроль качества, где с помощью средств анализа возможно предсказать выход оборудования из строя, появление неисправностей, планировать ремонтные работы. Прогнозирование популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе помогает оптимизировать производство, ориентировать его на реальные потребности потребителей.

Медицина

В медицине анализ данных также применяется довольно успешно. Примером задач могут служить анализ результатов обследований, диагностика, сравнение эффективности методов лечения и лекарств, анализ заболеваний и их распространения, выявление побочных эффектов. Такие технологии Data Mining, как ассоциативные правила и последовательные шаблоны, успешно применяются при выявлении связей между приемом препаратов и побочными эффектами.

Молекулярная генетика и генная инженерия

Пожалуй, наиболее остро и вместе с тем четко задача обнаружения закономерностей в экспериментальных данных стоит в молекулярной генетике и генной инженерии. Здесь она формулируется как определение маркеров, под которыми понимают генетические коды, контролирующие те или иные фенотипические признаки живого организма. Такие коды могут содержать сотни, тысячи и более связанных элементов. Результатом аналитического анализа данных также являются обнаруженная учеными-генетиками зависимость между изменениями в последовательности ДНК человека и риском развития различных заболеваний.

Прикладная химия

Методы Data Mining находят применение и в области прикладной химии. Здесь нередко возникает вопрос о выяснении особенностей химического строения тех или иных соединений, определяющих их свойства. Особенно актуальна такая задача при анализе сложных химических соединений, описание которых включает сотни и тысячи структурных элементов и их связей.

Борьба с преступностью

В обеспечении безопасности средства Data Mining применяются сравнительно недавно, однако в настоящее время уже получены практические результаты, подтверждающие эффективность интеллектуального анализа данных в этой области. Швейцарскими учеными были разработаны система анализа протестной активности с целью прогнозирования будущих инцидентов и система отслеживание возникающих киберугроз и действий хакеров в мире. Последняя система позволяет прогнозировать киберугрозы и другие риски информационной безопасности. Также методы Data Mining успешно применяются для выявления мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.

Другие приложения

· Анализ риска. Например, путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.

· Метеорология. Предсказание погоды методами нейронных сетей, в частности используются самоорганизующиеся карты Кохонена.

· Кадровая политика. Средства анализа помогают службам по управлению персоналом отбирать наиболее удачных кандидатов на основе анализа данных их резюме, моделировать характеристики идеальных сотрудников для той или иной должности.

4. Производители средств Data Mining

Средства Data Mining традиционно относятся к дорогостоящим программным продуктам. Поэтому до недавнего времени основными потребителями этой технологии были банки, финансовые и страховые компании, крупные торговые предприятия, а основными задачами, требующими применения Data Mining, считались оценка кредитных и страховых рисков и выработка маркетинговой политики, тарифных планов и иных принципов работы с клиентами. В последние годы ситуация претерпела определенные изменения: на рынке программного обеспечения появились относительно недорогие инструменты Data Mining и даже системы с свободным распространением, что сделало доступной эту технологию для предприятий малого и среднего бизнеса.

Среди платных инструментов и систем анализ данных лидерами являются SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) и StatSoft (STATISTICA Data Miner). Достаточно известными являются решения от Angoss (Angoss KnowledgeSTUDIO), IBM(IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) и (Oracle) Oracle Data Mining.

Выбор свободного программного обеспечения также отличается разнообразием. Существуют как универсальные средства анализа, такие как JHepWork, KNIME, Orange, RapidMiner, так и специализированные средства, например Carrot2 - фрэймворк для кластеризации текстовых данных и результатов поисковых запросов, Chemicalize.org - решение в области прикладной химии, NLTK (Natural Language Toolkit) инструмент для обработки естественного языка (natural language processing).

5. Критика методов

Результаты Data Mining в большой мере зависят от уровня подготовки данных, а не от «чудесных возможностей» некоторого алгоритма или набора алгоритмов. Около 75% работы над Data Mining состоит в сборе данных, который совершается еще до применения инструментов анализа. Неграмотное применение инструментов, приведет к бессмысленной трате потенциала компании, а иногда и миллионов долларов.

Мнение Херба Эдельштайна (Herb Edelstein), известного в мире эксперта в области Data Mining, Хранилищ данных и CRM: «Недавнее исследование компании Two Crows показало, что Data Mining находится все еще на ранней стадии развития. Многие организации интересуются этой технологией, но лишь некоторые активно внедряют такие проекты. Удалось выяснить еще один важный момент: процесс реализации Data Mining на практике оказывается более сложным, чем ожидается.команды увлеклись мифом о том, что средства Data Mining просты в использовании. Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. На самом деле, успешный Data Mining проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных». Таким образом, прежде чем использовать технологию Data Mining, необходимо тщательно проанализировать ограничения, накладываемые методами, и связанные с ней критические вопросы, а также трезво оценить возможности технологии. К критическим вопросам относятся следующие:

1. Технология не может дать ответы на вопросы, которые не были заданы. Она не может заменить аналитика, а всего лишь дает ему мощный инструмент для облегчения и улучшения его работы.

2. Сложность разработки и эксплуатации приложения Data Mining.

Поскольку данная технология является мультидисциплинарной областью, для разработки приложения, включающего Data Mining, необходимо задействовать специалистов из разных областей, а также обеспечить их качественное взаимодействие.

3. Квалификация пользователя.

Различные инструменты Data Mining имеют различную степень «дружелюбности» интерфейса и требуют определенной квалификации пользователя. Поэтому программное обеспечение должно соответствовать уровню подготовки пользователя. Использование Data Mining должно быть неразрывно связано с повышением квалификации пользователя. Однако специалистов по Data Mining, которые бы хорошо разбирались в бизнес-процессах, в настоящее время мало.

4. Извлечение полезных сведений невозможно без хорошего понимания сути данных.

Необходим тщательный выбор модели и интерпретация зависимостей или шаблонов, которые обнаружены. Поэтому работа с такими средствами требует тесного сотрудничества между экспертом в предметной области и специалистом по инструментам Data Mining. Постоенные модели должны быть грамотно интегрированы в бизнес-процессы для возможности оценки и обновления моделей. В последнее время системы Data Mining поставляются как часть технологии хранилищ данных.

5. Сложность подготовки данных.

Успешный анализ требует качественной предобработки данных. По утверждению аналитиков и пользователей баз данных, процесс предобработки может занять до 80% процентов всего Data Mining-процесса.

Таким образом, чтобы технология работала на себя, потребуется много усилий и времени, которые уходят на предварительный анализ данных, выбор модели и ее корректировку.

6. Большой процент ложных, недостоверных или бесполезных результатов.

С помощью технологий Data Mining можно отыскивать действительно очень ценную информацию, которая может дать значительное преимущество при дальнейшем планировании, управлении, принятии решений. Однако, результаты, полученные с помощью методов Data Mining, достаточно часто содержат ложные и не имеющие смысла выводы. Многие специалисты утверждают, что Data Mining-инструменты могут выдавать огромное количество статистически недостоверных результатов. Чтобы снизить процент таких результатов, необходима проверка адекватности полученных моделей на тестовых данных. Однако полностью избежать ложных выводов невозможно.

7. Высокая стоимость.

Качественный программный продукт является результатом значительных трудозатрат со стороны разработчика. Поэтому программное обеспечение Data Mining традиционно относятся к дорогостоящим программным продуктам.

8. Наличие достаточного количества репрезентативных данных.

Инструменты Data Mining, в отличие от статистических, теоретически не требуют наличия строго определенного количества ретроспективных данных. Эта особенность может стать причиной обнаружения недостоверных, ложных моделей и, как результат, принятия на их основе неверных решений. Необходимо осуществлять контроль статистической значимости обнаруженных знаний.

нейросетевой алгоритм кластеризация данные mining

Заключение

Дана краткая характеристика сфер применения и приведена критика технологии Data Mining и мнение экспертов в этой области.

Список литературы

1. Han and Micheline Kamber. Data Mining: Concepts and Techniques. Second Edition. - University of Illinois at Urbana-Champaign

Berry, Michael J. A. Data mining techniques: for marketing, sales, and customer relationship management - 2nd ed.

Siu Nin Lam. Discovering Association Rules in Data Mining. - Department of Computer Science University of Illinois at Urbana-Champaign

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Подобные документы

    Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.

    контрольная работа , добавлен 14.06.2013

    Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

    курсовая работа , добавлен 10.07.2017

    Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.

    контрольная работа , добавлен 02.09.2010

    Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.

    доклад , добавлен 16.06.2012

    Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.

    эссе , добавлен 17.12.2014

    Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

    курсовая работа , добавлен 19.05.2011

    Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат , добавлен 13.02.2014

    Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.

    контрольная работа , добавлен 13.01.2013

Data Mining подразделяются на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования.

1. Непосредственное использование данных, или сохранение данных .

В этом случае исходные данные хранятся в явном детализированном виде и непосредственно используются на стадиях и/или анализа исключений . Проблема этой группы методов - при их использовании могут возникнуть сложности анализа сверхбольших баз данных.

Методы этой группы: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии.

2. Выявление и использование формализованных закономерностей , или дистилляция шаблонов .

При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining . Этот процесс выполняется на стадии свободного поиска , у первой же группы методов данная стадия в принципе отсутствует. На стадиях прогностического моделирования и анализа исключений используются результаты стадии свободного поиска , они значительно компактнее самих баз данных. Напомним, что конструкции этих моделей могут быть трактуемыми аналитиком либо нетрактуемыми ("черными ящиками").

Методы этой группы: логические методы ; методы визуализации; методы кросс-табуляции; методы , основанные на уравнениях.

Логические методы , или методы логической индукции, включают: нечеткие запросы и анализы; символьные правила; деревья решений; генетические алгоритмы .

Методы этой группы являются, пожалуй, наиболее интерпретируемыми - они оформляют найденные закономерности , в большинстве случаев, в достаточно прозрачном виде с точки зрения пользователя. Полученные правила могут включать непрерывные и дискретные переменные. Следует заметить, что деревья решений могут быть легко преобразованы в наборы символьных правил путем генерации одного правила по пути от корня дерева до его терминальной вершины . Деревья решений и правила фактически являются разными способами решения одной задачи и отличаются лишь по своим возможностям. Кроме того, реализация правил осуществляется более медленными алгоритмами , чем индукция деревьев решений.

Методы кросс-табуляции: агенты, баесовские (доверительные) сети, кросс-табличная визуализация. Последний метод не совсем отвечает одному из свойств Data Mining - самостоятельному поиску закономерностей аналитической системой. Однако, предоставление информации в виде кросс-таблиц обеспечивает реализацию основной задачи Data Mining - поиск шаблонов, поэтому этот метод можно также считать одним из методов Data Mining .

Методы на основе уравнений.

Методы этой группы выражают выявленные закономерности в виде математических выражений - уравнений. Следовательно, они могут работать лишь с численными переменными, и переменные других типов должны быть закодированы соответствующим образом. Это несколько ограничивает применение методов данной группы, тем не менее они широко используются при решении различных задач, особенно задач прогнозирования.

Основные методы данной группы: статистические методы и нейронные сети

Статистические методы наиболее часто применяются для решения задач прогнозирования. Существует множество методов статистического анализа данных, среди них, например, корреляционно-регрессионный анализ, корреляция рядов динамики, выявление тенденций динамических рядов, гармонический анализ.

Другая классификация разделяет все многообразие методов Data Mining на две группы: статистические и кибернетические методы . Эта схема разделения основана на различных подходах к обучению математических моделей .

Следует отметить, что существует два подхода отнесения статистических методов к Data Mining . Первый из них противопоставляет статистические методы и Data Mining , его сторонники считают классические статистические методы отдельным направлением анализа данных. Согласно второму подходу, статистические методы анализа являются частью математического инструментария Data Mining . Большинство авторитетных источников придерживается второго подхода .

В этой классификации различают две группы методов :

  • статистические методы , основанные на использовании усредненного накопленного опыта, который отражен в ретроспективных данных;
  • кибернетические методы , включающие множество разнородных математических подходов.

Недостаток такой классификации: и статистические, и кибернетические алгоритмы тем или иным образом опираются на сопоставление статистического опыта с результатами мониторинга текущей ситуации.

Преимуществом такой классификации является ее удобство для интерпретации - она используется при описании математических средств современного подхода к извлечению знаний из массивов исходных наблюдений (оперативных и ретроспективных), т.е. в задачах Data Mining .

Рассмотрим подробнее представленные выше группы.

Статистические методы Data mining

В эти методы представляют собой четыре взаимосвязанных раздела:

  • предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.);
  • выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и др.);
  • многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и др.);
  • динамические модели и прогноз на основе временных рядов.

Арсенал статистических методов Data Mining классифицирован на четыре группы методов :

  1. Дескриптивный анализ и описание исходных данных.
  2. Анализ связей (корреляционный и регрессионный анализ, факторный анализ , дисперсионный анализ ).
  3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.).
  4. Анализ временных рядов ( динамические модели и прогнозирование).

Кибернетические методы Data Mining

Второе направление Data Mining - это множество подходов, объединенных идеей компьютерной математики и использования теории искусственного интеллекта.

В настоящее время элементы искусственного интеллекта активно внедряются в практическую деятельность менеджера. В отличие от традиционных систем искусственного интеллекта, технология интеллектуального поиска и анализа данных или "добыча данных" (Data Mining - DM), не пытается моделировать естественный интеллект, а усиливает его возможности мощностью современных вычислительных серверов, поисковых систем и хранилищ данных. Нередко рядом со словами "Data Mining" встречаются слова "обнаружение знаний в базах данных" (Knowledge Discovery in Databases).

Рис. 6.17.

Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.

В основу современной технологии Data Mining (Discovery-driven Data Mining) положена концепция шаблонов (Patterns), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные выборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей. На рис. 6.17 показана схема преобразования данных с использованием технологии Data Mining.

Рис. 6.18.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем. На рис. 6.18 показан полный цикл применения технологии Data Mining.

Важное положение Data Mining - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (Unexpected) регулярности в данных, составляющие так называемые скрытые знания (Hidden Knowledge). К деловым людям пришло понимание, что "сырые" данные (Raw Data) содержат глубинный пласт знаний, и при грамотной его раскопке могут быть обнаружены настоящие самородки, которые можно использовать в конкурентной борьбе.

Сфера применения Data Mining ничем не ограничена - технологию можно применять всюду, где имеются огромные количества каких-либо "сырых" данных!


В первую очередь методы Data Mining заинтересовали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. долларов. Есть сведения о проекте в 20 млн долларов, который окупился всего за 4 месяца. Другой пример - годовая экономия 700 тыс. долларов за счет внедрения Data Mining в одной из сетей универсамов в Великобритании.

Компания Microsoft официально объявила об усилении своей активности в области Data Mining. Специальная исследовательская группа Microsoft, возглавляемая Усамой Файядом, и шесть приглашенных партнеров (компании Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) готовят совместный проект по разработке стандарта обмена данными и средств для интеграции инструментов Data Mining с базами и хранилищами данных.

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. (рис. 6.19). Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. [Дюк В.А. www.inftech.webservis.ru/it/datamining/ar2.html]. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какая-то ключевая компонента, на которую делается главная ставка.

Можно назвать пять стандартных типов закономерностей, выявляемых с помощью методов Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.

Рис. 6.19. Области применения технологии Data Mining

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в компьютерном супермаркете, может показать, что 55% купивших компьютер берут также и принтер или сканер, а при наличии скидки за такой комплект принтер приобретают в 80% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.