Data Mining

         

Data Mining консалтинг


В предыдущей лекции мы рассматривали инструменты Data Mining, которые можно приобрести на рынке готового программного обеспечения. Как мы уже упоминали ранее, существуют и другие варианты: заказ готового решения у фирмы-разработчика или адаптация программного обеспечения под конкретную задачу.

Различные варианты внедрения Data Mining имеют свои сильные и слабые стороны. Так, преимуществами готового программного обеспечения являются готовые алгоритмы, техническая поддержка производителя, полная конфиденциальность информации, а также не требуется дописывать программный код, существует возможность приобретения различных модулей и надстроек к используемому пакету, общение с другими пользователями пакета и др.

Однако, такое решение имеет и слабые стороны. В зависимости от инструмента, это может быть достаточно высокая стоимость лицензий на программное обеспечение, невозможность добавлять свои функции, сложность подготовки данных, практическое отсутствие в интерфейсе терминов предметной области и другие. Такое решение требует наличия высококвалифицированных кадров, которые смогут качественно подготовить данные к анализу, знают, какие алгоритмы следует применять для решения каких задач, сумеют проинтерпретировать полученные результаты в терминах решаемых бизнес-задач. Далеко не каждая компания может содержать штат таких специалистов, а зачастую их содержание даже неэффективно.

Представим ситуацию, когда менеджер сталкивается "один на один" с одним из продуктов, в котором реализованы методы технологии Data Mining (от самых простых, включающих 1-2 алгоритма, до полнофункциональных программных комплексов, предлагающих десятки различных алгоритмов). Перед ним стоит задача - выявить наиболее перспективных потенциальных клиентов, а он видит перед собой всего лишь набор математических алгоритмов: Это и есть "обратная сторона" использования готовых инструментов.

Таким образом, покупке готового инструмента должна предшествовать серьезная подготовка к внедрению Data Mining. Некоторые аспекты этой подготовки (ее организационные факторы) были описаны в предыдущем разделе курса.

Если описанные сложности не учтены при внедрении готового инструмента, компания может столкнуться с трудностями, не всегда преодолимыми, и, как результат - разочароваться в технологии Data Mining.

Далее мы рассмотрим другой вариант внедрения: воспользоваться Data Mining-консалтингом и/или так называемой адаптацией программного обеспечения под конкретную задачу.



Data Mining-услуги


По данным консалтинговой компании Meta Group, в мире не менее 85% рынка Data Mining занимают именно услуги, т.е. консультации по эффективному внедрению этой технологии для решения актуальных бизнес-задач. На сайте KDnuggets можно найти перечень более ста известных компаний, занимающихся консалтингом в сфере Data Mining.

Одна из всемирно известных консалтинговых компаний в сфере Data Mining - компания Two Crows (www.twocrows.com). Она специализируется на публикации отчетности Data Mining, проводит образовательные семинары, консультирует пользователей и разработчиков Data Mining во всем мире. Одна из известных методологий Data Mining - методология, разработанная компанией Two Crows.

К консалтинговым Data Mining-компаниям относят и некоторых производителей готового программного обеспечения, продукцию некоторых мы рассмотрели в этом разделе курса:

IBM Global Business Intelligence Solutions, www.ibm.com/bi;SAS Institute, www.sas.com/datamining;SPSS, www.spss.com;StatSoft, www.StatSoft.com.

Некоторые консалтинговые компании предоставляют свои услуги на определенных территориях. Это, например, компания Arvato Business Intelligence, www.arvatobi.fr, обеспечивающая Data Mining консультирование и моделирование во Франции, Германии, Испании и некоторых других европейских странах. Некоторые консалтинговые компании специализируются на предоставлении услуг в определенных предметных областях. Например, компания Blue Hawk LLC, www.bluehawk.biz, осуществляет Data Mining и предоставляет консультационные услуги в сферах Direct Marketing и CRM. Некоторые компании предоставляют услуги с использованием определенных методов Data Mining. Компания Bayesia, (www.bayesia.com), предоставляет консультирование и "настройку решения" под клиента на основе байесовской классификации. Компания Visual Analytics (www.visualanalytics.com) обеспечивает услуги по бизнес-консультированию для нахождения шаблонов с использованием визуального Data Mining.

Рассмотрим преимущества, которые имеет этот вариант внедрения Data Mining по сравнению с готовыми программными продуктами и их самостоятельным использованием.


Высококвалифицированные специалисты. Для эффективного применения технологии Data Mining требуются квалифицированные специалисты, которые сумеют качественно провести весь цикл анализа. Пока что таких грамотных специалистов на просторах СНГ очень немного, и потому они довольно дороги. Обучение же собственных, во-первых, достаточно рискованно (его с удовольствием переманит конкурент), во-вторых, выльется в немалые затраты (такие курсы стоят дорого). Клиенты, воспользовавшись услугами консалтинговой компании, получают доступ к высококлассным профессионалам компании, экономя при этом значительные средства на поиске или обучении собственных специалистов.

Адаптированность. Готовые продукты изначально предназначены для решения хотя и широкого, но все же стандартного и ограниченного круга задач - адаптация продукта к условиям конкретного бизнеса ложится на плечи сотрудников компании. Здесь перед заказчиком опять встанет упомянутая проблема квалифицированных специалистов. Консалтинговая компания предоставляет услуги, полностью адаптированные под бизнес заказчика и его задачи.

Гибкость инструмента - его возможность быстро подстроить программное обеспечение под нужды бизнеса:

возможность выбора наиболее удобных понятий, в терминах которых должны быть сформулированы знания или термины предметной области; так, анализируя конкурентов, действующих на рынке, их можно поделить на "сильных" и "слабых" или же на "агрессивных", "спокойных" и "пассивных" - в зависимости от того, что интересует аналитика в определенный момент. Соответственно, знания будут сформулированы в выбранных заказчиком терминах, и в итоге он получает решение именно в тех терминах, которые ему интересны и понятны.получение осмысленных и понятных заказчику знаний в естественной форме. Использование адаптированного под конкретный бизнес программного обеспечения избавит пользователя от необходимости изучения формул или зависимостей в математической форме, а предоставит знания в наиболее интуитивном виде. Итак, услуги по применению Data Mining становятся все более востребованными.Далее мы опишем практический опыт российской компании SnowCactus, предоставляющей услуги по применению Data Mining.

Компания SnowCactus разработала ряд решений на основе Data Mining разнообразных бизнес-задач [118], например:

анализ клиентов, выявление наиболее доходных и перспективных покупателей;анализ и прогнозирование продаж продукции;оптимизация работы с поставщиками;оптимизация бюджета продвижения товаров;формирование ассортимента;оценка кредитоспособности заемщиков;повышение эффективности подбора персонала.В процессе решения каждой конкретной бизнес-задачи специалисты компании изучают имеющиеся в наличии данные и подбирают те математические алгоритмы, которые наиболее подходят для ее решения в данных условиях.


ы решения


Возьмем два примера решения задач, один из них - оценка кредитоспособности заемщика банка. Задача "Выдавать ли кредит?" уже рассматривалась нами на протяжении курса. Рассмотрим реализацию этой задачи в системе dm-Score - адаптированного под конкретную бизнес-задачу программного обеспечения кредитного скоринга.

Пример 1. Система кредитного скоринга dm-Score (система, предназначенная для оценки кредитоспособности заемщиков - физических лиц банка).

Это задача внедрения системы кредитного скоринга dm-Score (dm - от Data Mining) в банке для анализа кредитных историй и выявления скрытых влияний параметров заемщиков на их кредитоспособность.

Такая система должна вписываться в информационное пространство банка, т.е. напрямую взаимодействовать с базами данных, где хранится информация о заемщиках и кредитах, с автоматизированной банковской системой (АБС), другим программным обеспечением, и работать с ними как единое целое.

В процессе внедрения специалисты знакомятся с используемыми в банке АБС системой автоматизации ритейла, базами данных и т.д., согласовывают с специалистами требования к системе скоринга - как функциональные, так и нефункциональные, а также изучают, какие данные накоплены банком и какие задачи они позволяют решать, осуществляют адаптацию системы в соответствии с ними.

Одним из важных преимуществ внедрения системы dm-Score является то, что в процессе внедрения учитываются все индивидуальные требования и пожелания к ней со стороны банка. Важно также отметить, что в этом случае происходит интеграция системы dm-Score в информационное пространство банка, а не наоборот, т.е. внедрение не потребует каких-либо изменений в существующих бизнес-процессах.

Таким образом, в результате внедрения Ваш банк получает систему скоринга, которая учитывает все специфические особенности и потребности банка-клиента.

Описываемая система dm-Score позволяет решать следующие задачи:

оценка кредитоспособности заемщика (скоринг заемщика);принятие решения о выдаче кредита или отказе в нем. При этом система может объяснить специалисту банка, почему было принято именно такое решение;определение максимального размера кредита (лимита кредита по кредитной карте) на основе скоринга заемщика;вынесение профессионального суждения о кредитном риске по ссудам;выработка индивидуальных условий кредитования для каждого заемщика с учетом риска для банка;прогнозирование поведения заемщика, т.е. наличие и частоту просрочек конкретного заемщика, средний размер используемого кредита по кредитной карте и т.д.;оптимизация анкеты заемщика (исключение не значимых вопросов без ухудшения качества анкеты);проверка анкеты конкретного заемщика на полноту и внутреннюю непротиворечивость;решение других задач, специфичных для конкретного банка.

Работа с клиентом


На примере российской компании SnowCactus рассмотрим процедуру работы консалтинговой компании с клиентом. Комплекс услуг этой компании включает в себя планирование, организацию и осуществление полного цикла использования технологии Data Mining для бизнеса.

Весь цикл представлен на рис. 28.1. Он, по своей сути, является методологией Data Mining. Как уже упоминалось в предыдущих лекциях, методология Data Mining может быть разработана внутри организации, в соответствии с последовательностью работ, выполняемых в рамках аналитического процесса.


Рис. 28.1.  Цикл использования технологии Data Mining в SnowCactus

Цикл состоит из пяти этапов.

Этап 1. Постановка бизнес-задачи

На первом этапе компания вместе с заказчиком формулирует конкретные бизнес-задачи. При первом прохождении этого цикла задача может быть поставлена довольно широко: например, построить профили высокоприбыльных клиентов или определить группы нелояльных покупателей. Во время дальнейших проходов поставленные задачи можно уточнять, расширять и углублять. При формулировании задачи компания учитывает наличие данных, необходимых для ее решения. На этом этапе специалисты компании наравне со специалистами клиента принимают непосредственное участие в процессе формулирования задач, избавляя клиента от технической необходимости ставить задачу в терминах технологии Data Mining.

Этап 2. Первичное исследование данных

После того как бизнес-задача сформулирована, специалисты компании приступают к предварительному исследованию данных, необходимых для решения поставленной задачи. Этот этап компания также практически полностью берет на себя - со стороны заказчика здесь может потребоваться лишь минимальное участие для выяснения, например, смысла исследуемых данных или формулирования интересных для него понятий.

Этап 3. Подготовка данных

На третьем этапе специалисты компании подготавливают данные для их дальнейшего анализа. Для этого используется весь спектр методов подготовки данных, в каждом конкретном случае специалисты выбирают наиболее подходящие методы.


Этап 4. Анализ данных

Основной этап - четвертый - непосредственно анализ данных. Это полностью технический процесс, который специалисты компании проводят самостоятельно при помощи, в основном, собственных разработок. Спектр применяемых алгоритмов очень широк - от методов нечеткой кластеризации и деревьев решений до нейронных сетей и методов извлечения нечетких лингвистических правил.

Этап 5. Интерпретация результатов

На последнем этапе цикла специалисты компании вместе с клиентом занимаются интерпретацией полученных знаний. Это значит, что компания, во-первых, представляет найденные знания в удобной и понятной для заказчика форме, они вместе выясняют, какое значение результаты имеют для бизнеса клиента, а затем, при необходимости, отвечают на сопутствующие вопросы клиента и уточняют полученные знания.

После решения поставленной на первом этапе бизнес-задачи у клиента могут появиться новые вопросы, возникнуть новые бизнес-задачи. Например, он захочет уточнить и расширить полученные знания. В этом случае компания возвращается к первому этапу - постановке новой или уточнению решенной бизнес-задачи, и снова проходит по все этапам, таким образом предоставляя клиенту наиболее полные и качественные знания для развития его бизнеса.


Техническое описание решения


Как уже отмечалось, система кредитного скоринга dm-Score является решением, полностью интегрированным с используемым в банке программным обеспечением: АБС, системой автоматизации ритейла, СУБД и др. В процессе внедрения она вписывается в информационное пространство банка, взаимодействует и работает с ним как единое целое. Такой подход позволяет избежать ненужного дублирования функций и, как следствие, приводит к более эффективному использованию имеющихся в банке ресурсов. Схематично устройство системы dm-Score изображено на рис. 28.2.


Рис. 28.2.  Устройство системы dm-Score

Система dm-Score состоит из двух аналитических блоков - блока анализа данных и блока принятия решений.

Блок анализа (серверная часть). В блоке анализа системы dm-Score осуществляется анализ данных о заемщиках банка, о выданных кредитах и истории их погашения на основе аналитической технологии Data Mining. Благодаря интеграции с АБС банка, блок анализа может получать данные напрямую из нее.

Система dm-Score делает свои выводы на основе данных, уже накопленных банком в процессе работы на рынке розничного кредитования. При этом в процессе внедрения система настраивается именно на тот набор данных, на который ориентирован конкретный банк. Иными словами, система dm-Score готова работать с теми данными, которые есть в наличии, и не требует фиксирования на какой-либо конкретной жестко заданной анкете.

В процессе анализа данных о заемщиках и кредитах применяются различные математические методы, которые выявляют в них факторы и их комбинации, влияющие на кредитоспособность заемщиков, и силу их влияния. Обнаруженные зависимости составляют основу для принятия решений в соответствующем блоке. Блок анализа должен периодически использоваться для анализа новых данных банка (приходят новые заемщики, текущие производят выплаты), для обеспечения актуальности системы dm-Score и адекватности принимаемых ею решений.

Блок принятия решений (клиентская часть). Блок принятия решений используется непосредственно для получения заключения системы dm-Score о кредитоспособности заемщика, о возможности выдачи ему кредита, о максимально допустимом размере кредита и т.д.


С этим блоком работает сотрудник банка, который либо вводит в него анкету нового заемщика, либо получает ее из торговой точки, где банк осуществляет программу потребительского кредитования.

Благодаря тесной интеграции системы dm-Score с информационным пространством банка, результаты работы этого блока передаются непосредственно в АБС и систему автоматизации ритейла, которые уже формируют все необходимые документы, ведут историю кредита и т.д. Таким образом, и система dm-Score, и все банковские системы работают как одно целое, повышая производительность труда сотрудников банка.

В результате решения рассмотренной выше задачи с использованием технологии Data Mining банк получает определенные преимущества, например, в сравнении с использованием экспертных методик.

Первая из них - это объективность. Data Mining, в отличие от экспертных методик, находит объективные закономерности между различными факторами, таким образом позволяя минимизировать влияние субъективного человеческого фактора на принятие решений.

Автоматизация. В отличие от экспертных методик, методика на основе Data Mining может быть эффективно автоматизирована и способна обрабатывать большие потоки заявок в режиме реального времени. На вход поступает анкета заемщика, система сразу же выдает решение - кредитный рейтинг, лимит кредита и т. д.

Точность. В отличие от статистических методов анализа данных, технология Data Mining осуществляет более глубокий анализ, выявляя зависимости, которые неочевидны. А это значит, что методика на основе Data Mining учитывает больше важных факторов и, следовательно, дает более точные рекомендации. В частности, это подтверждается успешным опытом применения технологии ведущими западными банками.

Адаптируемость. Со временем кредитная ситуация меняется, поэтому необходимо постоянно отслеживать изменения в поведении заемщиков. Методика, основанная на технологии Data Mining, учитывает все эти изменения, так как периодически производит анализ новых данных. Таким образом, она постоянно адаптируется под изменяющиеся условия.


Это также позволяет принимать более обоснованные и точные кредитные решения.

Гибкость. Иногда возникает необходимость внести изменения в анкету заемщика, претендующего на кредит, - например, добавить дополнительные пункты, какие-то убрать, изменить варианты ответов на вопрос и т.д. Хорошая методика не должна при этом требовать привлечения квалифицированных экспертов для ее адаптации под новую структуру данных.

Объяснимость. Еще одна важная характеристика хорошей методики: возможность объяснить, почему данный заемщик получил определенный кредитный рейтинг (например, почему ему следует отказать в выдаче кредита) или почему ему следует установить именно такой лимит по карточке и т.д.

Пример 2.Анализ резюме: пример решения практической бизнес-задачи клиента.

Приведем пример решения конкретной бизнес-задачи одного из рекрутинговых агентств, в которой технология Data Mining применялась для анализа резюме. Это агентство специализируется на подборе персонала для IT-компаний, за время работы оно успело накопить базу из нескольких тысяч резюме кандидатов на различные вакансии.

Сначала была решена проблема разного формата всех резюме, при этом разработанный стандарт разметки позволил вновь присланные резюме размечать сразу же при поступлении. Таким образом, попутно была решена и другая задача компании - создание эффективного стандарта систематизации накопленной информации. Такая система нужна агентству не только для анализа резюме при помощи Data Mining, но и для более эффективного поиска по базе, для статистической обработки и т.д. После разметки резюме специалисты компании приступили к подготовке данных для анализа, важность этого этапа была описана в предыдущем разделе курса лекций. Следующий этап - проведение непосредственного анализа данных при помощи специально разработанного инструментария Data Mining.

В результате анализа удалось построить подробные профили (портреты) лояльных сотрудников и тех, кто склонен менять работу чаще, чем раз в год, были построены профили различных возрастных и иных социально-демографических групп, сотрудников различных отделов, выпускников различных вузов и многое другое.


Например, выяснилось, что наиболее склонны к постоянной смене мест работы женщины 20-25 лет. Для сотрудников отдела маркетинга также характерна частая смена мест работы. Какие выводы из этого делает агентство при подборе персонала? Если для клиента важно найти лояльного и преданного сотрудника, который не уйдет с работы через полгода, агентство фокусирует свои поиски на мужчинах 35-45 лет, окончивших Московский Государственный Университет. Если же клиенту важно быстро найти человека на временную работу, агентство может предложить ему девушку 20-25 лет. Или другой пример: при помощи Data Mining компания выявила, что успешная работа на топ-менеджерских позициях в IT-компаниях наиболее характерна для выпускников того же Московского Государственного Университета. Каков вывод? Когда агентству нужно найти клиенту хорошего исполнительного директора, оно фокусирует поиски на этих выпускниках и делает свою работу быстро и более качественно.

Таким образом, благодаря технологии Data Mining агентство может заранее сузить круг поиска кандидатов и, следовательно, проводить подбор персонала более эффективно - быстрее и с меньшими издержками.