И. Мунерман
Upd.: 24.05.12

Data Mining

Ежегодный прирост объемов хранимой информации в каждый год составляет на текущий момент 60%. То есть в среднем каждые полтора года объем хранимой информации удваивается. Однако,
не вся информация одинаково полезна. Растущие объемы инфор­ма­ции породили необходимость создания методов сокращения ее избыточности.

Также важно то, как информация преподносится: один график, диаграмма, рисунок могут заменить не одну страницу текста и сэкономить ваше время. Развитие информационных систем сбо­ра и хранения данных привело к такому росту их объемов, что ручная их обработка стала невозможной. Data mining (англ. – добыча данных) можно охарактеризовать, как работу с большими массивами информации с целью извлечения нужных данных и знаний.

Инструментарий Data mining составляют известные мате­мати­ческие методы и алгоритмы, среди которых можно выделить: линейная регрессия, корреляционно-регрессионный анализ; иерархические и неиерархические методы кластерного анализа, нейронные и нейронечеткие сети, бинарные деревья решений, методы решающих правил, эволюционное програм­мирование и генетические алгоритмы.

Опыт и квалификация специалистов компании «Мунерман и партнеры» позволяет решать Data mining задачи самого раз­лич­ного профиля и сложности. Это подтверждается успешно выпол­нен­ными проектами, в которых активно использовались техно­логии Data mining. Реализация массовой оценки недвижимости, построение систем скоринга и рэнкинга, а также систем on-line мониторинга подразумевают работу с большими объемами данных, как структурированными, так и нет. Следовательно, важным звеном данных проектов является Data mining.

Data mining – неотъемлемая часть работы при оценке любого крупного бизнеса. Необходим поиск и анализ данных, касающихся текущего состояния отрасли, самой компании, показателей оте­чественных и зарубежных предприятий-аналогов, ключевых детерминант для построения модели денежных потоков, модели оценки месторождений компании или ее нематериальных акти­вов, а также большого объема прочей информации. Навыки сбора и анализа данных, как отечественных, так и между­на­род­ных источ­ников, необходимых для оценки бизнеса, относятся к клю­че­вым преимуществам экспертов и специалистов МиП и ИУС.

Если говорить о массовой оценке недвижимости или системах on-line мониторинга залогового имущества, то одной из проблем здесь становится неформализованность и недостоверность ис­поль­зуемых данных – объявлений о продаже, данных о сделках и т.п. Данные содержат большое количество ошибок и опечаток. Например, офис класса «А» не может характеризоваться стихий­ной парковкой, а земельный участок особо охраняемых при­род­ных территорий не может продаваться под строительство склад­ского комплекса. Для решения данной проблемы специ­алистами МиП и ИУС разработан действенный инструментарий вери­фи­ка­ции факторного пространства, включающий в себя такие методы, как: семантические анализаторы, матрицы гра­нич­ных значений, наборы решающих правил, тестовые и вали­да­ци­онные выборки, а также, в силу ограниченных возможностей математического аппарата в данном случае, проверку данных с использованием call-центра. Работа над проектами в данной сфере ведется с ис­поль­зованием развитой сети региональных корреспондентов, что позволяет получать достоверную инфор­мацию не только по Москве и крупным городам, но и практически по всей территории РФ. Инстру­мен­тарий МиП по вери­фи­ка­ции баз данных универсале и успешно применялся не только при работе над российскими проектами, но и за рубежом, в частности при массовой оценке земельных участков в Китае.

Для реализации проектов Укрупненных показателей стоимости строительства (УПС), также был разработан свой пакет алгорит­мов и методов Data mining. Основной задачей здесь была необхо­ди­мость анализа больших объемов тендерной документации по сложным техническим проектам, как в России, так и за рубежом. Результатом являются выявленные зависимости между ключевыми техническими характеристиками, особенностями местоположения, условиями возведения и стоимостью строительства сложных объек­тов энергетической, коммунальной и прочей инфра­струк­туры. Низкий уровень погрешности говорит о детальной про­ра­ботке и практической применимости использованного инстру­ментария.

Проекты построения Скорингов и Рэнкингов для компаний являются фактически исключительно проектами области Data mining. Вся работа над проектом состоит в отборе и верификации данных, их анализе и выявлении закономерностей и взаимо­обу­слов­ленностей и дальнейшего выведения результата, будь то кредитный рейтинг, индекс должной осмотрительности или иной показатель. Среди проектов МиП и ИУС по построению ско­ринг­овых моделей следует выделить: Fraud Score (Индекс должной осмотрительности), Failure Score, а также Интегрированный индекс состояния компании. в рамках данных скорингов реа­лизуется ряд уникальных технологий, в частности учет выне­сен­ных судебных решений в отношении той или иной компании при построении индекса.

Проекты

insitute