Data mining, или Интеллектуальный анализ данных для занятых. Практический курс

Повідомити про появу

Orange Catцитує7 років тому
6) Анализ Отклонений и Выбросов. Как предполагает название этот тип задач позволяет обнаруживать в наборе данных наиболее отличающиеся, нехарактерные значения.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Orange Catцитує7 років тому
5) Последовательность. Эта задача позволяет находить временную закономерность между событиями. Например, после покупки автомобиля, владелец покупает страховку, приобретает чехлы и запасные колеса. Работа с клиентом, в свою очередь, имеет свои циклы.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Orange Catцитує7 років тому
4) Ассоциация. Задачи этой группы очень популярны и являются, пожалуй, частным случаем задач классификации. Но отличие состоит в том, что анализируется не отдельный объект, а совокупности, наборы связанных объектов. Анализ покупок совершаемых в супермаркетах и выявление продуктов, продаваемых часто вместе – типичный пример задачи. Иногда эта задача так и называется – Basket Analysis.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Orange Catцитує7 років тому
3) Регрессия. Задача заключается в поиске функции задаваемых параметров, которая бы определяла спектр значений искомой величины (которая, в частности, может быть одним из параметров). Характерной задачей регрессии является предсказание погоды исходя из имеющихся исторических наборов данных. Или, более узко, имеется автомобиль определенной модели, года производства, километража и т. д. Необходимо назначить его цену.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Orange Catцитує7 років тому
2) Кластеризация. Эта задача похожа на предыдущую, с той лишь разницей, что классы разбиения заранее неизвестны. Поэтому результатом решения этой задачи будет разделение объектов по классам, которые сами определятся в результате решения задачи.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Orange Catцитує7 років тому
Задачи, решаемые Data Mining, можно условно разделить на следующие категории:

1) Классификация. Это наиболее распространенная задача, заключающаяся в разбиении объектов на заранее известные классы. Каждый класс обладает определенным набором признаков и по этим признакам любой объект может быть отнесен к одному, другому или третьему классу. Например, станет ли конкретный гражданин клиентом данной компании – типичный вопрос классификационной задачи, ибо всех клиентов можно разделить на два класса: да, станет клиентом или нет, не станет. Является ли сообщение, присланное по электронной почте спамом или нет, и так далее. Пример рассмотрен в главе 4.3, когда мы определяли модель автомобиля, по другим характерным признакам.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Orange Catцитує7 років тому
Аномальные, то есть сильно отличающиеся от средних значения полей могут указывать либо на ошибку при вводе данных, либо на саму природу данных. Аналитик, хорошо понимающий бизнес и природу данных, должен решить этот вопрос исходя из результатов
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Orange Catцитує7 років тому
Самый первый аналитический инструмент (Analyze Key Influencer – Анализ ключевых факторов влияния), который мы рассмотрим основан на использвании алгоритма кластеризации, суть которого заключается в разбиении некоторого множества объектов на группы (кластеры). При этом объекты одного кластера очень схожи по характеристикам. Процесс кластеризации отличается от процесса классификации тем, что заранее неизвестно каково будет разбиение на кластеры и определяется лишь во время разработки данных. Таким образом, первый инструмент разработки данных определяет факторы наиболее сильно влияющие на исследуемую характеристику
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Orange Catцитує7 років тому
Отличие обработки данных (обычно статистической) от разработки данных (Data Mining) заключается в том, что первая, подготовив нужным образом данные, дает пользователю возможность делать свои заключения и выводы относительно полученных результатов обработки исходных данных. При разработке данных, сама машина предлагает пользователю свои выводы, сделанные относительно исходного набора данных на основе используемых алгоритмов и моделей.
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися
Orange Catцитує7 років тому
Данные в базах данных, даже в нормированных, еще не являются информацией как таковой, поскольку содержат большое количество явных и неявных повторений. Большое количество повторений, большая удаленность от чистой информации, как раз и позволяет находить в данных закономерности, то есть приводить систему данных к более близкому к информации состоянию, понижать энтропию данных, так сказать. Извлечение из совокупности данных повторяющихся закономерностей, сродни нахождению новых закономерностей (пусть и не выраженных в виде математической формулы), то есть извлечению новых знаний
- Подобається
- Коментувати
- Поділитися
  Facebook
  Twitter
  Копіювати посилання
- Поскаржитися