Ми використовуємо файли cookie для покращення якості роботи сайту Bookmate та наших рекомендацій.
Для отримання додаткової інформації ознайомтеся з нашою Політикою щодо файлів cookie.
Прийняти все cookies
Налаштування файлів cookie
Машинное обучение, Хенрик Бринк, Джозеф Ричардс, Марк Феверолф
ru
Хенрик Бринк,Джозеф Ричардс,Марк Феверолф

Машинное обучение

Повідомити про появу
Щоб читати цю книжку, завантажте файл EPUB або FB2 на Букмейт. Як завантажити книжку?
  • Анастасия Мещеряковацитує2 роки тому
    конечном счете, для обхода этой проблемы из набора данных была попросту удалена вся информация об оплаченных наличными поездках. Изначально поставленная задача изменилась — теперь мы прогнозировали частоту чаевых только для случаев оплаты картой. Отказываться от части информации никогда не хочется. Но предположение о недостаточной достоверности сведений при оплате наличными нашло подтверждение в данных, соответственно мы поняли, что лучше всего использовать только проверяемые сведения и немного поменять формулировку задачи. Разумеется, гарантия корректности остальных записей о чаевых тоже отсутствует, но можно по крайней мере проверить новое распределение сумм
  • Анастасия Мещеряковацитує2 роки тому
    А сколько человек из расплачивающихся наличными оставляет чаевые? Все?

    На самом деле никто! Мы быстро это поняли. При оплате наличными водитель не регистрирует чаевые должным образом, и они просто не попадают в данные. Рассмотрев ситуацию с точки зрения здравого смысла, мы обнаружили миллионы потенциальных злоупотреблений в системе нью-йоркского такси!
  • Анастасия Мещеряковацитує2 роки тому
    Эти методы называются прямым отбором (forward selection) и обратным исключением (backward elimination) соответственно.
  • Анастасия Мещеряковацитує2 роки тому
    выбор признаков и связанная с этим процессом концепция важности признака (feature importance) помогают увидеть взаимосвязи внутри модели и в использовавшихся для ее построения данных.
  • Анастасия Мещеряковацитує2 роки тому
    итерационные методы отбора, которые мы сейчас рассмотрим. Они базируются на одном из двух принципов: начать с отсутствия признаков и постепенно найти самые лучшие, которые будут добавлены в подмножество, или же начать со всех доступных признаков и последовательными итерациями исключить самые худшие. Поиск останавливается после того, как добавление или исключение новых признаков перестает влиять на уровень точности,
  • Анастасия Мещеряковацитує2 роки тому
    Предположим, мы начали работать с текстом из ста слов. При этом появится множество столбцов с распространенными, но не несущими информации словами, такими как предлоги, частицы, артикли. В теории поиска информации они называются шумовыми, или стоп-словами (stop words), и обычно удаляются из текста перед подсчетом для «мешка слов».
  • Анастасия Мещеряковацитує2 роки тому
    более сложными концепциями текстовых признаков мы познакомим вас в следующей главе, пока же упомянем всего один осложняющий фактор — «мешок слов» быстро становится большим и разреженным. Появляется множество признаков, по большей части заполненных нулями, так как вероятность появления конкретных слов в произвольном фрагменте текста стремится к нулю.
  • Анастасия Мещеряковацитує2 роки тому
    В большинстве случаев «мешок слов» строится для всего набора данных, а затем слова, появляющиеся в тексте чаще всего, превращаются в столбцы. Для остальных слов создается обобщающий столбец, позволяющий оценить полную длину текста.
  • Анастасия Мещеряковацитує2 роки тому
    Но только такие признаки, как прошедшее с момента последней регулировки станка время и объем производимой продукции, дадут истинное представление о динамических аспектах процесса производства.
  • Анастасия Мещеряковацитує2 роки тому
    Аналогично тому, как признаки datetime не могут напрямую использоваться моделью, так как не являются ни численными, ни категориальными, нельзя напрямую скормить ML-алгоритму и произвольный текст. Требуется предварительная обработка, приводящая его к одному из двух вышеуказанных типов. Для превращения текста в ML-признаки воспользуемся методом, который называется «мешок слов» (bag of words). В его основе лежит простая идея: мы считаем количество вхождений каждого слова в текст и вставляем в набор данных столбец с соответствующим числом. При этом, как обычно, мы сталкиваемся с усложняющими ситуацию факторами.
fb2epub
Перетягніть файли сюди, не більш ніж 5 за один раз