На определенном датасете необходимо построить модели предсказания
Для этого:
1. Извлечь параметры из поля Features и добавить их к данным.
2. Предложить еще несколько, не менее трех, характеристик которые можно извлечь из текстовых описаний или из иных данных.
3. Отделить 15% датасета в качестве тестовой выборки.
4. На основе данных, включая постоянные характеристики построить модель RandomForest с разными вариантами параметров.
5. Выберите лучший набор параметров на основе кросс-валидации.
6. Посмотрите на "значимость параметров" выкиньте самые малозначимые.
7. Постройте любые три модели, например, линейная регрессия, случайный лес и дерево, на оставленных параметрах.
8. Сравните эти три модели на тестовой выборке и укажите лучшую.
Пришлю датасет и все прилегающие документы (включая лекции, которые помогут сделать задание)