Обработать данные с помощью библиотек Pandas и NumPy
Материал задания: используйте свою базу данных или на выбор датасеты по ссылкам
Данные об автомобилях:
https://github.com/mwaskom/seaborn-data/blob/maste...
Данные о пингвинах: https://github.com/mwaskom/seaborn-data/blob/maste...
Данные о планетах:
https://github.com/mwaskom/seaborn-data/blob/maste...
Данные о чаевых:
https://github.com/mwaskom/seaborn-data/blob/maste...
Задача: изучить данные, придумать показатели, которые можно вычислить на основе этих данных. Сделать выводу из полученных результатов.
Отчет должен включать:
- Описание данных: что отражают, их качество и полнота, некорректности и аномалии.
- Основные сведения о данных. Какой тип данных у каждой колонки. Сколько всего данных. Есть ли пропуски и какое количество. Встречаются ли дубликаты в данных.
- Использование методов groupby, pivot_table. С различными функциями mean, sum, count, std, min, max.
- Скачайте данные АБ теста https://disk.yandex.ru/d/EIhnPiMrDs8UUg
Проверьте гипотезу о равенстве среднего времени прослушивания музыки в группах А и Б. Используйте критерий Стьюдента для двух выборок или критерий Манна-Уитни
- Сформулированные выводы и тезисы.
При выполнении задания опирайтесь на изученный материал и дайте волю фантазии при формировании метрик и различных срезов.
Результат работы напишите в данный файл в виде ссылки на Google Docs.
Не забудьте открыть доступ на комментирование, чтобы преподаватель мог проверить работу.
Критерии оценки задания:
Составлен аналитический отчет по исследованию датасета.
Минимальный объём — 2–4 страницы.
Отчёт опирается на исходные данные.
Данные описаны и определена система метрик.
Сформулированы выводы и рекомендации.