Эссе 800 слов на тему применение Аналитики Данных в любой сфере
Нужно определить, что организация ожидает добиться от деятельности по анализу данных, типы данных, которые они генерируют и проблемы, связанные с этими данными, и способы их преодоления. Можно выбрать реальную компанию.
В отчете основное внимание уделяется циклу анализа данных(например, CRISP-DM, KDD). Необходимо предоставить примеры того, где в вашей области использовались алгоритмы предварительной обработки данных и машинного обучения.
1. Введение
Краткое изложение основных моментов, которые вы будете обсуждать в своем эссе. В первую очередь необходимо определить уровень аналитических возможностей выбранной организации. В вашем отчете должны быть изложены выбранная вами тема, обоснование и основные темы, которые вы определили. 100 слов.
2. Ожидаемые данные и инфраструктура анализа данных, которые будут использоваться
Цель этого раздела — убедиться, что вы понимаете типы данных и проблемы предварительной обработки, которые могут возникнуть в выбранной вами организации. Какие типы данных будут использоваться? Будут ли это структурированные данные, хранящиеся в базах данных? Или в озере данных будут также храниться неструктурированные и частично структурированные данные? Обсудите архитектора анализа данных, который, по вашему мнению, будет необходим, будет ли это облачное решение или локальное кластерное решение? 200-250 слов.
3. Ожидаемые методы предварительной обработки данных и машинного обучения.
В этом разделе вы должны обсудить методы предварительной обработки данных (например, ETL/ELT), дизайн управления данными и методы машинного обучения, которые можно применить к данным из выбранной вами темы. Будете ли вы хранить данные в хранилище данных схемы «звезда/снежинка» или не в озере данных схемы? Как вы решаете проблемы с качеством данных (например, отсутствующие данные и выбросы) в данных? Будет ли модель машинного обучения контролируемой или неконтролируемой, или и той, и другой? Какие типы алгоритмов вы будете использовать и почему? Какие критерии будут использоваться для измерения успеха методов машинного обучения. 250-300 слов.
4. Заключение
В этом разделе вы должны обобщить свои выводы и указать, какие технологии могут быть использованы для решения проблемы в будущем. 100 слов.
5. Ссылки
Отчет должен представлять собой список литературы, содержащий ссылки, которые вы использовали в отчете. Максимум 5-8 ссылок.