Kaggle notebooks analytics on packages usage - scikit-learn and AutoML
В идеале расширить затем на анализ публичныз репозиториев на гитабе. Есть пример работы с kaggle api и код по выкачиванию кернелов которым можно поделиться, но там все просто достаточно. - https://freelance.habr.com/tasks/413857
Хочется получать метрики по импортам раличны решений - вот пример для модулей внутри сайкита.
Такой же хочется получать для проивольного набора пакетов - например разлличные AutoML.
Уметь делать срезы по времени что бы иметь возможность наблюдать за изменениями - как меняется популярность различных пакетов/модулей внутри пакетов со временем - например срезы каждый месяца
вот условный пример набора испортов сайкита на наборе кернелов.
train_test_split | 8853 |
KFold | 4086 |
LabelEncoder | 3593 |
StratifiedKFold | 3547 |
roc_auc_score | 3246 |
StandardScaler | 3113 |
preprocessing | 2656 |
metrics | 2615 |
mean_squared_error | 2477 |
LogisticRegression | 2082 |
RandomForestClassifier | 2054 |
accuracy_score | 1938 |
confusion_matrix | 1934 |
log_loss | 1740 |
TfidfVectorizer | 1684 |
Результат работы: не только собранные данные на одном из наборов но и сами скрипты парсинга в состоянии готовом для деплоймента