Написать парсер для сайта - каталога компаний
Программа считывает файл (название можно захардкодить):
- В файле описаны кведы которые нужно спарсить.
- Кведы в формате <число>.<число> , пример: 49.19
- Один квед на строчку
- Пример файла указан в приложении
Условия:
1. когда парсит - пропускает ИПшников (т.е. только ООО парсит)*
*ООО от ИП отличаются тем что начинаются с цифр: 43946280, "ООО РОМАШКА"
2. Выдаёт файл в формате csv, содержащий результат парсинга, по столбцы:
2.1 квед в виде числа, (46.19)
2.2 квед в виде текста (Діяльність посередників у торгівлі товарами широкого асортименту)
2.3 дата регистрации ооо (Дата реєстрації)
2.4 размер уставного капитала (Розмір статутного капіталу)
2.5 название ооо (Скорочена назва)
2.6 Телефон (если нет - пустое)
2.7 Телефон 2 (если нет - пустое)
Пример с двумя телефонами: https://youcontrol.com.ua/catalog/company_details/...
2.8 Телефон 3 (если нет - пустое)
2.9 E-mail (если нет - пустое)
3. Т.к. "квед в виде текста" (столбец 2.2) может содержать запятые, то нужно каждую ячейку выделять кавычками, чтобы эксель считал потом верно.
4. Программа должна быть написана на платформонезависимом ЯП.
По сути кведы просто форматируются в URL, и парсится каждая страничка по очереди, пока на 404 не попадем.
Например квед 46.19:
https://youcontrol.com.ua/catalog/kved/46/19/1/
https://youcontrol.com.ua/catalog/kved/46/19/2
https://youcontrol.com.ua/catalog/kved/46/19/3
https://youcontrol.com.ua/catalog/kved/46/19/4
...