Продуктивный Inference LLM
Требуется консультация человека с опытом продуктивного inference LLM (13b, 33b, 70b) с балансировкой (не round robin) на несколько нод/инстансов. Включает вопросы: подбор GPU, определение архитектуры и компонентов. Возможно дальнейшее сотрудничество. Пишите вашу ставку, и опишите ваш опыт, ориентир по времени 1 час.