Наткнулся в тырнете на упоминания проекта exo.
Если верить видеороликам, то( при наличии высокоскоростной лвс ) компьютеры на которых установлен и запущен exo образуют кластер. И через веб клиента можно с любой машины кластера запустить инференс llm. Нагрузка должна делиться между компьютерами входящими в кластер.