23:42

домовой
Наткнулся в тырнете на упоминания проекта exo.
Если верить видеороликам, то( при наличии высокоскоростной лвс ) компьютеры на которых установлен и запущен exo образуют кластер. И через веб клиента можно с любой машины кластера запустить инференс llm. Нагрузка должна делиться между компьютерами входящими в кластер.

Комментарии
04.03.2025 в 00:44

подозрительная личность
Чота сомнительно что там будет вменяемая скорость генерации. Если устраивают задержки на сети, то логичнее грузить модель в ram, чем размазывать по нескольким машинам, хоть и на gpu.
04.03.2025 в 09:18

домовой
если у вас есть возможность, проведите эксперимент.
Запустите llm c 7b параметров на процессоре. оцените скорость работы. загрузку процессора.
запустите llm c 7b параметров на видеокарте. оцените скорость работы. загрузку процессора.

после этого у вас отпадет вопрос почему Маск упоролся и сделал кластер из дохреналиона весьма жирных видеокарт.

под высокоскоростной сетью понимается 10 гбит/сек и выше. или infiniband.

то что идет далее проходит под категорией "я вчера это в боевике видел"
exo позиционируется как проект, позволяющий запустить очень большую LLM на теоретически любых устройствах с linix/mac os . лишь бы этих устройств было достаточно. После оценки скорости связи кластер пытается поделить ллм на видеокартах так чтобы провал производительности был минимальным.
04.03.2025 в 09:55

подозрительная личность
> проведите эксперимент
дык я и не сомневался, что на gpu быстрее)

только у меня юз-кейс не как у Маска, я работаю с llm интерактивно и мне важно сколько времени занимает генерация одного ответа, а не сколько ответов в единицу времени производит кластер.
04.03.2025 в 13:43

домовой
я еще не пробовал запускать это чудо, потому не могу сказать насколько все медленнее будет в случае работы через сеть.

ну и не уверен что на сборной солянке из p106-100 и rtx 3060 laptop через гигабитную сеть удастся достичь хоть сколь-нибудь приемлемой скорости. А покупать infiniband или сетевую карту на 10 гбит/сек только ради того чтобы просто проверить работу кластера exo... меня пока тараканы на это уговорить не смогли