домовой
Наткнулся в тырнете на упоминания проекта exo.
Если верить видеороликам, то( при наличии высокоскоростной лвс ) компьютеры на которых установлен и запущен exo образуют кластер. И через веб клиента можно с любой машины кластера запустить инференс llm. Нагрузка должна делиться между компьютерами входящими в кластер.
Если верить видеороликам, то( при наличии высокоскоростной лвс ) компьютеры на которых установлен и запущен exo образуют кластер. И через веб клиента можно с любой машины кластера запустить инференс llm. Нагрузка должна делиться между компьютерами входящими в кластер.
Запустите llm c 7b параметров на процессоре. оцените скорость работы. загрузку процессора.
запустите llm c 7b параметров на видеокарте. оцените скорость работы. загрузку процессора.
после этого у вас отпадет вопрос почему Маск упоролся и сделал кластер из дохреналиона весьма жирных видеокарт.
под высокоскоростной сетью понимается 10 гбит/сек и выше. или infiniband.
то что идет далее проходит под категорией "я вчера это в боевике видел"
exo позиционируется как проект, позволяющий запустить очень большую LLM на теоретически любых устройствах с linix/mac os . лишь бы этих устройств было достаточно. После оценки скорости связи кластер пытается поделить ллм на видеокартах так чтобы провал производительности был минимальным.
дык я и не сомневался, что на gpu быстрее)
только у меня юз-кейс не как у Маска, я работаю с llm интерактивно и мне важно сколько времени занимает генерация одного ответа, а не сколько ответов в единицу времени производит кластер.
ну и не уверен что на сборной солянке из p106-100 и rtx 3060 laptop через гигабитную сеть удастся достичь хоть сколь-нибудь приемлемой скорости. А покупать infiniband или сетевую карту на 10 гбит/сек только ради того чтобы просто проверить работу кластера exo... меня пока тараканы на это уговорить не смогли