Как из одного курса, лени и пары фейлов построить экосистему

В интернете кто-то не прав, а точнее 99.997% населения Земли... Не шуточная статья про: - пользу и вред для бизнеса от ленивых программистов; - удачные неудачные названия и их последствия; - почему нельзя просто взять платформу X

Как из одного курса, лени и пары фейлов построить экосистему
Реальная картинка для привлечения внимания

В интернете кто-то не прав, а точнее 99.997% населения Земли, которые почему-то решили, что можно не получать степень магистра по распределенным вычислениям и дискутировать на тему Big Data.

На самом деле не шуточная статья про:

  1. Пользу и вред для бизнеса от ленивых программистов;
  2. Удачные неудачные названия и их последствия;
  3. Почему нельзя просто взять платформу X.

В финале вас ждет напутственная байка и предложение для энтузиастов, которых ограничивают известные вам LMS.

1) PRO ленивых программистов

В МГУ у нас была замечательная тренер из Динамо, которая говорила:

Хороший баскетболист - это "ленивый" баскетболист

"Ленивый" баскетболист в ее понимании – это баскетболист, который не будет делать лишних телодвижений для достижения поставленных целей. Ровно эту же фразу можно перефразировать для бизнеса и для программистов. Но есть нюанс, для программиста ленью считается любое деяние, которое делается вручную, что приводит к следующим казусам:

Было бы смешно, если бы не было правдой

Для малого и среднего бизнеса, компания в хорошей мере отражает профиль основателей. Если одним из основателей является разработчик – жди беды: любой повторяемый ручной труд на 5+ минут (хотя бы 2 раза в год) будет рассматриваться как bottleneck для масштабирования.

С другой стороны - вы вообще не зависите от каких-либо внешних систем, обстоятельств, ценовой политики и недобросовестных поставщиков IT услуг. Что-то не нравится, послали поставщика лесом и запили собственную внутреннюю систему, с блэкджеком и куртизанками. Да – дольше, да – со своими ограничениями, но зато с понятными гарантиями и плюшками.

В конечном счете, баланс нужен во всем: в лени, жизни, работе, ...

2) Удачно неудачные названия

Наша компания называется BigData Team. 8 лет назад, когда я открывал компанию, я думал, что слова "Big Data" намекают на то, что мы занимаемся современными распределенными вычислениями. Оказалось, что число людей, которые считают так же – это всего 0.003% населения Земли:

Для большинства людей Big Data – это про Machine Learning, ИИ, AI и вот это вот все (что более правильно называть современной прикладной математической статистикой и оптимизацией). Битву за правильное название с таким соотношением (± 30'000 : 1) выиграть довольно сложно. В отчаянной попытке объяснить правду тем, кто в интернете не прав, я достал маркерные доски, флуоресцентные фломастеры, куртизанок (зачеркнуто, кажется это из другого рассказа) – и нарисовал все по-человечески и в максимально простой форме:

Занимательная Big Data. Параллельные и распределенные вычисления в картинках.

Почитать, послушать и позалипать на видео – можно по ссылке. А если хотите актуальную версию, с учетом развития гибридных CPU-/GPU- кластеров (ох уж эти LLM) - подкиньте лайков и комментариев.

От лирики к бизнесу. По нашему основному виду деятельности Big Data (научному и прикладному в понимании тех самых 0.003% имеющих хотя бы степень магистра по указанному профилю) с 2017-го года мы обучили на Coursera более 100 тысяч. Но в силу удачно неудачного названия, к нам все это время стучались в двери за повышением квалификации в области машинного обучения. Сопротивляться рынку мы не смели, поэтому:

  1. Уже в 2018-м мы предоставили практические курсы по Machine Learning для IT специалистов. В 2022-2023 мы решили сделать перерыв и предоставляли по ML только кастомные курсы (NLP, LLM) по запросу компаний-партнеров (МегаФон, Сбербанк, ...). B2C рынок, где каждый второй вопрос "вы ведь про Big Data?", убедил нас вернуть такие курсы для общих наборов. Мы нашли компромисс как заниматься тем, что мы любим больше всего (реальная Big Data) и как удовлетворить тех, кто хочет (маркетинговой математической) Big Data: проводим такие курсы только один раз в год. Например ближайший открытый набор будет только в феврале-марте следующего (2026-го) года. Укрепили это предложение замечательной командой, чтобы поделиться не только знанием и практикой, а мышлением C-level специалистов и крутым сообществом:
Анонс от 20.03.2024
  1. В попытке победить вопиющую безграмотность 99.997% населения Земли в вопросах Big Data, в 2019-м мы применили новую стратегию. Мы решили зайти через голову – донести правильную позицию топ-менеджерам, чтобы они это знание уже в добровольно-принудительном порядке донесли до сотрудников вниз по карьерной лестнице и иерархии. Так у нас появился курс Big Data Workshop и его вариации. Мы сделали турне по крупным банкам, телекомам, интернет-ритейлам, гос. аппарату (министерства по цифровизации) и образовательному сектору (проректора по IT и образованию). Оцениваю, что число знающих про правильную Big Data выросло с реальных 0.0025% до 0.003% от населения Земли. Что хочу отметить про удачные неудачные названия: несмотря на наш "Big Data" профиль и полное отсутствие рекламы, к нам по сарафанному радио хотя бы раз в год приходит на обучение топ-менеджеров новая компания. Например, довольно недавно мы провели Big Data Workshop по GenAI для Beeline в Казахстане:
  1. В 2022-м году к нам поступило предложение от Astana Hub: разработать 6+ месячный курс подготовки кадрового IT потенциала страны с грантовой поддержкой от государства (Казахстан). Здесь нас уже подвели не наши удачно неудачные названия, а таковые на уровне страновых умолчаний. Большая часть позиций в банках Казахстана под ролью Data Scientist на самом деле подразумевает Data Analyst. Одно дело обучить Data Scientist работать с большими данными, другое дело – научить аналитиков более сложному анализу данных, помочь восполнить пробелы по Computer Science и после этого рассказать про реально большие данные и инструменты для работы с ними. Long story short: теперь у нас есть полный карьерный трек развития от аналитика данных до Big Data или Machine Learning инженера.

Кому интересно, смотрите описание специализации Big Data / Machine Learning Engineer), отдельных учебных курсов на 2-3 месяца обучения (Python для анализа [больших] данных; курс промышленной разработки на Python; практический курс по Big Data; практичеcкий курс по Machine Learning) или посмотрите 10-минутный видеоролик:

Специализация BDMLE + грантовая поддержка граждан Казахстана

Резюме: с научной точки зрения – мы абсолютно правы (в своих терминах и определениях), но из-за всеобщей безграмотности маркетинга страдаем мы и разрабатываем все новые курсы, чтобы объяснить кто в интернете не прав на самом деле. Где справедливость?

3) Почему нельзя просто взять платформу X

А теперь (имхо) самое интересное. Как хорошая "лень" идеологического программиста решает задачи эволюции потребностей рынка (см. п. 2 выше) и внутренней автоматизации.

Для поставки образовательного контента есть давно устоявшийся термин LMS = Learning Management System. И если вас устраивают условия платформы (эксклюзивное использование авторских прав, возможности и ограничения, размеры комиссий, доступная аналитика, ...), то дело в шляпе. Но если вы занимаетесь Big Data и не занимаетесь профанацией образования, то для наработки практических навыков вам нужен (задумаемся на минуточку) развернутый вычислительный кластер и (на удивление, как оказалось еще большая сложная проблема (!)) возможность интеграции вашей инфраструктуры в LMS.

С 2011-го года я профессионально занимаюсь образованием студентов в вузах и повышением квалификации IT специалистов в компаниях. За свои годы я видел и опробовал десяток LMS. Могу подробно рассказать про плюсы и минусы (для авторов и разработчиков курсов) Piazza, Moodle, edX, Open edX, Coursera, Google Classroom, гибридов open source решений и сервисов. Как программист я стараюсь найти баланс между DRY (Don’t Repeat Yourself = переиспользование того, что уже имеется) и DIY (Do It Yourself = сделай сам), но, к сожалению, спустя 14 лет экспериментов вынужден признать, что для сферы Big Data вам придется разработать собственную платформу (и даже целую экосистему инструментов и сервисов).

Поясню на одном примере. Хорошие образовательные платформы (LMS) поддерживают специализированный протокол обмена информации с целью интеграции внешней инфраструктуры и сервисов. Данный протокол называется LTI = Learning Tools Interoperability. Его придумал целый консорциум, который состоит из ряда ведущих международных вузов и образовательных платформ, среди которых MIT и edX. В 2012-м году был разработан стандарт LTI 1.1, который позволял передавать информацию об оценке за решение задания из курса посредством оценки внешним сервисом. Это все строилось давно на довольно монструозных XML и большом количестве недочетов шишек, которые нужно было набить. В 2019-м (ура и слава) появился стандарт LTI 1.3, который работает поверх OAuth2, OpenID Connect и JWT... Это все в теории. А на практике, все большие платформы до сих пор сидят на LTI 1.1 с его костылями и палками, а первая страница официальной документации LTI 1.3 содержит (сцуко) нечитаемый (!) скриншот архитектуры предлагаемого решения:

proof

Как в известном анекдоте: а электроды я взял деревянные, все равно мой диплом никто читать не будет (одна из вариаций). А наши новые наработки мы будем потихоньку выкатывать на платформу learn.bigdatateam.org:

Пасхалка для внимательных

Финальная байка и предложения

Если вам интересен какой-либо опыт из всего вышесказанного или хотите добавить своим опытом (про "ленивых" программистов для бизнеса, про образовательные платформы, про удачно неудачные казусы) – смело оставляйте комментарии. А я перейду к обещанной байке:

Году в 2018-м Coursera с их топ-менеджерами приезжали на конференцию по образованию в ВШЭ. В кулуарной посиделке мы обсуждали как было бы классно, если бы преподаватели имели возможность запускать свои курсы на Coursera безотносительно привязки к вузам и IT-компаниям (а то бывают казусы: пример раз (2022), пример два (2017) (о, кажется я в паблике не рассказывал как проректорат уважаемого вуза хотел отжать интеллектуальную собственность? 🤔)). Конечно для международной площадки с выстроенными процессами по всем странам на уровне B2G и B2B сектора, отфильтровать на рынке B2C инфоцыган от идейных, ответственных и деятельных - то еще приключение. Поэтому они сказали чисто по американски "прекрасное предложение", что в переводе означало "нам фиолетово".

Если вы попали в касту "фиолетовых" (например IT'шник и преподаватель), вы уже пробовали разные LMS и вас не устраивают возможности реальной прокачки скилов слушателями и автоматизации их проверок, то смело приходите в личку. Можете поставить "+" к этой публикации в моем личном блоге, где я пишу заметки про про жизнь в разных странах, работу, книги и интересные наблюдения.

🗓️ BigData Team, календарь обучения 2025