Наш цифровой след и его визуализация

Пишете ли вы электронное письмо, проверяете свои твиты, слушаете музыку или обсуждаете важнейшие вопросы типа, «различают ли собаки цвета?», в Facebook, все эти привычные онлайн‑деяния генерируют огромные объемы информации, непосредственно вас касающейся. Как правило, об этом у вас никто не спрашивает.

Ещё недавно в интернете бизнес зарабатывал деньги по-простому, продавая доступ к своим услугам, программам или приложениям. Однако, по мере роста конкуренции и изменения тенденций покупательского спроса всё больше и больше подобных товаров теперь предлагается бесплатно. Бизнесмены внезапно стали благотворителями? — Нет, они по прежнему извлекают прибыль. Только придумали другой способ зарабатывать деньги. Можете догадаться, какой?
Читать далее «Наш цифровой след и его визуализация»

Геометрия формирования изображений

  Написано специально для студентов Бизнес‑информатики, которые только начинают осваивать OpenCV и всякий там Computer Vision, которым тяжело с математикой

Здесь с геометрической точки зрения объясняются основы формирование изображения.

В частности, рассматривается математика, стоящая за тем, как точка в 3D‑изображении проецируется на плоскость изображения.

Статья по своей природе не математическая и предназначена исключительно для новичков. Тем не менее, что такое перемножение матриц знать надо.
Читать далее «Геометрия формирования изображений»

Работа с PDF-файлами в Python (часть I): чтение и разбор

В эпоху бурной цифровизации Portable Document Format (PDF) — межплатформенный открытый формат электронных документов, изначально разработанный компанией Adobe Systems с использованием ряда возможностей языка PostScript, стал особенно популярным. В первую очередь, он предназначен для представления в электронном виде полиграфической продукции. C 1 июля 2008 года PDF стал открытым стандартом ISO 32000. Последняя версия ISO 32000‑2: 2017 впитала в себя весь опыт использования стандарта и отражает его эволюцию. Сегодня PDF, де‑факто, стал стандартном обмена информации и для многих приложений стал бесценным источником контента. Но работать с таким контентом сложно.
Читать далее «Работа с PDF-файлами в Python (часть I): чтение и разбор»

Подборка датасетов для машинного обучения

Перед вами статья-путеводитель по открытым наборам данных для машинного обучения. В ней, для начала, собрана подборка интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплены полезные ссылки для облегчения самостоятельного поиска датасетов.

Меньше слов, больше данных.
Поехали…

Kotlin для начинающих

Для начинающих язык Java является несколько многословным и сложным. Это пособие посвящено другому языку программирования, спутнику Java — языку Котлин. Котлин — молодой, лёгкий для изучения язык программирования, позволяющий писать программы под платформы JVM и Android более лаконично, просто и с меньшим количеством ошибок по сравнению с языком Java. Котлин и Java — полностью интероперабельные языки, поэтому одна и та же программа может быть частично написана на Котлине, частично на Java. Программы на Котлине могут использовать все имеющиеся Java-библиотеки, и наоборот. На данный момент программы на Котлине пишут сотни тысяч программистов, основная ниша его промышленного применения — мобильные приложения под платформу Android и, в несколько меньшей степени, web-разработка.
Читать далее «Kotlin для начинающих»

Основы градиентного бустинга

Александр СербулДеревья градиентного бустинга, с помощью которых сейчас много соревнований выигрывают с пол-пинка, ставят под сомнение возможности и перспективы deep learning 😉 Зачем нейросети, если можно гораздо точнее, с помощью последовательной компенсации ошибки предыдущей модели, добавлять деревья друг на друга, упрощая оптимизацию через хак в разложение функции потерь в ряд Тейлора и вырезание первых двух членов. А еще можно делать на деревьях сразу и регуляризацию, заодно, и решение становится из коробки хорошо устойчивым к переобучению. Красота — нейросетям и не снилось 🙂

Александр Сербул
Руководитель направления контроля качества интеграции и внедрений в 1С-Битрикс

Классная, подробная и понятная преза по деталям внутри деревьев градиентного бустинга от создателей XGBoost — от простого к сложному:
Читать далее «Основы градиентного бустинга»

TOP 5 фреймворков Python для Web-разработки в 2020 году

Python — универсальный язык программирования и его можно пользовать для реализации любого класса задач от простого сценария автоматизации до системного программирования, от разработки игр до научных графических и веб‑приложений. Последнее время именно в науке о данных и машинном обучении Python набирает обороты. Интеграция серьёзных вычислительных приложений с web-приложениями для представленя результатов в интернете — ведущий тренд современности. Поэтому в этой статье обсуждаются 5 лучших веб‑фреймворков Python с более-менее внятными подробностями и комментариями.

Веб‑приложение состоит из двух частей: клиентской и серверной. Клиентская часть — это, в основном, HTML, CSS и Javascript и рассматривается она, как способ представления информации пользователям. Серверная часть, как правило, является наиболее сложной и описывает всю бизнес-логику приложения. Веб‑разработку серверной части можно выполнить на многих языках, таких как Java, .Net, PHP, Ruby on Rails, Javascript и т. д. Сегодня Python с его веб‑фреймворками также служит основой серверной части приложений.
Хочу узнать