Работа с PDF-файлами в Python (часть I): чтение и разбор

В эпоху бурной цифровизации Portable Document Format (PDF) — межплатформенный открытый формат электронных документов, изначально разработанный компанией Adobe Systems с использованием ряда возможностей языка PostScript, стал особенно популярным. В первую очередь, он предназначен для представления в электронном виде полиграфической продукции. C 1 июля 2008 года PDF стал открытым стандартом ISO 32000. Последняя версия ISO 32000‑2: 2017 впитала в себя весь опыт использования стандарта и отражает его эволюцию. Сегодня PDF, де‑факто, стал стандартном обмена информации и для многих приложений стал бесценным источником контента. Но работать с таким контентом сложно.
Читать далее «Работа с PDF-файлами в Python (часть I): чтение и разбор»

Подборка датасетов для машинного обучения

Перед вами статья-путеводитель по открытым наборам данных для машинного обучения. В ней, для начала, собрана подборка интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплены полезные ссылки для облегчения самостоятельного поиска датасетов.

Меньше слов, больше данных.
Поехали…

Kotlin для начинающих

Для начинающих язык Java является несколько многословным и сложным. Это пособие посвящено другому языку программирования, спутнику Java — языку Котлин. Котлин — молодой, лёгкий для изучения язык программирования, позволяющий писать программы под платформы JVM и Android более лаконично, просто и с меньшим количеством ошибок по сравнению с языком Java. Котлин и Java — полностью интероперабельные языки, поэтому одна и та же программа может быть частично написана на Котлине, частично на Java. Программы на Котлине могут использовать все имеющиеся Java-библиотеки, и наоборот. На данный момент программы на Котлине пишут сотни тысяч программистов, основная ниша его промышленного применения — мобильные приложения под платформу Android и, в несколько меньшей степени, web-разработка.
Читать далее «Kotlin для начинающих»

Основы градиентного бустинга

Александр СербулДеревья градиентного бустинга, с помощью которых сейчас много соревнований выигрывают с пол-пинка, ставят под сомнение возможности и перспективы deep learning 😉 Зачем нейросети, если можно гораздо точнее, с помощью последовательной компенсации ошибки предыдущей модели, добавлять деревья друг на друга, упрощая оптимизацию через хак в разложение функции потерь в ряд Тейлора и вырезание первых двух членов. А еще можно делать на деревьях сразу и регуляризацию, заодно, и решение становится из коробки хорошо устойчивым к переобучению. Красота — нейросетям и не снилось 🙂

Александр Сербул
Руководитель направления контроля качества интеграции и внедрений в 1С-Битрикс

Классная, подробная и понятная преза по деталям внутри деревьев градиентного бустинга от создателей XGBoost — от простого к сложному:
Читать далее «Основы градиентного бустинга»

TOP 5 фреймворков Python для Web-разработки в 2020 году

Python — универсальный язык программирования и его можно пользовать для реализации любого класса задач от простого сценария автоматизации до системного программирования, от разработки игр до научных графических и веб‑приложений. Последнее время именно в науке о данных и машинном обучении Python набирает обороты. Интеграция серьёзных вычислительных приложений с web-приложениями для представленя результатов в интернете — ведущий тренд современности. Поэтому в этой статье обсуждаются 5 лучших веб‑фреймворков Python с более-менее внятными подробностями и комментариями.

Веб‑приложение состоит из двух частей: клиентской и серверной. Клиентская часть — это, в основном, HTML, CSS и Javascript и рассматривается она, как способ представления информации пользователям. Серверная часть, как правило, является наиболее сложной и описывает всю бизнес-логику приложения. Веб‑разработку серверной части можно выполнить на многих языках, таких как Java, .Net, PHP, Ruby on Rails, Javascript и т. д. Сегодня Python с его веб‑фреймворками также служит основой серверной части приложений.
Хочу узнать

20 электронных библиотек, где можно брать книги бесплатно и легально

Сохраните себе этот полезный список, и вы всегда будете знать, где законно брать книги для чтения.

1. Библиотека Максима Мошкова (www.lib.ru) — одна из первых и самых популярных русскоязычных электронных библиотек, она открылась в 1994 году. Авторы и читатели ежедневно пополняют библиотеку на добровольной основе. Сервис не берёт денег, читать бесплатно можно абсолютно всё.
Читать далее «20 электронных библиотек, где можно брать книги бесплатно и легально»

Просто хозяйственное мыло и никакой химии

Несмотря на обилие разнообразной бытовой химии, на прилавках магазинов до сих пор можно встретить невзрачные коричневые куски хозяйственного мыла. При СССР это мыло было в каждом доме и заменяло десятки средств бытовой химии и личной гигиены.

Стоит оно копейки, зато по полезным свойствам обгонит любое чистящее средство! И не только в быту! Спектр его применения невероятно широк — от косметологии до лечения ожогов, грибка, воспалительных заболеваний и т.д.

Давайте разберемся, чем так уникально хозяйственное мыло.
Читать далее «Просто хозяйственное мыло и никакой химии»