Как с помощью Python извлечь метаданные PDF

Метаданные PDF‑файлов содержат полезную информацию о PDF‑документе. Они включают заголовок документа, автора, дату последнего изменения, дату создания, тему и многое другое. Некоторые файлы PDF содержат больше мета‑информации, некоторые меньше и в этом наставлении вы узнаете, как извлечь метаданные PDF с помощью Python.
Читать далее «Как с помощью Python извлечь метаданные PDF»

Топ 5 тенденций web-разработки на Python для 2021 года

Недавний опрос 24 000 разработчиков Python в 150 странах мира, который провела компания Packt показал, что, более половины всех разработчиков Python традиционно используют его и для веб-разработки, хотя 59% разработчиков используют его в проектах Data Science! Python обогнал Java и в мире стал вторым по популярности языком программирования для Web. Уже готов богатый набор фреймворков, например, Django, Flask и Pyramid для web-разработки. Здесь мы обсудим пять тенденций, которые делают Python наилучшим выбором для веб‑разработчиков в 2021 году.
Читать далее «Топ 5 тенденций web-разработки на Python для 2021 года»

Да, вы должны понимать, что такое обратное распространение

Когда в Стэнфорде появился курс CS231n (глубокое машинное обучение), то для него намеренно и специально были разработаны задания по программированию самого низкого уровня, включающие реальные вычисления, связанные с обратным распространением ошибок. Студенты должны были реализовать прямой и обратный проход каждого слоя в необработанном виде. Естественно, некоторые ученики неизбежно жаловались на доске объявлений в классе:

«Почему мы должны описывать обратный проход, когда в реальном мире есть фреймворки такие, как TensorFlow, которые вычисляют его автоматически?»

Кажется вполне разумно, на первый взгляд, что если после окончания курса вы никогда не собираетесь писать обратные проходы, то зачем в этом практиковаться? Преподаватели ради собственного развлечения мучают студентов? Некоторые простые ответы могут привести к аргументам типа «то, что скрывается под капотом есть бесполезная интеллектуальная мастурбация и надо ли этим заниматься» или «возможно, позже вы захотите улучшить основной алгоритм», однако, есть гораздо более сильный и практичный аргумент, которому я хотел бы посвятить целый пост:

> Проблема обратного распространения — очень даже неплохая концепция.
Читать далее «Да, вы должны понимать, что такое обратное распространение»

Рецепт приготовления нейронных сетей

Года три назад в своих Записках я опубликовал историю из научно-популярной лекции «ШАМАНСТВО» В АНАЛИЗЕ ДАННЫХ доцента ВМК МГУ имени М.В. Ломоносова, д.ф.-м.н. А.Г. Дьяконова. В ней внятно объясняется слово «шаманство» по отношении к обработке больших данных и необходимость наличия у исследователя некоторого эмпирического опыта, а не только знания строгостей математики. Вопрос соотношения детерминизма и хаоса в любых природных процессах волновал меня ещё со студенческой скамьи, а что-бы преодалеть хаос в нейронных сетях и заставить их работать должным образом творец должен их одухотворить.

С тех пор много воды утекло и накопился некоторый опыт по поводу эксплуатации и приготовления нейронных сетей, а на глаза случайно попалось эссе A Recipe for Training Neural Networks Andrej Karpathy, мысли которого с некоторыми дополнениями и комментариями созвучны моим, а выпускница магистратуры пожаловалась на низкую вероятность прогноза дефектов керамических изоляторов высоковольтных линий электропередач и всё сложилось в кучку. Так и появилась эта записка с рецептом практического приготовления нейронных сетей. Начинаем… Вперёд и вниз ↓

Есть пара фактов, которые подвигли написать этот рецепт.
Читать далее «Рецепт приготовления нейронных сетей»

Визуализация данных в Web с использованием Python

  Коллеги-экономисты, вас не тормозят привычные инструменты бизнес-аналитики? Может быть пора уже попробовать встать на правильный путь, изучить Python и заняться более глубоким анализом социально‑экономических процессов, так, как это делается во всём мире?

Именно так начиналась статья Вас не тормозят привычные инструменты бизнес‑аналитики? в надежде убедить, что в программировании все не так сложно, как кажется. Здесь хотелось бы показать, что все еще проще. Инфографика, которую вы увидите, ниже стимулировала продолжение поиска инструментов визуализации данных и в этой заметке ещё об одном замечательном и абсолютно бесплатном фреймворке Python — Bokeh, и небольшой отчет о проделанных недавно экспериментах, результаты которых представлены серией простейших приложений визуализации, в том числе, и интерактивной визуализации, которая реализуется на удивление просто.
Читать далее «Визуализация данных в Web с использованием Python»

PyCharm — эффективная разработка на Python

Программист должен сосредочить своё внимание на бизнес-логике создаваемого приложения и на его полезности. Именно для этого предназначен такой инструмент, как PyCharm от JetBrains. В нём решены задачи отладки и простой визуализации проектов, он экономит время и избавляет от рутинных операций.

Оглавление

Ну-ка, ну-ка посмотрим

Вас не тормозят привычные инструменты бизнес‑аналитики?

  Коллеги-экономисты, вас не тормозят привычные инструменты бизнес-аналитики? Может быть пора уже попробовать встать на правильный путь, изучить Python и заняться более глубоким анализом социально‑экономических процессов, так, как это делается во всём мире?

Если сейчас Вы занимаетесь анализом своих данных, используя привычный инструмент Business Intelligence (BI), то пришло время спросить себя, а всем-ли я доволен? Нужно быть честным с собой. Всё в порядке, я обещаю, что никому не скажу. Большинство моих коллег‑экономистов из Высшей школы экономики и управления ЮУрГУ (НИУ) используют такие инструменты, как Excel, потому что это удобно. Они знают, что с ним делать, как управлять и чувствуют себя уверенно, убеждённые в надёжности его работы. Но, похоже, подошло время вырваться в этом вопросе из привычной зоны комфорта, переключившись на программный подход, например, такой как использование Python.
Как так?