Для анализа данных и машинного обучения требуется много данных. Можно было бы собрать их самостоятельно, но это утомительно. Здесь нам на помощь приходят готовые датасеты в самых разных категориях:
- Где искать датасеты
- Государственные датасеты
- Данные о жилье
- Экономика и финансы
- Компьютерное зрение
- Анализ тональности
- Обработка естественного языка
- Автопилоты
- Медицинские данные
Где искать датасеты
- . Dataset Search позволяет по ключевому слову искать датасеты по всей Сети.
- . Площадка для соревнований по машинному обучению с множеством интересных датасетов. В можно найти разные нишевые экземпляры — от до и .
- . Один из старейших источников датасетов в Сети и первое место, куда стоит заглянуть в поиске интересных датасетов. Хотя они добавляются пользователями и потому имеют различную степень «чистоты», большинство из них очищены. Данные можно скачивать сразу, без регистрации.
- . Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.
- . Коллекция датасетов, предоставленная университетом Карнеги Меллон.
Датасеты общего назначения
Государственные датасеты
- . Здесь можно найти данные от разных государственных учреждений США. Они варьируются от государственных бюджетов до школьных оценок.
- . Содержит данные о том, как различные факторы (близость магазинов/ресторанов, цены на продукты и тому подобное) влияют на выбор продуктов и качество питания в США.
- . Данные о финансах школьных систем в США.
- . Данные о показателях хронических заболеваний на территории США.
- . Данные об образовательных учреждениях и образовательной демографии в США и во всём мире.
- . Крупнейшая в Великобритании коллекция социальных, экономических и демографических данных.
- . Исчерпывающая визуализация общедоступных данных США.
Данные о жилье
- . Содержит информацию о жилье в Бостоне, собранную бюро переписи населения США. Она была получена из и широко использовалась в литературе для оценки алгоритмов.
Экономика и финансы
- . Хороший источник экономических и финансовых данных — полезен при построении моделей для прогнозирования экономических показателей или цен на акции.
- . Наборы данных, охватывающих демографическую ситуацию, огромное количество экономических показателей и индикаторов развития со всего мира.
- . Международный валютный фонд публикует данные о международных финансах, показателях долга, валютных резервах, инвестициях и ценах на сырьевые товары.
- . Актуальная информация о финансовых рынках со всего мира, которая включает индексы цен на акции, товары и валюту.
- . Изучайте и анализируйте данные о поисковой активности в Интернете и трендах по всему миру.
- . Хороший источник данных о макроэкономике США.
Датасеты для машинного обучения
Компьютерное зрение
- . Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
- . Большой датасет аннотированных изображений.
- . Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
- . Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
- . Крупномасштабный датасет для обнаружения и сегментации объектов.
- . 100 разных объектов, изображённых под каждым углом в круговом обороте.
- . Датасет с ~100 тыс. подробно аннотированных изображений.
- . Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
- . Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
- . Содержит 20 580 изображений из 120 пород собак.
- . Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
Анализ тональности текста
- . Немного устаревший датасет, который содержит отзывы на товары с Amazon.
- . Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.
- . Стэнфордский датасет для анализа тональности.
- . Популярный датасет с 160 000 твитов с удалёнными смайликами.
- . Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.
Обработка естественного языка
- . Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
- . Данные электронной почты от высшего руководства Enron.
- . Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
- . Коллекция слов из Google Книги.
- . Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.
- . Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.
- . Аннотированный список электронных книг проекта «Гутенберг».
- . Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.
- . Архив с более чем 200 000 вопросов с телевикторины Jeopardy.
- . Архив из более чем 480 000 рецензий с Rotten Tomatoes.
- . Датасет, состоящий из 5574 спам-смс на английском.
- . Датасет от Yelp, содержащий более 5 млн отзывов.
- . Большой датасет спам-писем.
Автопилоты
- . На данный момент это самый большой датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
- . Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
- . Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
- . Более ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
- . Большой датасет, содержащий записи ста уличных сцен в 50 городах.
- . Более 10 000 аннотаций тысяч разных светофоров в Бельгии.
- . Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
- . Датасет с 24 000 аннотированных светофоров.
- . Ещё один датасет для распознавания светофоров.
- . Датасет для распознавания светофоров, пешеходов и дорожной разметки.
Медицинские данные
- . Датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии. Он включает демографические данные, показатели жизнедеятельности, лабораторные анализы, лекарства и многое другое.
Оригинал:
Перевод статьи
P.S. Поскромнее, но зато отечественные
Респект и уважуха

