Для анализа данных и машинного обучения требуется много данных. Можно было бы собрать их самостоятельно, но это утомительно. Здесь нам на помощь приходят готовые датасеты в самых разных категориях:
- Где искать датасеты
 - Государственные датасеты
 - Данные о жилье
 - Экономика и финансы
 - Компьютерное зрение
 - Анализ тональности
 - Обработка естественного языка
 - Автопилоты
 - Медицинские данные
 
Где искать датасеты
- . Dataset Search позволяет по ключевому слову искать датасеты по всей Сети.
 - . Площадка для соревнований по машинному обучению с множеством интересных датасетов. В можно найти разные нишевые экземпляры — от до и .
 - . Один из старейших источников датасетов в Сети и первое место, куда стоит заглянуть в поиске интересных датасетов. Хотя они добавляются пользователями и потому имеют различную степень «чистоты», большинство из них очищены. Данные можно скачивать сразу, без регистрации.
 - . Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.
 - . Коллекция датасетов, предоставленная университетом Карнеги Меллон.
 
Датасеты общего назначения
Государственные датасеты
- . Здесь можно найти данные от разных государственных учреждений США. Они варьируются от государственных бюджетов до школьных оценок.
 - . Содержит данные о том, как различные факторы (близость магазинов/ресторанов, цены на продукты и тому подобное) влияют на выбор продуктов и качество питания в США.
 - . Данные о финансах школьных систем в США.
 - . Данные о показателях хронических заболеваний на территории США.
 - . Данные об образовательных учреждениях и образовательной демографии в США и во всём мире.
 - . Крупнейшая в Великобритании коллекция социальных, экономических и демографических данных.
 - . Исчерпывающая визуализация общедоступных данных США.
 
Данные о жилье
- . Содержит информацию о жилье в Бостоне, собранную бюро переписи населения США. Она была получена из и широко использовалась в литературе для оценки алгоритмов.
 
Экономика и финансы
- . Хороший источник экономических и финансовых данных — полезен при построении моделей для прогнозирования экономических показателей или цен на акции.
 - . Наборы данных, охватывающих демографическую ситуацию, огромное количество экономических показателей и индикаторов развития со всего мира.
 - . Международный валютный фонд публикует данные о международных финансах, показателях долга, валютных резервах, инвестициях и ценах на сырьевые товары.
 - . Актуальная информация о финансовых рынках со всего мира, которая включает индексы цен на акции, товары и валюту.
 - . Изучайте и анализируйте данные о поисковой активности в Интернете и трендах по всему миру.
 - . Хороший источник данных о макроэкономике США.
 
Датасеты для машинного обучения
Компьютерное зрение
- . Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.
 - . Большой датасет аннотированных изображений.
 - . Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.
 - . Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.
 - . Крупномасштабный датасет для обнаружения и сегментации объектов.
 - . 100 разных объектов, изображённых под каждым углом в круговом обороте.
 - . Датасет с ~100 тыс. подробно аннотированных изображений.
 - . Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.
 - . Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.
 - . Содержит 20 580 изображений из 120 пород собак.
 - . Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
 
Анализ тональности текста
- . Немного устаревший датасет, который содержит отзывы на товары с Amazon.
 - . Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.
 - . Стэнфордский датасет для анализа тональности.
 - . Популярный датасет с 160 000 твитов с удалёнными смайликами.
 - . Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.
 
Обработка естественного языка
- . Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.
 - . Данные электронной почты от высшего руководства Enron.
 - . Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.
 - . Коллекция слов из Google Книги.
 - . Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.
 - . Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.
 - . Аннотированный список электронных книг проекта «Гутенберг».
 - . Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.
 - . Архив с более чем 200 000 вопросов с телевикторины Jeopardy.
 - . Архив из более чем 480 000 рецензий с Rotten Tomatoes.
 - . Датасет, состоящий из 5574 спам-смс на английском.
 - . Датасет от Yelp, содержащий более 5 млн отзывов.
 - . Большой датасет спам-писем.
 
Автопилоты
- . На данный момент это самый большой датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.
 - . Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.
 - . Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.
 - . Более ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.
 - . Большой датасет, содержащий записи ста уличных сцен в 50 городах.
 - . Более 10 000 аннотаций тысяч разных светофоров в Бельгии.
 - . Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.
 - . Датасет с 24 000 аннотированных светофоров.
 - . Ещё один датасет для распознавания светофоров.
 - . Датасет для распознавания светофоров, пешеходов и дорожной разметки.
 
Медицинские данные
- . Датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии. Он включает демографические данные, показатели жизнедеятельности, лабораторные анализы, лекарства и многое другое.
 
Оригинал:
Перевод статьи
P.S. Поскромнее, но зато отечественные
Респект и уважуха
	
