Сегодня мы все без исключения окружены большими данными (big data). Их наступление на повседневную жизнь — один из основных трендов дальнейшего развития информационного общества.
Большие данные продолжают стремительно расти и увеличиваться в размерах. Терабайты (1е12) и даже петабайты (1е15) уже не являются единицей измерения накопленных и сохраненных данных. Мерилом объема становятся экзабайты (1е18). То, что было большим еще вчера, становится маленьким сегодня. Эпоха интернета вещей (IoT — Internet of things) приводит к тому, что каждое электронное устройство или оснащенный электроникой механизм (а других уже и нет) постоянно генерирует нарастающий поток данных.
Компьютерные системы, хранящие и обрабатывающие данные, становятся все сложнее, потребляют все больше энергии. Потребление электричества дата–центрами Google в прошлом году составило 10,6 ТВт–часа, что с большой точностью равно годовому электропотреблению Ленинградской области с населением 1,8 млн человек.
Все сложнее и быстрее становятся и софтверные решения. Почти каждый день на рынке появляются Non–SQL Couchbase, Cassandra, MongoDB, Google Data Store, гибриды SQL– и non–SQL–программ, для того чтобы поддерживать и обрабатывать нарастающие потоки данных. Само понятие "программист" претерпело за последние 20 лет кардинальные изменения.
Мы тонем в потоке данных и информации как в огромном океане. Вы можете получать тысячи твитов в течение дня. А есть те, для кого инфобизнес — это работа, и они следят за многими сотнями лент в разных соцсетях. Не в состоянии человек качественно спроцессировать и обработать такое количество информации.
Возникает вопрос: есть ли экономический смысл продолжать наращивать цифровые данные, цифровое знание? Как это может улучшить качество нашей жизни?
На сегодня влияние генерации больших данных на человеческое бытие очень далеко от своего потенциала. Если big data — океан, то наша способность осмысливать может быть сравнена с рыбацкой лодкой, вылавливающей его дары, чтобы обеспечить сносное существование рыбаку.
Для оптимизации и упрощения обработки данных индустрия сегодня структурирует их в так называемые big data lakes. А также предлагает решения по очистке и преобразованию в полезную информацию, используя наиболее продвинутые решения процессирования и майнинга (mining) данных. Например, рынок решений, основанных на системе с открытым доступом Hadoop, растет стремительно и уже скоро превысит $50 млрд в год.
На мой взгляд, максимально эффективно потреблять и использовать данные человек сможет только с развитием искусственного интеллекта (artificial intelligence). Он будет выуживать из бесконечного океана цифрового знания и предоставлять человеку информацию, достаточную и необходимую для принятия того или иного решения.
Первые системы с элементами искусственного интеллекта нам хорошо известны. Это распознавание образов и тегирование (например, Google Photos), упрощенная кластеризация информации для выбора покупки в приложениях электронной коммерции, психологическая реклама, а также умные ассистенты (Alexa, Siri, Cortana, Google Assistant, Алиса), развиваемые ведущими софтверными и интернет–компаниями, включая "Яндекс".
Примером работы с более специфической информацией может служить система IBM Watson Health, в частности помогающая врачам ставить более точный диагноз, анализируя миллионы похожих случаев, синдромов и рентгеновских снимков. Проекты подобного типа — лишь первые шаги к созданию подсистемы искусственного интеллекта для работы с big data, чрезвычайно похожей по своему функционалу на мозг Джарвиса из марвеловских фильмов про Железного человека.