Всё большее проникновение ИТ-технологий во многие сферы деятельности человека привело к лавинообразному росту объема информации. Финансовый сектор, промышленность (IoT), интернет-услуги и др. требуют новых потки и анализа данных: большой объем разнородных данных, требующих быстрой реакции. BigData - это набор технологий и подходов призванных удовлетворить новым требованиям работы с данными. Apache Hadoop - проект включающий набор сервисов, библиотек для обработки "больших данных" на кластерах из многих узлов (до тысяч узлов):
  • YARN — сервис, отвечающий за управление вычислительными ресурсами и планированием выполнением распределенных задач. Является ключевым сервисом построения ршений для распределенных вычислений
  • HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределённых между узлами вычислительного кластера. Каждый блок может быть размещён на нескольких узлах. Благодаря репликации обеспечивается устойчивость распределённой системы к отказам отдельных узлов.
Apache Spark — фреймвлорк для реализации широко круга задач по обработке данных. Отличительной особенностью является максимальное использование оперативной памяти. Это позоляет достигать высокой производительности при использовании данного фреймворка. Основные компоненты:
  • Spark SQL  позволяет представлять разнородные источники данных как Dataset (или таблица в терминах реляционных СУБД) и применять операции реляционной алгебры. Поддерживается стандарт ANSI SQL2003
  • Spark ML — библиотека алгоритмов машинного обучения с целью сделать практическое машинное обучение легче и масштабируемей
  • Spark Streaming — расширение Spark Core API для обеспечения обработки потоковых данных 
  • GraphX — библиотек алгоритмов для решения задач при работе с графами

Apache Hive — система управления базами данных на основе платформы Hadoop. Позволяет выполнять запросы, агрегировать и анализировать данные, хранящиеся в Hadoop. Даёт пользователям привычный основанный на SQL интсрумент работы с данными.

DataLake на основе Apache Hadoop может быть эффективной альтернативой традиционным подходам к хранению данных. Более дешевый и хорошо масштабируемый способ хранения позволяет хранить все данные организации и предоставлять к ним доступ различным потребителям. DataLake может служить источником данных для построения традиционного DWH. Данные из DataLake могут использоваться непосредственно в Analytical Sandbox для анализа данных, выявления скрытых закономерностей, построения отчетов.

Machine Learning, Deep Learning — задачи выявления скрытых закономерностей с использованием вычислительных возможностей кластера Hadoop и доступа ко всем данным организации получили можный стимул. Задачи fraud detection, recommendation, predictive maintanance и другие могут эффективно решаться с использованием широко и быстро растущего набора специализированных платформ и библиотек:

  • Apache Spark ML — библиотека алгоритмов машинного обучения с целью сделать практическое машинное обучение легче и масштабируемей
  • H2O — платформа с открытым исходным кодом, распределенная, масштабируемая, быстрая платформа. Платформа машинного обучения и прогнозной аналитики, которая позволяет создавать модели машинного обучения на больших данных и обеспечивает использование этих моделей в среде предприятия.
  • TensoFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети. Основное API для работы с библиотекой реализовано для Python, также существуют реализации для C++, Haskell, Java и Go.

Обсудить ваш проект

Окопный_подвал
Иван Окопный
Директор по проектной деятельности

«Приглашаем обсудить нюансы вашей бизнес-задачи и вместе найти наиболее эффективный способ ее решения».

Позвоните:
495 984-25-13

Отправьте описание своего проекта на info@neoflex.ru

Или заполните форму:
Начните работать с нами

Вернуться к списку технологий