实战大数据（Hadoop+Spark+Flink）从平台构建到交互式数据分析（离线/实时）大数据分布式数据分析数据可视化实时离线

链接: https://pan.baidu.com/s/13UhQg2h600WcYu_UPJrFcw?pwd=hjvk 提取码: hjvk

出版社：机械工业出版社
ISBN：9787111679660
版次：1
商品编码：13311000
品牌：机工出版
包装：平装
开本：16开
出版时间：2021-06-01
用纸：胶版纸
页数：236
产品特色

编辑推荐
适读人群：面向大数据开发工程师，大数据运维工程师

面向大数据开发工程师，大数据运维工程师围绕Hadoop、Spark、Flink三大主流平台，详解大数据平台的搭建及数据分析（离线/实时）随书配备全套数据集、安装包、配置文件、海量教学视频（近30GB），方便学用

内容简介
《实战大数据（Hadoop+Spark+Flink）——从平台构建到交互式数据分析（离线/实时）》详细介绍了大数据工程师在实际工作中应该熟练掌握的大数据技术。全书共8章，分别是大数据技术概述、搭建IDEA开发环境及Linux虚拟机、基于Hadoop构建大数据平台、基于HBase和Kafka构建海量数据存储与交换系统、用户行为离线分析—构建日志采集和分析平台、基于Spark的用户行为实时分析、基于Flink的用户行为实时分析、用户行为数据可视化。本书以一个完整的大数据项目为主线，涵盖Hadoop、Spark、Flink等主流大数据技术，按照大数据工程师的项目开发流程，理论与实践结合，逐步推进，使读者在学习大数据核心技术的同时，也能掌握开发大数据项目的完整流程，从而获得大数据项目开发经验。《实战大数据（Hadoop+Spark+Flink）——从平台构建到交互式数据分析（离线/实时）》既可以作为大数据工程师的必备开发手册，也可以作为高校大数据及相关专业的教材或实验手册。
作者简介
杨俊，大数据架构师。大数据技术达人， Hadoop源码级技术专家，擅长Hadoop、Spark、Flink等主流大数据生态技术。具有近10年大数据开发经验，参与过10余个重量级大数据项目。曾任广电数据咨询公司大数据高级架构师，负责大数据平台架构设计与实施，并构建企业级数据仓库。畅销书《Hadoop大数据技术基础与应用》作者。51CTO知名培训讲师，拥有20余万粉丝，具有丰富的大数据技术培训经验，为数十家企业、院校开展过大数据技术课程培训。
前言/序言
前言大数据技术已经被应用到各行各业，涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力，从而为企业快速决策提供了数据支撑，能够助力企业改进业务流程、控制成本、提高产品质量，应用大数据技术为企业核心竞争力的提升打下了坚实的基础。大数据技术在企业项目开发中主要涉及数据采集、数据存储和数据计算三个方面：数据采集是利用采集技术将各种数据源、不同格式的数据快速采集到大数据平台。数据存储是将采集过来的数据，按照不同应用场景，使用不同技术进行存储，为数据计算做准备。数据计算可以根据数据的时效性，对存储的数据进行离线计算和实时计算，最终的计算结果可以为企业决策提供数据支撑。数据采集、数据存储和数据计算这三个方面是大数据工程师的必备技能。本书的主要特色是以一个完整的大数据项目为主线，涵盖Hadoop、Spark、Flink等主流大数据技术，按照大数据工程师的项目开发流程，理论与实践结合，逐步推进，使读者在学习大数据核心技术的同时，也能掌握开发大数据项目的完整流程，从而获得大数据项目开发经验。本书共有8章。第 1 章是大数据技术概述，主要讲解了什么是大数据、大数据平台架构、大数据工程师的技能树以及大数据项目的需求分析与设计，让读者对整个大数据平台架构以及需要掌握的大数据技能有一个整体的了解。第2章主要讲解了如何搭建IDEA开发环境和Linux虚拟机，为大数据项目的开发打好环境基础。第3章是基于Hadoop构建大数据平台，介绍了Zookeeper基础理论及分布式集群构建、HDFS基础理论及分布式集群的构建、YARN基础理论及分布式集群的构建以及MapReduce分布式计算框架，让读者掌握Hadoop集群构建的同时也能了解Hadoop集群运行的原理。第4章详细讲解了HBase分布式数据库技术和Kafka分布式消息队列技术，基于HBase和Kafka可以构建海量数据存储和交换系统。第5章是用户行为离线分析，介绍了Flume采集技术和Hive离线分析技术，并基于Flume、Kafka、HBase、Hive等大数据技术构建了日志采集和分析平台。第6章是基于Spark的用户行为实时分析，主要讲解了Spark的核心、Spark集群的构建、Spark Streaming实时计算、Spark SQL离线分析以及Structured Streaming实时计算，并基于Spark Streaming和Structured Streaming完成了新闻项目的实时分析，基于Spark SQL完成了新闻项目的离线分析。第7章是基于Flink的用户行为实时分析，主要讲解了Flink集群的构建、Flink DataStream实时计算以及Flink DataSet离线计算，并基于Flink DataStream完成了新闻项目的实时分析，基于Flink DataSet完成了新闻项目的离线分析。第8章是用户行为数据可视化，介绍了Java Web技术，然后基于Java Web技术完成了前台与后台的开发，实现了对用户行为数据的可视化。本书内容非常丰富，既可以作为大数据工程师的必备开发手册，也可以作为高校大数据及相关专业的教材或实验手册。尤其要说明的是，本书还提供了近30GB的学习配套资料，除了包含学习本书内容所需的安装包、配置文件、数据集外，更依照本书章节配置了对应的整套扩展学习视频，可以供读者更为系统全面地学习大数据技术。扩展学习视频一共包含30个课程，与本书章节对应关系如下。第 1 章：扩展视频01第5章：扩展视频13～20第2章：扩展视频02第6章：扩展视频21～29第3章：扩展视频03～08第8章：扩展视频30第4章：扩展视频09～12可通过扫描关注机械工业出版社计算机分社官方微信订阅号—IT有得聊，回复67966即可获取本书配套资源下载链接。也可通过添加本人微信号john_1125，获取本书配套资源。由于大数据技术发展迅速，而且相关技术组件繁多，书中难免有不足之处，恳请各位同仁及读者提出宝贵意见和建议。杨俊
查看全部↓

产品特色
编辑推荐
内容简介
作者简介
前言/序言
下载客户端，开始阅读之旅

菜单

分享

实战大数据（Hadoop+Spark+Flink）从平台构建到交互式数据分析（离线/实时）大数据分布式数据分析数据可视化实时离线

分享

实战大数据（Hadoop+Spark+Flink）从平台构建到交互式数据分析（离线/实时） 大数据 分布式 数据分析 数据可视化 实时 离线

实战大数据（Hadoop+Spark+Flink）从平台构建到交互式数据分析（离线/实时）大数据分布式数据分析数据可视化实时离线