数据挖掘分析

数据挖掘分析
所属机构:
加米谷大数据
所属专业:
数据分析&挖掘
适合人群:
对数据敏感的0基础学院
开课时间:
滚动式授课

 加米谷数据分析与挖掘课程明细

从理论到实训代码到云端实操环境到项目实战,手把手教您从0掌握数据分析与挖掘技术,带您走进数据时代。

第一阶段(python基础)

python入门 1、Python版本特性介绍 2、Python应用场景及趋势发展 3、Python开发环境搭建 4、Python开发工具及运行环境 5、标识符与关键字,注释 6、Python在各系统中的安装 7、应用场景及数据存储设计 8、Python程序开发基础指南 9、如何运行python代码

python基本语法 1、Python选择与循环 2、Python字符串处理 3、可视化python编程 4、数据及类型操作 5、Python对象、数字、序列 6、Python映射和集合类型 7、Python条件和循环 8、Python文件和输入输出 9、python错误和异常

python高级语法 1、函数和函数式编程 2、Python面向对象编程 3、Python正则表达式 4、Python函数编程 5、Python多线程编程 6、Python图形界面编程 7、Python数据库编程创建 8、Python扩展

Python编程开发 1、PYQT实现GUI工具 2、如何运行python代码 3、Python在Linux中的开发 4、GitHub的使用 5、python程序开发 6、Python api使用及二次开发

 

第二阶段(关系型数据库MySQL)

数据库设计 1、数据库设计及运行管理 2、数据库设计过程讲解 3、概念结构设计与ER图 4、逻辑结构设计与ER转换规则 5、数据流图与数据字典 6、数据库设计物理模型 7、数据库事务与隔离级别

数据库范式及ACID特性 1、数据库的范式的实例 2、数据库设计三大范式应用 3、数据库管理系统事务 4、数据库ACID的四大特性 5、数据库四大特性应用 6、分库分表大数据解决方案 7、分库分表实施与分析

数据库基础 1、数据库概念介绍 2、MySQL安装与登录 3、数据库创建与删除 4、表结构创建/查看 5、字段类型与数据类型 6、字段增加,重命名,删除

视图及索引 1、记录的增加,修改,删除 2、表查询 3、条件查询 4、模糊查询 5、视图创建与操作 6、索引创建与操作

第三阶段(文档数据库MongoDB)

Mongodb初识与部署 1、Mongodb介绍 2、Mongodb应用场景 3、Mongodb快速部署 4、Mongodb配置指南

Mongodb基本操作 1、Mongodb数据库操作 2、Mongodb collection操作 3、Mongodb文档操作

Mongodb高级操作 1、Mongodb存储过程 2、Mongodb聚合管道 3、Mongodb批量写 4、Mongodb MapReduce

Mongodb运维与编程 1、Mongodb数据导入/导出/备份/恢复 2、Mongodb安全 3、Mongodb权限控制 4、Mongodb包引入 5、Mongodb Python API

 

 

第四阶段(内存数据库Redis)

Redis精讲 1、REDIS分布式缓存介绍 2、REDIS网络模型与内存管理 3、REDIS的数据一致性问题 4、REDIS支持的KEY类型 5、REDIS水平动态扩展 6、REDIS数据淘汰策略

Redis操作 1、REDIS访问工具 2、REDIS shell api

Redis编程 1、REDIS包引入 2、REDIS Python API

 

 

第五阶段(网络爬虫)

urllib.lib库 1、Python urllib认识 2、urllib库的基本操作 3、urllib基本get请求 4、urllib基本post请求 5、代理与API 6、超时配置与会话对象

requests库 1、通过pip安装requests 2、发送请求与传递参数 3、Response对象与文件上传 4、身份验证 5、Cookies与会话对象 6、超时与异常 7、CSS选择器与bs4 8、BeautifulSoup基本介绍,安装与基本语法 9、BeautifulSoup的基本运算符与语法定位

css选择器与Xpath 1、CSS选择器基本使用 2、Xpath基本介绍 3、Xpath基本语法 4、XPath 轴与表达式 5、Xpath的基本运算符 6、Xpath语法定位 7、常用的反爬虫技术

爬虫高级技术 1、多线程与多进程爬虫 2、代理设置与Cookie操作 3、动态网页内容的抓取 4、Selenium与PhantomJS 5、模拟表单登录

 

 

第六阶段(数据分析)

数据分析工具讲解 1、numpy基本讲解 2、scipy基础认识 3、pandas基本讲解 4、jupyter基本认识 5、matplotlib认识 6、其他数据分析工具

数值计算包学习 1、数值计算包工具介绍 2、Numpy多维数组 3、数组的属性与操作 4、基本的数组运算 5、Scipy工作原理介绍 6、SciPy交互工作

数据处理包Pandas 1、本地环境安装 2、加载工具库 3、Pandas创建对象 4、操作行和块 5、窥视数据 6、运算符与表达式 7、缺失值处理、合并于分组

Pandas与数据库 1、与SQL/Excel 对比 2、数据体量与工具选择 3、范式中的切片与分组 4、Pandas索引与排序 5、Pandas数据回归 6、文本转化为虚拟变量

 

 

第七阶段(数据处理)

数据清洗和准备 1、数据质量要求与来源 2、数据清洗原理 3、缺失数据处理 4、相似重复数据检测 5、异常数据处理与逻辑错误检测 6、数据清洗的模型 7、数据清洗框架和模型

数据处理:合并和重塑 1、合并数据集 2、数据DataFrame合并 3、数据轴向连接 4、重塑层次化索引 5、字符串对象方法 6、正则表达式运用

数据汇总和组操作 1、数据样本分位数 2、数据聚合运算 3、面向列的多函数应用 4、定义不同列的函数 5、通过函数进行分组 6、分组运算和转换 7、透视表和交叉表

 

 

第八阶段(数据分析处理进阶)

Matplotlib实践 1、Matplotlib基本介绍 2、Matplotlib可视化包认识 3、2D与3D图表图表使用 4、Matplotlib图像显示 5、Matplotlib应用 6、从网络加载数据

绘图与可视化 1、图例、标题和标签 2、条形图和直方图 3、散点图与堆叠图 4、因子变量绘图 5、各类复杂图形绘制 6、多变量的可视化 7、多变图形分析

统计学基础 1、统计和统计数据 2、数据的图表展示 3、数据的概括性度量 4、总量指标和相对指标 5、平均指标和变异指标 6、抽样估计与假设检验 7、相关与回归

时间序列分析基础 1、时间序列及分析指标 2、平稳序列预测 3、趋势性序列预测 4、复合序列因素分析 5、主要统计量 6、ARIMA模型 7、模型识别余参数估计

 

 

第九阶段(项目实战)

个人用户信用评估 针对脱敏的几十个维度的用户数据,以及银行提供的黑名单,建立个人用户的信用评估模型;在建模过程中涉及到用户数据缺失值处理,特征筛选,特征量化,类别不平衡策略,模型参数调优;涉及到SPSS数据分析,pandas,sklearn工具的使用;通过该项目的学习,完整掌握各类数据分析软件,分析流程以及相关算法。

运营商数据统计分析 对运营商用户真实浏览记录,利用浏览数据分类,以及爬虫抓取数据扩充标签,统计用户浏览行为,给用户贴上对应标签,针对个人用户以及群体用户的特征,进行相关数据推荐;涉及到数据全量与增量统计,实时计算,协同过滤等技术与算法,分布式爬虫部署,以及反爬虫策略;通过该项目学习,完整掌握数据抓取技术,海量数据实时计算,以及主流用户推荐算法。

电商网站评价情感分析 针对某互联网电商平台上的商品数据,抓取其评论数据,进行情感分析,并抽取评论关键词,分析用户最关心的商品问题;涉及到爬虫知识,数据筛选,清洗,去重以及贝叶斯,LDA算法等;通过该项目的学习,加深对数据处理流程的理解以及对自然语言处理知识的认识。

股票数据拟合与推荐 针对网上获取的实时股票数据,利用多种方法对数据进行短期拟合,评估拟合效果,并在拟合多支股票的基础上,进行有价值股票的推荐;涉及到时间序列数据拟合,预警等技术;通过该项目的学习,加深对时间序列分析与理解。

大数据讲师刘老师

刘老师

刘老师,电子科大研究生,人工智能与机器学习高级研发工程师,曾就职于华为AI开发部门,具有多年机器学习数据分析经验,曾参与多个大型机器学习项目和算法研发,从事人工智能算法设计项目工作,擅长使用机器学习进行算法开发与优化,对于高性能计算HPC系统有较深的研究。
大数据讲师张老师

张老师

张老师,原京东核心研发骨干,电子科大研究生。 Prosto、Drill源码分析员、专门从事高效大数据交互式查询研究5年软件开发经验,5年机器学习,深度学习算法经验,擅长数据分析,图像处理,自然语言处理。 曾参与京东智能机器人项目,银行个贷信用模型分析,智能视频审核系统。擅长算法架构设计与实现。 Prosto、Drill源码分析员、专门从事高效大数据交互式查询研究5年软件开发经验,5年机器学习,深度学习算法经验,擅长数据分析,图像处理,自然语言处理。 曾参与京东智能机器人项目,银行个贷信用模型分析,
大数据讲师曾老师

曾老师

曾老师,原NCS核心研发骨干,原中通服资深架构师。 Hadoop核心研究员、拥有5+年大数据研发经验。10年互联网IT技术经验,5年大数据项目实战经验,大数据开发高级工程师,精通hadoop、spark生态圈相关大数据技术。 主持或参与曾参加中国电信大数据项目,大数据监控平台核心架构设计。擅长各类大数据技术研发,架构设计,参与大数据底层核心开发。 Hadoop核心研究员、拥有5+年大数据研发经验。10年互联网IT技术经验,5年大数据项目实战经验,大数据开发高级工程师,精通hadoop、s
创始人兼大数据讲师张老师

张老师

张老师,加米谷大数据创始人,国家大数据标准组成员,Spark Contributor,资深大数据专家,15年互联网IT技术经验,6年大数据项目实战经验,精通大数据领域各类技术Apache开源项目Hadoop、Hbase、Flink、Storm、Kafka、Spark等。 国家大数据标准组成员,国家信标委ITSS标准组成员。主要研究方向包括大数据架构、数据挖掘、大数据分析等领域。在企业级应用软件、大数据分析、移动互联网、教育大数据等领域有近15年的系统设计、研发、管理经验。