第一章 单元测试
1、多选题:
以下哪些情景可以使用大数据分析与预测建模技术?
选项:
A:统计某零售超市一个月内哪类牛奶的销量最大
B:预测电商网站某商品未来的销售量
C:保险公司的骗保分析
D:预测某移动运营商客户转移到竞争对手的可能性
答案: 【预测电商网站某商品未来的销售量;保险公司的骗保分析;预测某移动运营商客户转移到竞争对手的可能性】
2、单选题:
有关大数据分析与预测的过程认识正确的是?
选项:
A:大数据分析与预测一般需要人的参与,只要把数据输入合适的算法就可以得到有用的结果。
B:大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。
C:大数据分析与预测的问题一般都是用户给定的,因此不需要与用户交流和调研。
D:A零售企业的客户行为数据分析得到的规律也可以直接用于B零售企业。
答案: 【大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。】
3、单选题:
有关数据质量的认识正确的是?
选项:
A:各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。
B:有些机器学习算法具有比较强的抗噪型,因此不需要预处理也能得到有用的规律。
C:数据预处理就是删除有问题的数据。
D:数据质量一般可以由机器自动完成,不需要数据分析人员参与。
答案: 【各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。】
4、多选题:
下面有关机器学习正确的说法是?
选项:
A:机器学习就是简单的统计分析。
B:机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。
C:每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。
D:在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。
答案: 【机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。;每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。;在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。】
5、单选题:
组织通过销售数据或洞察以创造新的收入来源,这属于大数据应用成熟度的哪一个阶段?
选项:
A:业务监控
B:数据货币化
C:业务优化
D:业务转型
答案: 【数据货币化】
6、单选题:
如果以药品B来代替药品A的使用,那么这个病人生存的几率有多大?这种分析属于
选项:
A:描述性分析
B:预测性分析
C:规范性分析
D:诊断性分析
答案: 【预测性分析】
7、判断题:
NoSQL数据库作为非关系型数据库,只能够用来存储非结构数据。
选项:
A:对
B:错
答案: 【错】
8、单选题:
根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要以下使用哪一类机器学习算法?
选项:
A:无监督学习
B:诊断性分析
C:统计分析
D:监督学习
答案: 【监督学习】
9、多选题:
大数据分析的预测建模任务主要包括哪几大类问题?
选项:
A:模式发现
B:关联分析
C:分类
D:回归
答案: 【关联分析;分类;回归】
10、多选题:
下列哪些分析需要机器学习?
选项:
A:寻找移动运营商用户对某类套餐使用的潜在客户
B:预测移动运营商用户未来使用的网络流量
C:统计移动运营商的用户在某段时间对短信的使用数量
D:比较不同移动运营商用户对漫游业务的使用量
答案: 【寻找移动运营商用户对某类套餐使用的潜在客户;预测移动运营商用户未来使用的网络流量;统计移动运营商的用户在某段时间对短信的使用数量】
第二章 单元测试
1、单选题:
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
选项:
A:频繁模式挖掘
B:数据流挖掘
C:数据预处理
D:分类和预测
答案: 【数据预处理】
2、单选题:
下面哪个步骤不属于数据预处理的过程?
选项:
A:分类和预测
B:数据归约
C:数据清洗
D:数据转换
答案: 【分类和预测】
3、单选题:
下面哪种不属于数据预处理的方法?
选项:
A:估计遗漏值
B:聚集
C:离散化
D:变量代换
答案: 【估计遗漏值】
4、单选题:
以下哪种方法不属于特征选择的标准方法
选项:
A:抽样
B:嵌入
C:过滤
D:包装
答案: 【抽样】
5、单选题:
下面不属于创建新属性的相关方法的是
选项:
A:特征提取
B:特征构造
C:映射数据到新的空间
D:特征修改
答案: 【特征修改】
6、多选题:
数据清洗包括以下哪几个方面?
选项:
A:噪声数据平滑技术
B:按标准差进行的标准化
C:时间相关数据的处理
D:缺失数据处理方法
答案: 【噪声数据平滑技术;时间相关数据的处理;缺失数据处理方法】
7、多选题:
以下哪几个是数据归约的策略?
选项:
A:数据立方体聚集
B:维度归约
C:离散化和概念分层产生
D:数值归约
E:数据压缩
答案: 【数据立方体聚集;维度归约;离散化和概念分层产生;数值归约;数据压缩】
8、多选题:
以下哪些是数据离散化技术?
选项:
A:分箱技术
B:基于熵的离散化
C:ChiMerge技术
D:饼图分析
答案: 【分箱技术;基于熵的离散化;ChiMerge技术】
9、多选题:
特征选择的目标有哪些?
选项:
A:挖掘多个抽象层上的数据
B:提供更快、性价比更高的学习过程
C:更好地理解生成数据的基本过程
D:提高数据挖掘模型的性能
答案: 【提供更快、性价比更高的学习过程;更好地理解生成数据的基本过程;提高数据挖掘模型的性能】
10、多选题:
特征选择算法一般分为那几类?
选项:
A:子集选择算法
B:基于熵的离散化
C:特征排列算法
D:分箱技术
答案: 【子集选择算法;特征排列算法】
第三章 单元测试
1、单选题:
有关决策树的说法哪个是错误的?
选项:
A:可以转化为决策规则
B:决策树的深度越大越好
C:决策树的算法和神经网络的原理不一样
D:对新样本起到分类预测的作用
答案: 【】
2、单选题:
有关决策树与特征工程的关系,以下说法错误的是?
选项:
A:如果要了解影响签署合同快慢的主要因素,可以使用决策树算法。
B:决策树获得的特征是区分不同类别的最优特征。
C:决策树可以得到对分类重要的属性,因此可以作为分类特征获取的一种方法。
D:决策树获得的特征可以作为其他算法(例如回归算法的自变量)输入的依据。
答案: 【】
3、单选题:
下面有关支持向量机错误的说法是?
选项:
A:支持向量机是把高维的数据投影到低维的空间进行分类。
B:支持向量机一般处理两分类的问题。
C:支持向量机既可以处理线性可分的问题,也可以处理非线性可分的问题。
D:对于小样本集,支持向量机的分类准确度可能优于其他对样本数量要求比较高的分类算法。
答案: 【】
4、多选题:
以下哪些不是贝叶斯网络的应用场景?
选项:
A:机器故障诊断
B:中文分词
C:招聘人才选拔规则
D:根据客户消费行为对其进行分组
答案: 】
5、单选题:
下面有关线性判别分析错误的说法是哪个?
选项:
A:提高不同类样本的可分性。
B:线性变换可以使不同类别样本的距离加大。
C:线性判别分析中线性变换可以使同类样本的方差变大。
D:通过对原始的数据进行线性变换,使得不同类的样本尽量分开。
答案: 【】
6、单选题:
下面有关随机森林的说法哪个是错误的?
选项:
A:类似装袋法的样本抽样方法,保证每棵树的学习样本集的多样性。
B:每颗树都是从属性集随机抽取一定数目的属性作为候选的特征。
C:随机森林是一种集成算法,可以使用CART等基学习器提高分类的性能。
D:随机森林训练后只需选择性能最好的树最为预测模型。
答案: 【】
7、多选题:
如果发现决策树模型的检验结果达不到要求,可以执行下面哪些方法进行改进?
选项:
A:修改用户的需求。
B:对算法的选择以及参数的调整进行优化。
C:补充或调整样本的选择,并加强样本的预处理。
D:采用多种算法组合。
答案: 【】
8、单选题:
以下哪个算法不是基于规则的分类器 ?
选项:
A:C4.5
B:C5.0
C:ID3
D:贝叶斯分类器
答案: 【】
9、单选题:
如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法?
选项:
A:关联分析
B:线性回归分析
C:决策树类算法
D:聚类分析
答案: 【】
10、单选题:
以下哪个指标不能用于决策树的性能评价指标?
选项:
A:准确率
B:决策树规则的数目
C:ROC曲线下的面积AUC
D:召回率
答案: 【
11、单选题:
以下关于人工神经网络(ANN)的描述正确的说法是?
选项:
A:神经网络对训练数据中的噪声不敏感,因此数据质量可以差一些也没关系
B:只能用于分类
C:不能确定输入属性的重要性
D:训练ANN是一个很耗时的过程
答案: 【】
12、单选题:
神经网络由许多神经元(Neuron)组成,下列关于神经元的陈述中哪一个是正确的?
选项:
A:
一个神经元可以有一个输入和多个输出
B:
一个神经元可以有多个输入和多个输出
C:
其他选项都正确
D:
一个神经元可以有多个输入和一个输出
答案: 【
】
13、单选题:
有关前馈神经网络的认识正确的是?
选项:
A:神经网络训练过程是拟合训练数据模式的过程
B:神经网络模型的分类能力比决策树好
C:神经网络可用于分类和聚类
D:神经网络训练后很容易得到分类的规则
答案: 【
14、单选题:
下面关于感知机的说法中正确的是?
选项:
A:单个感知机是线性回归的训练过程
B:某一神经元可以连接下一层的多个神经元,表示该神经元有多个输出
C:其他都不对
D:在感知机中引入激活函数可以解决与异或问题(XOR)
答案: 【】
15、单选题:
在一个神经网络里,确定每一个神经元的权重和偏差是模型拟合训练样本的目标,比较有效的办法是什么?
选项:
A:
搜索所有权重和偏差的组合,直到得到最佳值。
B:
根据人工经验随机赋值。
C:
赋予一个初始值,然后迭代更新权重,直至代价函数取得极小。
D:
其他选项都不正确
答案: 【
】
16、多选题:
有关神经网络训练时使用的学习率参数说法正确的是
选项:
A:网络训练时刚开始学习率可以大一些,以便提高学习速度,随后应减少学习率,以免引起学习震荡。
B:学习率可以与其他网络参数一起训练,对降低代价函数是有利的。
C:学习率过大更容易导致训练陷入局部极小值。
D:学习率可以随着训练误差动态调整效果更好。
答案: 【
17、多选题:
激活函数通过具有以下哪些性质?
选项:
A:非线性
B:可微性
C:单调性
D:计算简单
答案: 【】
18、多选题:
在神经网络训练中,有关学习率调整说法错误的是?
选项:
A:学习率设置不当会引起神经网络过拟合。
B:固定学习率设置太大可能会使神经网络训练震荡不收敛。
C:学习率太小会使神经网络的训练迅速达到极小值。
D:学习率可以根据损失函数(代价函数)减少的快慢动态调整。
答案: 【】
19、判断题:
减少神经网络过拟合可以通过增加网络的神经元个数或层数解决。
选项:
A:错
B:对
答案: 【】
20、判断题:
BP神经网络在训练过程中,损失函数可能比较大,但随着训练的进行,损失函数基本不变化了,这种现象说明神经网络陷入全局最优解
选项:
A:对
B:错
答案: 【】
第四章 单元测试
1、多选题:
以下哪些数据的特征会对聚类有影响?
选项:
A:高维性
B:离群点
C:噪声
D:样本规模
答案: 【
2、单选题:
有关聚类算法不正确的说法是?
选项:
A:聚类算法可以找出每组样本不同的特征
B:聚类是分类的基础
C:必须给出聚类的组数
D:把分析的样本根据距离分组
答案: 【
3、多选题:
聚类是一类重要的机器学习算法,以下哪些场景不属于聚类问题?
选项:
A:某网商对客户的购物行为进行分析,从而分析不同组用户的偏好。
B:判断一个网络访问是否为入侵访问。
C:根据学生的成绩,给出学生的名次。
D:对数据库的论文根据内容主题的不同做划分。
答案: 【】
4、多选题:
对联通客户进行分组,以便根据各组的特点,策划不同的营销方案,需要客户哪些数据?
选项:
A:客户长途市话以及漫游等通话数据
B:客户人口数据
C:家庭男女组成
D:收入数据
答案: 】
5、单选题:
下列说法错误的是?
选项:
A:在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好
B:k均值算法是一种常用的聚类算法,簇的个数算法不能自动确定
C:聚类分析可以看作是一种非监督的样本分组过程
D:k均值算法的计算耗时与初始假设聚类中心的位置有关
答案: 【】
6、多选题:
有关聚类的算法,正确的说法有以下哪些?
选项:
A:聚类的结果要考虑业务的可解释性。
B:聚类的簇密度指样本的个数多少。
C:类似Kmeans基于划分的聚类与基于层次的聚类都是样本的距离为划分基础。
D:自底向上的层次聚类算法对样本的输入顺序比较敏感。
答案: 】
7、单选题:
有关k-means下列说法正确的是?
选项:
A:可以确定样本属性的重要性
B:可以处理凸型分布数据的聚类
C:适合任意数据集的分组
D:聚类的结果与初始选择的假设聚类中心有关
答案: 【】
8、单选题:
根据用户使用移动运营商的数据,可以为他们设计合适的套餐,使用哪种挖掘方法比较合适?
选项:
A:关联分析
B:神经网络
C:回归分析
D:聚类
答案: 【】
9、判断题:
对于Kmeans而言,不同的初始聚类中心选择可能导致不同的聚类结果。
选项:
A:错
B:对
答案: 【】
10、判断题:
在kmeans的训练过程中,可以选择不同的k值,比较使绝对误差标准较小的k值,结合聚类业务的可解释性,从而选择合适的k值。
选项:
A:错
B:对
答案: 【】
第五章 单元测试
1、单选题:
以下有关关联算法错误的说法是哪个?
选项:
A:关联算法是一种非监督学习算法。
B:关联算法主要由2个步骤组成:首先是求频繁项目集,然后再筛选满足最小置信度的关联规则。
C:提升度是强关联规则的一个必要条件。
D:关联算法可用于分析新闻库中经常一起出现的人物。
答案: 【】
2、单选题:
以下哪种情景最不适合用关联分析?
选项:
A:根据以前的股价预测未来的股价。
B:在医疗诊断领域,对一种疾病确诊时提醒其他疾病的可能性。
C:在警务领域,发现有些罪犯会在一次犯罪的过程中实施多种罪行。
D:分析一个论文集中相关的研究主题。
答案: 【】
3、单选题:
在频繁项目集的分析过程中,以下说法哪种是正确的?
选项:
A:FP增长算法计算频繁项目集仅仅扫描1次样本集。
B:两个频繁项目集的并集也一定是频繁的。
C:频繁项目集的交集肯定是频繁的。
D:如果一个项目集是非频繁的,那么它的子集肯定不是频繁的。
答案: 【】
4、多选题:
以下有关关联分析的说法,正确的是哪些?
选项:
A:关联分析的结果表明在同次事务中,有关联的项目存在因果关系。
B:关联分析本身就是一种推荐方法,用于网商商品的推荐,理由是购买某种商品的人在同次购物也可能会买其他商品。
C:关联分析就是相关性分析。
D:提升度可以帮忙改进某些商品的推荐或营销效果。
答案: 【
5、多选题:
以下哪些领域可比较适合使用关联分析?
选项:
A:分析网上商品的评论和评分数据,讨论什么样的商品容易得到好的评分。
B:从学生评教数据中,找到评分较好的课程相关重要因素。
C:预测贷款的人群中哪些人可能会产生坏账。
D:从公司应聘的候选人中选择可能适合某岗位的候选人。
答案: 【】
6、多选题:
有关Apriori算法和FP-增长算法,正确的说法有哪些?
选项:
A:对于同样的样本集和算法参数(支持度和置信度等),Apriori算法的速度一般要慢于FP增长算法。
B:Apriori算法发现的关联规则要比FP增长算法多,因为前者扫描的次数多。
C:对于Apriori算法和FP增长算法,随着最小支持度的提高(最小置信度不变),得到的关联规则数会增加。
D:对于同一个样本集,Apriori算法和FP增长算法的结果是相同的。
答案: 【】
7、多选题:
假设{花生,啤酒,可乐,牛奶}项目集的支持度大于最小支持度,请问下面哪些项目集的支持度一定能达到最小值支持度要求?
选项:
A:{花生,可乐,土豆}
B:{啤酒,可乐}
C:{花生,啤酒}
D:{花生,啤酒,可乐}
答案: 【】
8、单选题:
下面哪个通常不是关联算法的应用领域?
选项:
A:分析论坛用户是否在一次访问中浏览了不同版面的帖子
B:分析文档集是否有一定数量的文档含有某2个主题
C:分析某些用户一次访问网站购买的商品
D:分析信用卡欺诈
答案: 【
9、判断题:
关联规则中前向和后项存在因果关系才能投入使用。
选项:
A:对
B:错
答案: 【】
10、判断题:
关联规则是有方向的,A->B与B->A的支持度相同,它们的置信度也相等。
选项:
A:错
B:对
答案: 【】
第六章 单元测试
1、多选题:
常用的异常检测算法有哪些?
选项:
A:高斯分布建模
B:分类算法
C:KNN(K-最近邻)
D:基于聚类的方法
答案: 【】
2、多选题:
下面这些场景中哪些用到异常检?
选项:
A:系统入侵异于正常用户登录行为检测入侵异常
B:使用传感器采集油气井的地球物理数据,构建预测模型预测油气井产量
C:从盗窃信用卡的人的购买行为不同于信用卡持有者分析信用卡欺诈
D:利用公交车上手机位置数据,优化车辆调度和交通实时讯息
答案: 【
3、多选题:
基于统计方法的异常检测有以下哪些局限性?
选项:
A:对于高维数据难以估算其真实分布
B:大多数统计模型检验只是针对单个特征
C:许多情况下数据对象的分布是未知的
D:高维空间里,数据是稀疏的,邻近度变得没意义
答案: 【】
4、多选题:
基于邻近度的异常检测算法的局限性有哪些?
选项:
A:对参数k选择敏感,如k太小,少量的邻近点导致离群点得分较低,而k太大,则点数少于k的数据点都可能成为离群点
B:对于高维数据难以估算其真实分布
C:参数k选择困难
D:高维空间里,数据是稀疏的,邻近度变得没意义
答案: 【】
5、单选题:
以下哪个场景用到基于统计方法的异常检测?
选项:
A:正常数据出现在随机模型的高概率区域,异常数据则位于随机模型的低概率区域
B:正常数据出现在高密度邻域,异常数据则远离其最近邻
C:正常数据出现在高密度邻域,异常数据位于稀疏邻域
D:高维空间里,数据是稀疏的
答案: 】
6、单选题:
下面哪个是基于密度的方法算法的局限性?
选项:
A:对于高维数据难以估算其真实分布
B:不能处理不同密度区域的数据集
C:许多情况下数据对象的分布是未知的
D:参数k选择困难
答案: 【
7、单选题:
高维空间里,数据是稀疏的,我们会用到以下哪种异常检测的方法
选项:
A:基于统计方法
B:基于密度的方法
C:基于邻近度的方法
D:支持向量机
答案: 【】
8、判断题:
异常检测(Anomaly detection)是发现与大部分其他对象不同的对象,所以又成为离群点检测
选项:
A:错
B:对
答案: 【】
9、判断题:
数据分析任务通常是去掉离群点,离群点是没有意义的点
选项:
A:错
B:对
答案: 【】
10、单选题:
在基于邻近度的方法中,离群点的定义不包括以下哪个?
选项:
A:到第K个最近邻的距离最大的前n个数据点为离群点
B:到K个最近邻平均距离最大的前n个数据点为离群点
C:在距离D内,最近邻点数少于P的数据点为离群点
D:一个对象的离群点得分是该对象周围密度的逆
答案: 【】
第七章 单元测试
1、单选题:
有关文本特征的理解,错误的说法是哪个?
选项:
A:文本不方便直接处理,需要提取表征内容的特征数值化。
B:TF-IDF和互信息都是文本特征提取的方法。
C:信息增益是文本特征提取的方法。
D:one-hot可以表示一个词的重要性。
答案: 【】
2、单选题:
下面哪个选项不是文本分析的组成?
选项:
A:词法分析
B:句法分析
C:语义分析
D:文本翻译
答案: 【
3、多选题:
有关文本分析的说法,正确的是哪些?
选项:
A:从一个word文档中查询是否包含某个词汇属于文本分析。
B:处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。
C:从一个文本集中查询包含某些主题的文本也属于文本分析。
D:文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。
答案: 【】
4、单选题:
以下有关文本分词的说法正确的是哪个?
选项:
A:英文文本不需要分词。
B:基于统计的分词方法的性能与训练语料库的质量密切相关。
C:分词合适与否不会引起句子的歧义。
D:分词算法都需要一个词典。
答案: 【】
5、单选题:
下面有关向量空间模型(VSM)的描述中,错误的是哪个?
选项:
A:文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息
B:基于向量的文本相似度计算中,除了内积外,还可以用夹角余弦等方法
C:以向量来表示文档后,两者的夹角余弦值越小说明相似度越高
D:在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重
答案: 【】
6、多选题:
下面哪种方法是文本特征获取的方法?
选项:
A:信息增益
B:one-hot表示法
C:互信息
D:卡方统计量
答案: 【
7、多选题:
面关于词法分析的描述中,正确的说法有哪些?
选项:
A:基于词频统计的分词方法是一种无字典分词方法
B:基于统计的命名实体识别方法目前还主要采用统计的方法
C:语义依存分析主要用于分析词和词之间的依存关系,例如句⼦的主语、谓语、宾语等形式结构
D:语义角色标注关注句子主要谓词的论元及谓词与论元之间的关系
答案: 【】
8、多选题:
下面哪些算法不能用于文本的分词?
选项:
A:反向最大匹配法
B:基于规则的分词
C:TF-IDF算法
D:词嵌入
答案: 【】
9、多选题:
下面有关文本分析正确的说法是哪些?
选项:
A:信息抽取不需要了解实体之间的语义关系。
B:时间和日期都是需要识别的命名实体。
C:文本分类可以通过贝叶斯分类器完成。
D:句法分析可以表达组成句子的词语之间的搭配或修辞关系。
答案: 【】
10、判断题:
使用基于统计的方法进行特征选择、分词等分析都对语料库的要求比较高。
选项:
A:对
B:错
答案: 【】
第八章 单元测试
1、单选题:
可视化分析的说法正确的是哪一个?
选项:
A:目前的可视化工具可以自动展示数据中的规律。
B:可视化就是简单的画图,美观就行。
C:可视化分析前不用对数据进行预处理,因为可视化反映了数据的趋势和大致规律。
D:可视化是一种基本的数据分析方法,需要选择合适的图表,展示数据中隐藏的信息。
答案: 【】
2、单选题:
有关可视化分析的方法,下面错误的说法是哪种?
选项:
A:可视化只是表格数据的另一种简单呈现。
B:可视化分析在分析前,对数据进行一定的变换,可能会提升分析结果的有用性。
C:错误的数据如果不进行处理,可能会影响可视化分析的结果质量。
D:可视化分析有多种图形可供选择,每种图形只适用某些场合。
答案: 【
3、单选题:
有关可视化分析与其他机器学习方法的关系,错误的说法是哪一种?
选项:
A:可视化分析可以为神经网络等分类算法初选重要的变量。
B:可视化分析可以对分类模型的正确率进行评估。
C:可视化分析可以作为决策树算法的预处理方法,从中找出错误或异常的数据。
D:可视化分析可用于展示神经网络的训练过程,从中确定模型是否出现过拟合。
答案: 【】
4、单选题:
下面哪种可视化方法比较适合聚类分析?
选项:
A:条状图
B:散点图
C:直方图
D:箱图
答案: 【】
5、单选题:
在线教学学生行为的分析中,下面哪个选项不是可视化的作用?
选项:
A:可视化可用于分析不同类别学生的学习轨迹(流程)。
B:可视化可以预测一个刚选课不久的学生学完一门课程所需要的时间。
C:可视化可以帮助发现有问题的学生,从而可以提前做学情预警。
D:可视化可动态展示不同时期学生群体的学习行为。
答案: 【】
6、多选题:
有关可视化分析错误的说法有哪些?
选项:
A:可视化分析的结果是否可用不需要人工检验。
B:可视化分析可以与其他机器学习算法组合使用,可以应用于机器学习的各个阶段。
C:可视化分析可以帮助决策者获得其以前没有意识到的规律。
D:对于同样数据、同样的问题,不同数据分析师给出的可视化分析结果是一样的。
答案: 】
7、多选题:
有关箱(线)图的说法,正确的是哪些?
选项:
A:箱图可用于分析某个变量A对变量B的影响程度,主要看A的不同取值对应B变化的箱子的大小和位置变化。
B:从箱图可以发现变量的异常或噪声。
C:若某变量的中位数是10,说明这个变量有一半的取值平均值小于10。
D:在箱图中,某个变量上四分位和下四分位的差(四分位矩)越大,说明此变量的方差可能越小。
答案: 【】
8、多选题:
在可视化分析的应用过程中,最终用户抱怨没有看到有用的信息,可能的原因有以下哪些?
选项:
A:数据分析人员对业务理解不够,未能选好指标(变量),给出的可视化难以看到有用的信息。
B:数据没有充分的预处理,展示出来的信息基本是已经的事实。
C:图画的不好看,未能引起用户的兴趣。
D:图表展示出来了容易让人误解的信息,误导了用户。
答案: 【】
9、多选题:
以下有关可视化方法作用的说法,正确的有哪些?
选项:
A:可视化不是简单地把数据展示成图形,可能要放在原始数据加工后更有效。
B:可视化就是一种艺术创作,可以创造新的规律。
C:可视化可以在数据预处理阶段,帮助数据分析者发现变量之间的关系。
D:可视化可用作机器学习过程的观察以及结果的展示。
答案: 【】
10、判断题:
标签云是图像数据常用的可视化方法
选项:
A:错
B:对
答案: 【】
第九章 单元测试
1、单选题:
Spark Streaming是什么软件栈中的流计算?
选项:
A:Flume
B:Storm
C:Spark
D:Hive
答案: 【
2、单选题:
下列选项中,不是kafka适合的应用场景是?
选项:
A:业务系统
B:消息系统
C:日志收集
D:流式处理
答案: 】
3、单选题:
在数据量一定的情况下,MapReduce是一个线性可扩展模型,请问服务器数量与处理时间是什么关系?
选项:
A:数量越多处理时间越短
B:数量越多处理时间越长
C:数量越小处理时间越短
D:没什么关系
答案: 【】
4、单选题:
整个MapReduce的过程大致分为Map、Shuffle、Combine和以下哪个?
选项:
A:Reduce
B:Loading
C:Hash
D:Clean
答案: 【
5、单选题:
Spark是基于什么的迭代计算框架?它适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小
选项:
A:内存
B:磁带
C:硬盘
D:显卡
答案: 【
6、多选题:
HBASE的特点不包括哪两项?
选项:
A:多版本
B:高可靠性
C:稠密性
D:面向行
答案: 【
7、多选题:
Yarn架构在Hadoop生态圈中有哪些作用?
选项:
A:资源分配
B:计算数据
C:保证协同
D:调度
答案: 【】
8、多选题:
HDFS适用于哪些场景?
选项:
A:大量小文件
B:一次写入,多次读取
C:低延迟读取
D:存储和管理PB级别数据
答案: 【】
9、多选题:
NoSQL数据库具有以下哪几个特点?
选项:
A:分布式存储
B:灵活的可扩展性
C:与云计算紧密融合
D:灵活的数据模型
答案: 【】
10、多选题:
关于RDD,说法正确的两项是?
选项:
A:RDD 不能由多个分区(partition)组成
B:是一个容错的、并行的数据结构
C:RDD能生成childrenRDD
D:弹性、集中式内存集
答案: 【】
请先
!