智慧树知到答案数据工程最新答案

资源下载
下载价格15

第一章 单元测试

1、单选题:
下列哪个数据库不属于NoSQL数据库?
选项:
A:Neo4J
B:Bigtable
C:Redis
D:Oracle
答案: 【Oracle】

2、单选题:
MongoDB属于哪类NoSQL数据库?
选项:
A:键值数据库
B:文档数据库
C:列数据库
D:图数据库
答案: 【文档数据库】

3、多选题:
关系数据库中的参照完整性主要通过()实现。
选项:
A:审计
B:外键
C:主键
D:关键字
答案: 【外键;主键】

4、多选题:
在关系数据库中,为了保证数据的一致性,事务处理必须保证具有哪些特性?()
选项:
A:持久性
B:一致性
C:隔离性
D:原子性
答案: 【持久性;一致性;隔离性;原子性】

5、多选题:
下面哪些是NoSQL数据库的特点?
选项:
A:高可扩展
B:可用性强
C:模式灵活
D:严格的模式定义
答案: 【高可扩展;可用性强;模式灵活】

6、判断题:
大数据价值挖掘是一个从数据到信息,再由信息到知识的凝练过程。
选项:
A:错
B:对
答案: 【对】

7、判断题:
NoSQL数据库是对SQL数据库的否定,可以完全代替SQL数据库。
选项:
A:错
B:对
答案: 【错】

8、判断题:
在并行和分布式数据库中,共享内存架构的每个处理器都有自己的磁盘,所有处理器共享一个内存空间。
选项:
A:对
B:错
答案: 【对】

9、判断题:
关系数据库采取了强一致性约束,符合CAP理论中的C和P。
选项:
A:错
B:对
答案: 【错】

10、单选题:
关系数据库的实体完整性主要通过()实现。
选项:
A:主键
B:访问控制
C:审计
D:关系表
答案: 【主键】

第二章 单元测试

1、判断题:
OLAP一般运行于业务数据库上,OLTP则一般运行于数据仓库上。
选项:
A:错
B:对
答案: 【错】

2、判断题:
数据清洗是剔除数据里的异常,使数据集成为现实世界的准确、没有重复表示的过程。
选项:
A:对
B:错
答案: 【对】

3、判断题:
联邦数据库模式不适宜进行需要在很多的数据源之间进行通讯和数据交换的数据集成。
选项:
A:错
B:对
答案: 【对】

4、判断题:
列存储数据对排序操作和数据压缩有较好的支持。
选项:
A:错
B:对
答案: 【对】

5、多选题:
在数据仓库中,ETL操作包括()。
选项:
A:抽取
B:转换
C:加载
D:传输
答案: 【抽取;转换;加载】

6、多选题:
数据源之间的异构性主要包括()。
选项:
A:数据模式的异构性
B:通讯协议异构性
C:数据管理系统的异构性
D:数据类型的异构性
答案: 【数据模式的异构性;通讯协议异构性;数据管理系统的异构性;数据类型的异构性】

7、多选题:
下列哪些技术可以用于在大数据使用过程中保护用户隐私?
选项:
A:差分隐私
B:联邦数据库
C:同态加密
D:内存数据库
答案: 【差分隐私;联邦数据库;同态加密】

8、单选题:
下列那一项不属于数据清理中的数据异常?
选项:
A:覆盖类异常
B:插入类异常
C:语义类异常
D:语法类异常
答案: 【插入类异常】

9、单选题:
在数据库中,规定了员工表的工资字段必须大于0。如果某个员工的工资<0,则属于()。
选项:
A:语法类异常
B:语义类异常
C:不规则取值
D:词法错误
答案: 【语义类异常】

10、单选题:
下列哪一项不是大数据管理的新挑战()。
选项:
A:多源、异构、跨领域
B:私保护
C:数据规模大
D:高性能数据服务要求
答案: 【数据规模大】

第三章 单元测试

1、单选题:
下列关于不同的簇类型的说法中,不正确的是( )。
选项:
A:在明显分离的簇中,同簇中的对象之间的距离要大于异簇的对象
B:在基于密度的簇中,簇通常是高密度的区域
C:在基于邻近度的簇中,度量方式通常是最近邻或连通度
D:在基于中心的簇中,簇的中心通常叫质心,即簇中所有点的平均值
答案: 【】

2、多选题:
以下哪些选项是K-均值聚类面临的问题?
选项:
A:K的选择具有挑战性
B:关于数据的球形假设(到聚类中心的距离)
C:贪心算法存在的问题
D:难以处理噪声、异常值
答案: 【】

3、多选题:
凝聚层次聚类中,定义簇间的相似度的方法有( )。
选项:
A:组平均
B:MIN(单链)
C:Ward方法
D:MAX(全链)
答案: 【】

4、多选题:
DBSCAN算法的缺点包括?
选项:
A:对于高维问题,密度定义是个比较麻烦的问题
B:对输入参数敏感
C:易受到噪声和异常值的影响
D:当簇的密度变化太大时,不能很好的处理
答案: 【】

5、多选题:
CHAMELEON算法的优点包括:()。
选项:
A:复杂度低,适合在大规模数据集应用
B:能识别具有不同形状、大小和密度的簇
C:对噪声和异常数据不敏感
D:能够有效地聚类空间数据
答案: 【】

6、判断题:
同一组数据通过不同聚类算法得到的簇的个数是相同的。
选项:
A:对
B:错
答案: 【】

7、判断题:
相似度的度量方式随着数据对象的属性类型改变而改变。
选项:
A:错
B:对
答案: 【】

8、判断题:
全链在处理大小不同的簇时,可能使大的簇破裂。
选项:
A:对
B:错
答案: 【】

9、判断题:
DBSCAN聚类结果受参数影响较小。
选项:
A:对
B:错
答案: 【】

10、判断题:
使用KMEANS、DBSCAN等多种聚类算法对同一数据集进行聚类时,可能会得到不同的分组数(类数),分组数较多的聚类算法一般是比较好的。
选项:
A:对
B:错
答案: 【】

第四章 单元测试

1、单选题:
在贝叶斯定理的公式当中,哪一个是先验概率?
选项:
A:P(A)
B:P(B|A)
C:P(A|B)
D:P(B)
答案: 【】

2、判断题:
在电视游戏节目中,参赛者选择三个门之一; 一扇门的后面有奖,而另两扇的后面没有奖。 参赛者选择一扇门后,游戏节目主持人将打开其余的一扇门,并显示门后没有任何奖金。 然后,主持人询问参赛者是将自己的选择切换到另一扇未打开的门,还是将STICK切换到其原始选择。这对参赛者来说切换们是有利的。
选项:
A:错
B:对
答案: 【】

3、判断题:
贝叶斯决策是由先验概率和类条件概率,推导后验概率,然后利用这个概率进行决策。
选项:
A:错
B:对
答案: 【】

4、单选题:
关于决策树算法的描述正确的是()。

选项:
A:决策树可以看成一个If-then规则的集合。
B:在决策树算法中,每个内部结点表示在一个特征或属性;每个分支代表这个特征或属性在某个值域上的输出;每个叶结点代表一种类别。
C:决策树剪枝的目的是为了降低决策树算法的过拟合
D:在决策树的各个结点上以信息增益为准则,选择划分后信息增益最大的属性作为划分属性,递归地构建决策树。
答案: 【】

5、多选题:
决策树中属性选择的方法有()。
选项:
A:信息增益
B:信息值
C:信息增益率
D:GINI系数
答案: 【】

6、单选题:
对于信息增益, 决策树分裂节点, 下面说法正确的是()1.纯度高的节点需要更多的信息去区分2.信息增益可以用”1比特-熵”获得3.如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的

选项:
A:3

B:1
C:2和3

D:2
答案: 【

7、单选题:
SVM中的泛化误差代表什么?
选项:
A:SVM中的误差阈值
B:分类超平面与支持向量的距离
C:SVM对新数据的预测准确度
答案: 【SVM对新数据的预测准确度】

8、单选题:
若参数C(cost parameter)被设为无穷,下面哪种说法是正确的?
选项:
A:只要最佳分类超平面存在,它就能将所有数据全部正确分类
B:软间隔SVM分类器将正确分类数据
C:在如此高的误分类惩罚下,存在软间隔分类超平面
答案: 【】

9、单选题:
怎样理解“硬间隔”?
选项:
A:SVM只允许极小误差
B:SVM不允许有误差

C:SVM允许分类时出现一定范围的误差
答案: 【】

10、单选题:
VM算法的最小时间复杂度是O(n²),基于此,以下哪种规格的数据集并不适该算法?
选项:
A:中等数据集
B:小数据集
C:大数据集
D:不受数据集大小影响
答案: 【】

第五章 单元测试

1、单选题:
梯度下降算法的正确步骤是什么?a.计算预测值和真实值之间的误差b.重复迭代,直至得到网络权重的最佳值c.把输入传入网络,得到输出值d.用随机值初始化权重和偏差e.对每一个产生误差的神经元,调整相应的(权重)值以减小误差
选项:
A:abcde
B:dcaeb
C:edcba
D:cbaed
答案: 【】

2、单选题:
已知:大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。- 每一个神经元都有输入、处理函数和输出。- 神经元组合起来形成了网络,可以拟合任何函数。- 为了得到最佳的神经网络,我们用梯度下降方法不断更新模型给定上述关于神经网络的描述,什么情况下神经网络模型被称为深度学习模型?
选项:
A:加入更多层,使神经网络的深度增加
B:当这是一个图形识别的问题时
C:有维度更高的数据
答案: 【】

3、判断题:
训练CNN时,可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。
选项:
A:对
B:错
答案: 【】

4、单选题:
下面哪项操作能实现跟神经网络中Dropout的类似效果?
选项:
A:Stacking
B:Bagging
C:Mapping
D:Boosting
答案: 【】

5、单选题:
下列哪一项在神经网络中引入了非线性?
选项:
A:随机梯度下降
B:卷积函数
C:修正线性单元(ReLU)
答案: 【】

6、多选题:
多对一RNN架构可以应用于以下哪些任务?
选项:
A:图像分类(输入图像输出标签)
B:情感分类(输入一段文字并输出0/1表示正面或负面情绪)
C:语音识别(输入一个音频输出一段字幕)
D:语音中的性别识别(输入音频剪辑并输出表明说话者性别的标签)
答案: 【】

7、单选题:
您正在训练RNN,发现您的权重和激活都具有NaN的值(“非数字”)。 以下哪项最可能是此问题的原因?
选项:
A:梯度爆炸问题
B:在sigmoid激活函数当中z太大
C:在ReLU激活函数当中z太大
D:梯度消失问题
答案: 【】

8、判断题:
为了使RNN更容易训练,需要选取更好的激活函数,如Relu激活函数。ReLU函数的左侧导数为0,右侧导数恒为1,这就避免了梯度爆炸问题的发生。
选项:
A:错
B:对
答案: 【】

9、判断题:
RNN会发生梯度消失的问题,产生这样的问题的原因是RNN在算是会有激活函数导数的累乘,如果取tanh或sigmoid函数作为激活函数的话,那么必然是一堆小数在做乘法,结果就是越乘越小。随着时间序列的不断深入,小数的累乘就会导致梯度越来越小直到接近于0,这就是“梯度消失“现象。
选项:
A:错
B:对
答案: 【】

10、单选题:
假设你正在训练LSTM。 你有10000个单词的词汇,并且正在使用具有100维激活的LSTM。 每步当中的维数是多少?
选项:
A:1000
B:300
C:100
D:1
答案: 【】

第六章 单元测试

1、多选题:
数据可视化有哪些主要分支方向?
选项:
A:可视分析
B:科学可视化

C:信息可视化
D:统计数据可视化
答案: 【】

2、单选题:
信息可视化主要是针对什么类型数据的?
选项:
A:图形数据
B:抽象数据

C:统计数据
D:科学数据
答案: 【

3、单选题:
下列选项中哪一项不属于可视化的基本设计准则。()

选项:
A:设计能够让人赏心悦目的可视化
B:设计能够高效传达信息的可视化

C:设计能够直观传递信息的可视化
D:设计能够正确表达信息的可视化

答案: 【】

4、单选题:
谎言因子是设计用来度量可视化中什么设计指标的方法?
选项:
A:可视化美观程度的度量方法
B:可视化表达信息效率的度量方法

C:可视化呈现数据时夸张程度的度量方法

答案: 【

5、单选题:
以下哪一种交互不属于常见的可视化交互类型。
选项:
A:过滤
B:定向
C:选择
D:编码
答案: 【定向】

6、单选题:
“数据浏览”交互主要是为了完成什么任务:()。
选项:
A:浏览并筛选数据
B:展现不同的数据粒度

C:展现不同的数据映射方式
D:展现数据中的不同子集

答案: 【

7、单选题:
以下哪一项不属于数据的维度的类型()。
选项:
A:时间属性
B:有序属性
C:数据属性
D:分类属性
答案: 【】

8、单选题:
PCA  的设计原理是:()。
选项:
A:最大化数据点在低维空间中点的差异

B:最大化数据点与数据点之间的距离在高、低维空间中的差异

C:最小化数据点与数据点之间的距离在高、低维空间中的差异
D:最大化数据点在高维空间中点的差异

答案: 【

9、单选题:
以下哪一项不是可视化的基本评估方法?
选项:
A:设计准则对比

B:实际应用案例分析

C:受控用户调研

D:定量实验分析

答案: 【

10、单选题:
在受控用户实验中,当我们对比工具A与工具B时,以下哪一个假设符合实验设计标准?
选项:
A:假设用户使用工具A比使用工具B更高效

B:假设在处理数据异常时,用户使用工具A比使用工具B更快

C:假设用户使用工具A 比工具B好

答案: 【

0
觉得这篇文章对你有用的话,就打赏一下支持文章作者

评论0

请先

站点公告

开放大学课程作业代写,有需要扫码加微信

显示验证码

社交账号快速登录