Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI科技大本营来源

75道常见AI面试题助你清扫知识盲点(附解析)

本文精心准备了一份AI相关岗位的面试题,帮大家扫清知识盲点,自信上场!

[ 导读 ]正值求职、跳槽季,无论你是换工作还是找实习,没有真本事都是万万不行的,可是如何高效率复习呢?今天我们为大家精心准备了一份 AI相关岗位的面试题,帮大家扫清知识盲点,自信上场!

机器学习工程师面试

必备面试题:

  1. 你会在时间序列数据集上使用什么交叉验证技术?是用k倍或LOOCV?
  2. 你是怎么理解偏差方差的平衡的?
  3. 给你一个有1000列和1百万行的训练数据集,这个数据集是基于分类问题的。经理要求你来降低该数据集的维度以减少模型计算时间,但你的机器内存有限。你会怎么做?
  4. 全球平均温度的上升导致世界各地的海盗数量减少。这是否意味着海盗的数量减少引起气候变化?
  5. 给你一个数据集,这个数据集有缺失值,且这些缺失值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响?为什么?
  6. 你意识到你的模型受到低偏差和高方差问题的困扰。那么,应该使用哪种算法来解决问题呢?为什么?
  7. 协方差和相关性有什么区别?
  8. 真阳性率和召回有什么关系?写出方程式。
  9. Gradient boosting算法(GBM)和随机森林都是基于树的算法,它们有什么区别?
  10. 你认为把分类变量当成连续型变量会更得到一个更好的预测模型吗?
  11. “买了这个的客户,也买了......”亚马逊的建议是哪种算法的结果?
  12. 在k-means或kNN,我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离?
  13. 我知道校正R2或者F值是用来评估线性回归模型的。那用什么来评估逻辑回归模型?
  14. 为什么朴素贝叶斯如此“朴素”?
  15. 花了几个小时后,现在你急于建一个高精度的模型。结果,你建了5 个GBM(Gradient Boosted Models),想着boosting算法会展现“魔力”。不幸的是,没有一个模型比基准模型表现得更好。最后,你决定将这些模型结合到一起。尽管众所周知,结合模型通常精度高,但你就很不幸运。你到底错在哪里?

以上题目答案详解:

https://www.tinymind.cn/articles/109

推荐收藏:

  • 机器学习教材中的 7 大经典问题

    https://www.tiny

算法工程师面试题

工作中的算法工程师,很多时候,会将生活中转瞬即逝的灵感,付诸产品化。

将算法研究应用到工作中,与纯粹的学术研究有着一点最大的不同,即需要从用户的角度思考问题。很多时候,你需要明确设计的产品特征、提升的数据指标,是不是能真正迎合用户的需求,这便要求算法工程师能在多个模型间选择出最合适的那个,然后通过快速迭代达到一个可以走向产品化的结果。

知识储备作为成功的根底亦必不可少,以下是营长为你精选的算法面试,帮你检查下自己的技能是否在线。

必备面试题:

  1. LDA(线性判别分析) 和 PCA 的区别与联系。

  2. K-均值算法收敛性的证明。

  3. 如何确定 LDA (隐狄利克雷模型) 中主题的个数。

  4. 随机梯度下降法的一些改进算法。

  5. L1正则化产生稀疏性的原因。

  6. 如何对贝叶斯网络进行采样 。

  7. 从方差、偏差角度解释 Boosting 和 Bagging。

  8. ResNet的提出背景和核心理论。

  9. LSTM是如何实现长短期记忆功能的。

  10. WGAN解决了原始 GAN 中的什么问题。

以上题目答案详解:

https://www.tinymind.cn/articles/1275

推荐收藏:

  • 是男人就过8题!楼教主出题,请接招

    https://www.tinymind.cn/articles/47


  • 算法和编程面试题精选TOP50!(附代码+解题思路+答案)

    https://www.tinymind.cn/articles/375

深度学习12大常见面试题

必备面试题:

1.什么是深度学习?为什么它会如此受欢迎?

3.深度学习机器学习有什么区别?

4.深度学习的先决条件是什么?

5.选择哪些工具/语言构建深度学习模型?

6.为什么构建深度学习模型需要使用GPU?

7.何时(何处)应用神经网络

8.是否需要大量数据来训练深度学习模型?

9.哪里可以找到一些基本的深度学习项目用来练习?

10.深度学习的一些免费学习资源。

最后附上深度学习的相关面试问题有哪些?

  1. 深度学习模型如何学习?

  2. 深度学习模型有哪些局限性?

  3. 前馈神经网络和递归神经网络之间有什么区别?

  4. 什么是激活特征函数?

  5. 什么是CNN,它有什么用途?

  6. 什么是池化? 简述其工作原理。

  7. 什么是dropout层,为什么要用dropout层?

  8. 什么是消失梯度问题,如何克服?

  9. 什么是优化函数?说出几个常见的优化函数。

以上题目答案详解:

https://www.tinymind.cn/articles/608

Python常见面试题

  • 100+Python编程题给你练~(附答案)

    https://www.tinymind.cn/articles/3987


  • 10个Python常见面试题,这些弄不明白不要说学过Python!

    https://www.tinymind.cn/articles/376

Google人工智能面试题

必备面试题:

  1. 求导1/x。

  2. 画出log (x+10)曲线。

  3. 怎样设计一次客户满意度调查?

  4. 一枚硬币抛10次,得到8正2反。试析抛硬币是否公平?p值是多少?

  5. 接上题。10枚硬币,每一枚抛10次,结果会如何?为了抛硬币更公平,应该怎么改进?

  6. 解释一个非正态分布,以及如何应用。

  7. 为什么要用特征选择?如果两个预测因子高度相关,系数对逻辑回归有怎样的影响?系数的置信区间是多少?

  8. K-mean与高斯混合模型:K-means算法和EM算法的差别在哪里?

  9. 使用高斯混合模型时,怎样判断它适用与否?(正态分布)

  10. 聚类时标签已知,怎样评估模型的表现?

  11. 为什么不用逻辑回归,而要用GBM?

  12. 每年应聘Google的人有多少?

  13. 你给一个Google APP做了些修改。怎样测试某项指标是否有增长

  14. 描述数据分析的流程。

  15. 高斯混合模型 (GMM) 中,推导方程。

  16. 怎样衡量用户对视频的喜爱程度?

  17. 模拟一个二元正态分布。

  18. 求一个分布的方差。

  19. 怎样建立中位数的Estimator?

  20. 如果回归模型中的两个系数估计,分别是统计显著的,把两个放在一起测试,会不会同样显著?

以上题目答案详解:

https://www.tinymind.cn/articles/98

苹果人工智能面试题

必备面试题:

  1. 有成千上万个用户,每个用户都有 100 个交易,在 10000 个产品和小组中,用户所参与有意义的部分,你是如何处理这一问题的?

  2. 为了消除欺诈行为,我们对这些数据进行预筛选,如何才能找到一个数据样本,帮助我们判断一个欺诈行为的真实性?

  3. 给出两个表格,一个表格用来存储用户 ID 以及购买产品 ID(为1个字节),另一个表格则存储标有产品名称的产品 ID。我们尝试寻找被同一用户同时购买的这样一个成对的产品,像葡萄酒和开瓶器,薯片和啤酒。那么,如何去寻找前 100 个同时存在且成对出现的产品?

  4. 详细描述 L1 正则化和 L2 正则化二者之间的区别,特别是它们本身对模型训练过程的影响有什么不同?

  5. 假设你有 10 万个存储在不同服务器上的文件,你想对所有的文件进行加工,那么用 Hadoop 如何处理?

  6. Python 和 Scala 之间有什么区别?

  7. 解释一下 LRU Cache 算法。

  8. 如何设计一个客户——服务器模型,客服端每分钟都可以发送位置数据。

  9. 如何将数据从一个 Hadoop 聚类传递给另一个 Hadoop 聚类

  10. Java 中的内存有哪些不同的类型?

  11. 你是如何处理数百个标题中的元数据这一繁琐任务的?

  12. 在数据流和可访问性方面,如何在隐藏时间帧内进行测量?其中在隐藏时间帧内,核心超负荷将计算机能量重定向到 cellar dome 的过度复杂文件系统的边界结构。

  13. 你最希望拥有的超能力是什么?

  14. 如果你有一个时间序列传感器,请预测其下一个读数。

  15. 使用 SQL 创建 market basket 输出。

  16. 你有没有过心理物理学实验的经验?(Research Portfolio based question)

  17. 你在表征方法上的专长是什么?通常使用什么?你是如何在研究中使用它,有没有什么有趣的结果?(Research Portfolio based question)

  18. 如何进行故障分析?

  19. 检查一个二叉树是否为左右子树上的镜像。

  20. 什么是随机森林?为什么朴素贝叶斯效果更好?

以上题目答案详解:

https://www.tinymind.cn/articles/139

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

入门面试机器学习深度学习Python
191
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

线性判别分析技术

线性判别分析 是对费舍尔的线性鉴别方法的归纳,这种方法使用统计学,模式识别和机器学习方法,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可用来作为一个线性分类器,或者,更常见的是,为后续的分类做降维处理。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

贝叶斯网络技术

贝叶斯网络(Bayesian network),又称信念网络或是有向无环图模型,是一种概率图型模型。例如,贝叶斯网络可以代表疾病和症状之间的概率关系。 鉴于症状,网络可用于计算各种疾病存在的概率。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

WGAN技术

就其本质而言,任何生成模型的目标都是让模型(习得地)的分布与真实数据之间的差异达到最小。然而,传统 GAN 中的判别器 D 并不会当模型与真实的分布重叠度不够时去提供足够的信息来估计这个差异度——这导致生成器得不到一个强有力的反馈信息(特别是在训练之初),此外生成器的稳定性也普遍不足。 Wasserstein GAN 在原来的基础之上添加了一些新的方法,让判别器 D 去拟合模型与真实分布之间的 Wasserstein 距离。Wassersterin 距离会大致估计出「调整一个分布去匹配另一个分布还需要多少工作」。此外,其定义的方式十分值得注意,它甚至可以适用于非重叠的分布。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
解析没有