咨询热线

400-123-4657

notice  最新公告

NEWS

新闻动态

service phone 400-123-4657

公司动态 行业资讯

2020 BAT大厂机械学习算法面试履历:“高频面经”之机械学习篇_泛亚电竞

点击量:261    时间:2023-11-13
更多
本文摘要:​ 注:机械学习注重原理明白、算法对等到场景使用,应增强算法公式推导及多场景实战。

​ 注:机械学习注重原理明白、算法对等到场景使用,应增强算法公式推导及多场景实战。以下试题为作者日常整理的通用高频面经,包罗题目,谜底与参考文章,接待纠正与增补。目录1.常见分类算法及应用场景2.逻辑回归推导3.SVM相关问题4.核函数使用5.生成模型和判别模型基本形式6.ID3,C4.5和CART区别7.交织熵公式原理8.L1和L2正则化的区别9.传统机械学习模型有哪些10.K-means算法流程11.DBSCAN和K-means对比12.LDA原理13.PCA与SVD的关系14.推荐系统常用模型15.协调过滤使用场景及冷启动方案16.Bagging和Boosting区别17.XGBoost和GBDT区别18.SGD,Momentum,Adagard,Adam原理19.过拟合原因及解决措施20.LightGBM优势1.常见分类算法及应用场景 单一分类算法:逻辑回归(LR),支持向量机(SVM),决议树(DT)、朴素贝叶斯(NB)、人工神经网络(NN)、K-近邻(KNN) 集成学习算法:随机森林(RF),GBDT,Adaboost,XGboost。

泛亚电竞

应用场景:生物种类判别、图片分类、广告点击行为预测、垃圾短信识别、谋划风险量化分析、异常行为分析、用户画像挖掘、领域情感分析、用户评分及征信评估预测、验证码识别、客户流失率预测等2.逻辑回归推导 逻辑回归本质上是线性回归,只是在特征到效果的映射中加入了一层逻辑函数g(z),即先把特征线性求和,然后使用函数g(z)作为假设函数来预测。g(z)可以将一连值映射到0 和1。

g(z)为sigmoid函数. 则 sigmoid function 的导数如下: 逻辑回归用来分类0/1 问题,也就是预测效果属于0 或者1 的二值分类问题。这里假设了二值满足伯努利漫衍,也就是 其也可以写成如下的形式: 对于训练数据集,特征数据x={x1, x2, … , xm}和对应的分类标签y={y1, y2, … , ym},假设m个样本是相互独立的,那么,极大似然函数为: log似然为: 如何使其最大呢?与线性回归类似,我们使用梯度上升的方法(求最小使用梯度下降),那么 如果只用一个训练样例(x,y),接纳随机梯度上升规则,那么随机梯度上升更新规则为: 损失函数: 多分类问题: 方式一:修改逻辑回归的损失函数,使用softmax函数结构模型解决多分类问题,softmax分类模型会有相同于种别数的输出,输出的值为对于样本属于各个种别的概率,最后对于样本举行预测的类型为概率值最高的谁人种别。方式二:凭据每个种别都建设一个二分类器,本种别的样本标签界说为0,其它分类样本标签界说为1,则有几多个种别就结构几多个逻辑回归分类器若所有种别之间有显着的互斥则使用softmax分类器,若所有种别不互斥有交织的情况则结构相应种别个数的逻辑回归分类器。

泛亚电竞

3.SVM相关问题 (1)SVM和LR区别 支持向量机为一个二分类模型,它的基本模型界说为特征空间上的距离最大的线性分类器。而它的学习计谋为最大化分类距离,最终可转化为凸二次计划问题求解。

LR是参数模型,SVM为非参数模型。LR接纳的损失函数为logisticalloss,而SVM接纳的是hingeloss。在学习分类器的时候,SVM只思量与分类最相关的少数支持向量点。

泛亚电竞

LR的模型相对简朴,在举行大规模线性分类时比力利便。(2)SVM硬距离 软距离 硬距离:完全分类准确,其损失函数不存在;其损失值为0;只要找出两个异类正中间的谁人平面; 软距离:允许一定量的样天职类错误;优化函数包罗两个部门,一部门是点到平面的距离距离,一部门是误分类的损失个数;C是处罚系数,误分类个数在优化函数中的权重值;权重值越大,误分类的损失处罚的越厉害。误分类的损失函数可分为hinge损失,指数损失,对率损失。

而经常使用的或者说默认的是使用了损失函数为hinge损失的软距离函数。(3)SVM对偶盘算目的 目的有两个:一是利便核函数的引入;二是原问题的求解庞大度与特征的维数相关,而转成对偶问题后只与问题的变量个数有关。由于SVM的变量个数为支持向量的个数,相较于特征位数较少,因此转对偶问题。通过拉格朗日算子法使带约束的优化目的转为不带约束的优化函数,使得W和b的偏导数即是零,带入原来的式子,再通过转成对偶问题。

4.核函数使用 常用的核函数包罗如下几个:线性核函数,多项式核函数,RBF核函数(高斯核),Sigmoid核函数 线性核:SVM肯定是可以处置惩罚线性问题的,这个就是斯坦福课程里讲SVM时候,最开始解说的部门,以线性问题入手举行解说。线性核SVM和逻辑回归本质上没有区别。

泛亚电竞

RBF核通常是首选,实践中往往能体现出良好的性能。盘算方法如下: 其中,如果σ选得很大的话,高次特征上的权重实际上衰减得很是快,所以实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果σ选得很小,则可以将任意的数据映射为线性可分——固然,这并纷歧定是好事,因为随之而来的可能是很是严重的过拟合问题。

不外,总的来说,通过调控参数,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一。多项式核盘算方法如下: sigmoid核函数盘算方法如下:接纳Sigmoid函数作为核函数时,支持向量机实现的就是一种多层感知器神经网络,应用SVM方法,隐含层节点数目(它确定神经网络的结构)、隐含层节点对输入节点的权值都是在设。


本文关键词:泛亚电竞

本文来源:泛亚电竞-www.ysdqbfz.com


有什么问题请反馈给我们!


如有需求请您联系我们!

地址:新疆维吾尔自治区喀什地区瑞丽市预芬大楼3069号
电话:400-123-4657
传真:+86-123-4567
版权所有:Copyright © 2005-2023 www.ysdqbfz.com. 泛亚电竞科技 版权所有

ICP备案编号:ICP备31962009号-5