一些纠错相关的论文笔记
摘要:纠错模块在搜索引擎作为入口级模块,用户感知明显,对用户体验的提升有重要的影响。整体平台化建设一期完结,楼主整理了最近阅读的一些笔记,有粗有细,目的是帮助有业务需求的同学可以有的放矢的去看,应用到工作中,节约时间。
摘要:纠错模块在搜索引擎作为入口级模块,用户感知明显,对用户体验的提升有重要的影响。整体平台化建设一期完结,楼主整理了最近阅读的一些笔记,有粗有细,目的是帮助有业务需求的同学可以有的放矢的去看,应用到工作中,节约时间。
摘要:2015年2月份,Google和MSRA的paper相继在arxiv.org上横空出世,宣布在ImagenNet图像数据集上取得了比人类更高的识别能力. 此突破意义重大,文章发布后引起一片热潮,在图像领域具有普适的应用.
本文中笔者仅就Google的Batch Normalization谈谈粗浅的理解.
如何利用文本的上下文信息,得到更有意义的向量表达(word embedding),是NLP领域研究的重点。本篇笔记目的在于整理词向量的发展历程,方便理解什么是词向量,怎么得到词向量。词向量也叫词的分布式表达,主要有三类方法:聚类,矩阵分解,神经网络。
FastDBT和LightGBM在XGBoost之后提出,FastBDT针对多类别问题进行了优化,从实现层面获得了更快的训练速度,LightGBM则在树的生成进行了改进,文章按以下思路介绍
上篇《xgboost: A Scalable Tree Boosting System论文及源码导读》介绍了xgboost的框架和代码结构。本篇将继续讨论代码细节,可能比较枯燥,坚持一下哈。
接下来按这个顺序整理笔记,介绍xgboost的核心代码:
这篇论文一作为陈天齐,XGBoost是从竞赛pk中脱颖而出的算法,目前开源在github,和传统gbdt方式不同,XGBoost对loss function进行了二阶的泰勒展开,并增加了正则项,用于权衡目标函数的下降和模型的复杂度[12]。罗列下优势:
这篇笔记里面会继续介绍上篇GB理论的具体用法,对不同的loss function展开讨论:最小均方误差(LS)和最小绝对值误差(LAD),Huber(M)函数,三者主要是用在回归问题。接着再看GB理论怎么用在二分类和多分类上。
前文介绍了gbrank和logisticRank,顺着logisticRank思路,我们可以接触到gradient boosting框架以及经典的gradient boosting decision tree(GBDT)。
后续的介绍主要回答下面三个问题:
上一篇Ranking Relevance in Yahoo Search一文中提到的logistRank方法吃不太透,没展开。这两天刚好中秋,整理出来。
介绍思路如下: