一些纠错相关的论文笔记

摘要:纠错模块在搜索引擎作为入口级模块,用户感知明显,对用户体验的提升有重要的影响。整体平台化建设一期完结,楼主整理了最近阅读的一些笔记,有粗有细,目的是帮助有业务需求的同学可以有的放矢的去看,应用到工作中,节约时间。

阅读更多

浅谈Batch Normalization及其Caffe实现

摘要:2015年2月份,Google和MSRA的paper相继在arxiv.org上横空出世,宣布在ImagenNet图像数据集上取得了比人类更高的识别能力. 此突破意义重大,文章发布后引起一片热潮,在图像领域具有普适的应用.
本文中笔者仅就Google的Batch Normalization谈谈粗浅的理解.

阅读更多

Word Embedding札记

如何利用文本的上下文信息,得到更有意义的向量表达(word embedding),是NLP领域研究的重点。本篇笔记目的在于整理词向量的发展历程,方便理解什么是词向量,怎么得到词向量。词向量也叫词的分布式表达,主要有三类方法:聚类,矩阵分解,神经网络。

阅读更多

简介语法分析开源神经网络SyntaxNet

SyntaxNet在github文档开源部分介绍了两个模型:词性标注和语法依存分析,论文中还有句子压缩部分内容。[github地址],[相关文档], [对应论文 ]。
对应论文一作为andor,针对三个任务,渐进式介绍了词性标注(part-of-speech),依存分析,句子压缩三个部分工作。依存分析使用了词性标注的输出作为输入特征,而句子压缩则用了前两个任务的结果作为输入特征。 接下来顺序介绍下三个工作:

阅读更多

简述FastDBT和LightGBM中GBDT的实现

FastDBT和LightGBM在XGBoost之后提出,FastBDT针对多类别问题进行了优化,从实现层面获得了更快的训练速度,LightGBM则在树的生成进行了改进,文章按以下思路介绍

阅读更多

XGboost核心源码阅读

上篇《xgboost: A Scalable Tree Boosting System论文及源码导读》介绍了xgboost的框架和代码结构。本篇将继续讨论代码细节,可能比较枯燥,坚持一下哈。
接下来按这个顺序整理笔记,介绍xgboost的核心代码:

阅读更多

XGboost: A Scalable Tree Boosting System论文及源码导读

这篇论文一作为陈天齐,XGBoost是从竞赛pk中脱颖而出的算法,目前开源在github,和传统gbdt方式不同,XGBoost对loss function进行了二阶的泰勒展开,并增加了正则项,用于权衡目标函数的下降和模型的复杂度[12]。罗列下优势:

阅读更多

Gradient Boosting Decision Tree[下篇]

这篇笔记里面会继续介绍上篇GB理论的具体用法,对不同的loss function展开讨论:最小均方误差(LS)和最小绝对值误差(LAD),Huber(M)函数,三者主要是用在回归问题。接着再看GB理论怎么用在二分类和多分类上。

阅读更多

Gradient Boosting Decision Tree[上篇]

前文介绍了gbrank和logisticRank,顺着logisticRank思路,我们可以接触到gradient boosting框架以及经典的gradient boosting decision tree(GBDT)。
后续的介绍主要回答下面三个问题:

阅读更多

gbRank & logsitcRank自顶向下

上一篇Ranking Relevance in Yahoo Search一文中提到的logistRank方法吃不太透,没展开。这两天刚好中秋,整理出来。
介绍思路如下:

阅读更多