利用cliques方法,介绍在一个大型网络图中发现欺诈团伙的过程,主要应用场景在金融反欺诈领域。
R之文本分类
发表于
|
分类于
NLP
RTextTools 是一个关于文本分类的工具包,汇集了9种算法:
- BAGGING( ipred: bagging):bagging集成分类
- BOOSTING (caTools: LogitBoost ):Logit Boosting 集成分类
- GLMNET(glmnet:glmnet):基于最大似然的广义线性回归
- MAXENT(maxent:maxent):最大熵模型
- NNET(nnet:nnet):神经网络
- RF( randomForest: randomForest ):随机森林
- SLDA(ipred:slda):scaled 线性判别分析
- SVM(e1071:svm):支持向量机
TREE (tree:tree):递归分类树
R之文档主题模型
发表于
|
分类于
NLP
创建自然语言的主题模型(topic model),目前比较著名的是LDA(Latent Dirichlet allocation) ,在R语言中,有两个包(package)提供了LDA模型:lda
和topicmodels
。lda
提供了基于Gibbs采样的经典LDA、MMSB(the mixed-membership stochastic blockmodel )、RTM(Relational Topic Model)和基于VEM(variational expectation-maximization)的sLDA( supervisedLDA)、RTM。topicmodels
基于包tm
,提供LDA_VEM、LDA_Gibbs、CTM_VEM(correlated topics model)三种模型。另外包textir
也提供了其他类型的主题模型。
《黑客与画家》语录摘要
发表于
|
分类于
读书
《黑客与画家》是一本非常浅显易懂的书,是 Paul Graham 的文集,很多浅显想当然的“道理”,其实并非如此,我们经常被经验和教科书误导。如果PG的思维方式也有什么特别之处的话,那就是善于思考、怀疑精神、多问为什么。这本书没有一句多余的话,很多语句和表达方式非常经典,摘抄一部分如下: