网络连接你我,数据衡量现实,计算照亮生活

一个欺诈团伙的发现

发表于 2018-08-29 | 分类于 Graph

利用cliques方法，介绍在一个大型网络图中发现欺诈团伙的过程，主要应用场景在金融反欺诈领域。

阅读全文 »

短文本情感分类探索

发表于 2018-08-27 | 分类于 NLP

对于正负面的情感分类，使用目前的深度学习算法,得到val_acc=95%以上的结果是非常容易的；但对于5类情感分类就没那么简单了，本文主要探索短文本评论5分分类，其中评分3、4、5的文本最难区分。

阅读全文 »

网易博客迁移--平行宇宙

发表于 2018-08-22

网易博客要关闭了，把以前写的一点东西迁移到此处。

阅读全文 »

中国电影知多少

发表于 2014-01-21 | 分类于数据分析

【从网易博客迁移，本文写于2014年1月】

好功夫是没有用的，感情这种事啊，功夫再好也是挡不住的。《中南海保镖》
天下风云出我辈，一入江湖岁月催。《东方不败》
我代表党，代表人民宣判你的死刑。《党的女儿》
梦想始于剧本，而终结于电影。——乔治·卢卡斯

阅读全文 »

舆情分析的几个概念

发表于 2013-12-19 | 分类于 NLP

【从网易博客迁移，本文写于2013年12月】

下面是舆情分析领域的几个基础术语的定义，也可认为是研究方向，也为文本挖掘的任务和文献查找提供了思路。

阅读全文 »

R之文本分类

发表于 2013-10-08 | 分类于 NLP

RTextTools 是一个关于文本分类的工具包，汇集了9种算法：

BAGGING( ipred: bagging)：bagging集成分类
BOOSTING (caTools: LogitBoost )：Logit Boosting 集成分类
GLMNET(glmnet:glmnet)：基于最大似然的广义线性回归
MAXENT(maxent:maxent)：最大熵模型
NNET(nnet:nnet)：神经网络
RF( randomForest: randomForest )：随机森林
SLDA(ipred:slda)：scaled 线性判别分析
SVM(e1071:svm)：支持向量机
TREE (tree:tree)：递归分类树

阅读全文 »

图像纹理的定义

发表于 2013-08-24 | 分类于 CV

在阅读文献时，对图像纹理的定义至少见过以下八种表述：

阅读全文 »

R之文档主题模型

发表于 2013-07-15 | 分类于 NLP

创建自然语言的主题模型（topic model）,目前比较著名的是LDA（Latent Dirichlet allocation），在R语言中，有两个包（package）提供了LDA模型：lda和topicmodels。lda提供了基于Gibbs采样的经典LDA、MMSB（the mixed-membership stochastic blockmodel )、RTM（Relational Topic Model）和基于VEM（variational expectation-maximization）的sLDA( supervisedLDA)、RTM。topicmodels基于包tm，提供LDA_VEM、LDA_Gibbs、CTM_VEM（correlated topics model）三种模型。另外包textir也提供了其他类型的主题模型。

阅读全文 »

领导的脸

发表于 2013-06-06 | 分类于 CV

【从网易博客迁移，本文写于2013年6月】

有一天突然想到一个问题：

领导人的脸都有哪些特征？
与普通人有什么不同之处?
领导人之间的脸有多大的相似度?
其他人的脸可以由领导人的脸的特征组合吗？
然后进行了一番求索，本文主要用R语言分析，用到的包(package)有RCurl、XML、jpeg、EBImage、fastICA、spams、ttutils。

阅读全文 »

《黑客与画家》语录摘要

发表于 2013-04-22 | 分类于读书

《黑客与画家》是一本非常浅显易懂的书，是 Paul Graham 的文集，很多浅显想当然的“道理”，其实并非如此，我们经常被经验和教科书误导。如果PG的思维方式也有什么特别之处的话，那就是善于思考、怀疑精神、多问为什么。这本书没有一句多余的话，很多语句和表达方式非常经典，摘抄一部分如下：

阅读全文 »

平行宇宙

执着的信念,无妄的追求,理性的思索

GitHub weibo