《社会心理学》半部读后感

2020年5月27日2020年5月27日布鲁斯.L

浏览了前四章，关于：社会思维。有几个有趣的观点。

1、态度和行为，个人的态度可能跟实际的行为没有太大相关性，隐含态度、社会观念影响、所处环境可能会改变行为（违心行为的发生）。相应的，扮演的对象所发生的行为，往往影响态度的变化，比如处于一个模拟环境中，文明可能消失。

2、自我感知，自我感觉良好是人之本能，评判自己和评判别人总是不自觉的偏向自己。

3、看待别人的偏见，可能进一步为自己不自觉的收集偏见的证据。比如：设想对方存在某种方面的问题，交往过程就会不自觉偏向性发现该方面问题。

4、不断的重复行为训练过程，可能会改变态度。也只有通过行动改变，才能推动认知的改变。

May me happy birthday

2020年4月26日2020年11月6日布鲁斯.L

岁月虚增，年纪渐长。每年都能记住你的生日的估计只有运营商和银行了。

招行信用卡发来祝贺短信
浦发信用卡发来祝贺短信
美团发来祝贺短信
联通发来祝贺短信
平安发来祝贺短信

对接产品的PM送了一个鸭掌，实在有趣，截图如下：

2021年的2020奥运会

2020年3月25日2020年3月25日布鲁斯.L

昨天，奥委会和日本政府宣布2020奥运会延期到2021年，仍然叫 2020奥运会。
疫情的发展快到出乎意料，仿佛世界人民开始跟曾经的中国人民一样宅在家里。意大利已经很艰难，美国政府的不重视，进一步扩大了疫情的蔓延。

人类命运共同体，感受如此的强烈。美国优先的场景下，本届美国政府难堪大任。什么时候欧洲人民和东亚人民联合起来？“佛系”政策是会出乱子的，期望看到全球性大联合。

当2021年的2020奥运会开幕时，应该有个特别的感谢节目。

Say hi to 2020

2020年1月1日2020年1月1日布鲁斯.L

进入2020年，二十一世纪已经过了20年。“千年虫”问题仿佛还在耳边。20年前的BAT、google、fb还在萌芽；20年前有互联网泡沫，而如今的世界也存在很大的金融泡沫风险。

风险和机会共存，20年前的大型科技公司现在看似乎就苹果、微软转型成功了，雅虎、Sun消失了。没有一成不变的商业模式，可以预见20年后一定有几个大的公司出现，也会有大公司消亡。不过回头看2000 vs 2020 相比 1980 vs 2000，变化还是小了一些。

有了高铁让我们游的更多；
有了电商让我们花的更多；
有了微信让我们聊的更多；
有了搜索引擎让我们知道更多。

或许历史会记录这20年为互联网蓬勃发展的20年，我们的沟通方式已经从文本、电话变成语音、视频。相信下一个20年，5G、6G会让我们生活在更多元的的多媒体世界中。

Say hi to 2020，今年有奥运会。
Say hi to 2020，今年有更多精彩的故事。

聚类分析的过程和两个常用的聚类算法

2019年6月22日2019年7月8日布鲁斯.L无监督学习，机器学习，聚类

聚类分析过程

一般聚类分析的数据源是需要相对干净的，即需要做统一的特征清洗、特征变换过程，即空值、非法值、异常值、类别变量等的处理。主要过程如下：

数据采集：我们可以认为是统一的ETL过程，这里涉及埋点、转发、存储、提取等过程。是典型的数据分析前置过程。

特征变换/特征选择：聚类对异常数据特别敏感，同时原始数据直接进入聚类分析不大现实。特征处理包含行维度、列维度的处理，行维度主要包括：空值、非法值、异常值等方面的处理，而列维度涉及降维处理，冗余的列对聚类影响较大，所以一般聚类分析之前会做一次PCA。

聚类分析、聚类评估：下文将重点举例描述

结果解读：无监督学习，一般没有label，聚类的数量也是未知的，需要结合业务知识进一步解读聚类结果，比如从用户画像维度进一步切分同个分类的数据，从统计维度挖掘特征。

知识发现：解读结果之后，需要落地实现或者输出报告，我们把这个过程称为知识发现的过程。聚类结果产生的label结果，往往可以作为监督学习的来源。

下面举两个经典的聚类分析算法进一步说明。

Kmeans

基于距离聚类的聚类算法

算法步骤：
1、根据设定分类数量，随机生成N个中心点
2、每个点计算与中心点距离，按最近距离合并分类
3、基于2重新计算每个分类的中心点
4、重复2~3，直到中心点收敛

sklearn实现

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3)
pred = kmeans.fit_predict(X)

聚类效果

GMM

高斯混合模型是几个高斯分布的叠加，每一个分布代表一个分类

算法步骤：
1、设定分类数量
2、对每一个高斯分布均值、方差随机初始化
3、计算每个样本的在各个高斯分布的概率、权重值，Expectation-step
4、根据最大似然重新估算高斯分布均值、方差，Maximization-step
5、重复3~4直到高斯分布均值和方差收敛

sklearn实现

from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=3)
gmm = gmm.fit(X)
pred_gmm = gmm.predict(X)

聚类效果

模型评价

GMM和KMeans分类结果有一定的随机性，可能得到局部优化解，需要多次微调。
GMM是概率分类结果，可以对比topN分类，比如文档聚类；GMM计算代价更大，大数据集是个负担。

评估指标

聚类算法的评估主要衡量两个方面：同类紧密程度、类间分散程度；从不同指标看，同类越紧密、类间越分散，聚类效果越好
基本上为无监督聚类，所以“Rand Index”之类的指标不是太实用，常用EIBOW方法，根据SSE评估聚类效果，另外对于聚类结果评估可以采用以下两种方式：

1、Silhouette index

    s = (b-a)/max(a,b)
    ai：同分类内，单点与其他点的平均距离
    bi：分类中的点与最近分类点的平均距离
    a：所有点ai的均值
    b：所有点bi的均值

基于轮廓的衡量方法，可能不适合 Single link、Complete link、DBSCANE等聚类方法。

2、Calinski-Harabasz
CH指标通过“同类”、“类间”协方差矩阵的迹（各个变量的方差）衡量，计算速度较快。

随遇札记

学而时习之旅行随笔编程

其他