基于某异性交友APP的小数据分析
前言:
我习惯在包里藏一瓶百无聊赖,打发人间的白云和苍狗,一日百无聊赖的我下载了某款异性交友APP,开始了我的异性交友之旅,尬聊了两天成功率为0的我略感苍白。感觉APP里的小姐姐太优秀了,这样尬聊下去注定要孤独一生,于是就在想是否对这些妹子进行大数据分析一波,分析出妹子的需求,才好对症下药。
1.数据抓取
1.1数据源获取
想法有了,数据该从哪里来呢,这个交友APP是采取匹配机制。无法无限爬取。限制如下
1.非会员每个人一天只能匹配5次。只有匹配到了才能看对方资料。
2.对方匹配到你跟你发起聊天。
3.对方匹配到你的动态评论或者点赞,你才能看到对方的动态。
因为有以上三点限制,每天能爬取的数据就非常少,等爬完这些数据,我又要单身好几年,这是无法容忍的,于是乎我便对这款APP进行了友情测试,发现一个系统BUG,可以把自己匹配的权重调为最优,只要写成脚本,就可以让妹子无时无刻优先匹配对象为你。这样就可以做到人在家中坐,妹从天上来。
下图为跑脚本90分钟的数据量:
于是乎跑了一个星期,共收到了5300+妹子的打招呼,12000+的访问量(本来想截图装逼的,可是手贱把状态值点没了)下面我们就开始爬取数据。
1.2数据选取
既然有了数据源,就到了选取数据的阶段,决定要爬取哪些数据。经过反复分析,我选定了三类数据,并录入数据库。
1.妹子跟我的聊天内容及时间。(也就是妹子打招呼的第一句话)。
2.妹子的动态信息。
3.妹子对我动态评论的信息(这个本文不分析)
4.数据除杂
在数据整理的时候发现这款APP有机器人和真人推广的存在,用于推广股票,贷款之类的产品。所以这一部分数据普遍是没有价值的。
通过分析这些机器人或者人工推广,他们的动态几乎是空的,所以这里把动态为空的认定为废数据,虽然可能会误杀新手用户,但也是没有办法的。我们把这些废数据从数据库内删除。
3. 数据分析
3.1妹子在线频段分析
根据妹子打招呼及动态的时间进行分析,可以得出妹子们一般在哪个时间段出现。
可以从上图看出从4点开始,在线小姐姐人数呈直线上升并在10点达到峰值。这仅仅是打招呼的小姐姐们,按访问频率来换算,每2个匹配到的会点进来看,每3个就会有一个打招呼的话,人数应该再乘6。
周一到周日小姐姐分布图
可以看出周五周六周日为小姐姐们的频繁活动时间,让人意外的是周六没周五高???
3.2妹子对异性打招呼用语
因为本人没学过数据分析只会计数,所以只能计数分析,首先随机挑选样本数据进行分词。
分词之后计数统计
因为数字不太准确,所以用了模糊的数据,还有那个说呸的小姐姐真的很优秀。
3.3动态信息分析
看到好多小姐姐会在动态中写出对对象的要求,这里我们依旧用分词计数分析(其他的我真不会),分词的时候把要求无关的剔除可以得出下表。
看到这些要求我突然觉得电脑为何突然看上去这么眉清目秀?
不过这些要求让我想起了一张图,我简单画一下
TCV=1
我习惯在包里藏一瓶百无聊赖,打发人间的白云和苍狗,一日百无聊赖的我下载了某款异性交友APP,开始了我的异性交友之旅,尬聊了两天成功率为0的我略感苍白。感觉APP里的小姐姐太优秀了,这样尬聊下去注定要孤独一生,于是就在想是否对这些妹子进行大数据分析一波,分析出妹子的需求,才好对症下药。
1.数据抓取
1.1数据源获取
想法有了,数据该从哪里来呢,这个交友APP是采取匹配机制。无法无限爬取。限制如下
1.非会员每个人一天只能匹配5次。只有匹配到了才能看对方资料。
2.对方匹配到你跟你发起聊天。
3.对方匹配到你的动态评论或者点赞,你才能看到对方的动态。
因为有以上三点限制,每天能爬取的数据就非常少,等爬完这些数据,我又要单身好几年,这是无法容忍的,于是乎我便对这款APP进行了友情测试,发现一个系统BUG,可以把自己匹配的权重调为最优,只要写成脚本,就可以让妹子无时无刻优先匹配对象为你。这样就可以做到人在家中坐,妹从天上来。
下图为跑脚本90分钟的数据量:
于是乎跑了一个星期,共收到了5300+妹子的打招呼,12000+的访问量(本来想截图装逼的,可是手贱把状态值点没了)下面我们就开始爬取数据。
1.2数据选取
既然有了数据源,就到了选取数据的阶段,决定要爬取哪些数据。经过反复分析,我选定了三类数据,并录入数据库。
1.妹子跟我的聊天内容及时间。(也就是妹子打招呼的第一句话)。
2.妹子的动态信息。
3.妹子对我动态评论的信息(这个本文不分析)
4.数据除杂
在数据整理的时候发现这款APP有机器人和真人推广的存在,用于推广股票,贷款之类的产品。所以这一部分数据普遍是没有价值的。
通过分析这些机器人或者人工推广,他们的动态几乎是空的,所以这里把动态为空的认定为废数据,虽然可能会误杀新手用户,但也是没有办法的。我们把这些废数据从数据库内删除。
3. 数据分析
3.1妹子在线频段分析
根据妹子打招呼及动态的时间进行分析,可以得出妹子们一般在哪个时间段出现。
可以从上图看出从4点开始,在线小姐姐人数呈直线上升并在10点达到峰值。这仅仅是打招呼的小姐姐们,按访问频率来换算,每2个匹配到的会点进来看,每3个就会有一个打招呼的话,人数应该再乘6。
周一到周日小姐姐分布图
可以看出周五周六周日为小姐姐们的频繁活动时间,让人意外的是周六没周五高???
3.2妹子对异性打招呼用语
因为本人没学过数据分析只会计数,所以只能计数分析,首先随机挑选样本数据进行分词。
分词之后计数统计
因为数字不太准确,所以用了模糊的数据,还有那个说呸的小姐姐真的很优秀。
3.3动态信息分析
看到好多小姐姐会在动态中写出对对象的要求,这里我们依旧用分词计数分析(其他的我真不会),分词的时候把要求无关的剔除可以得出下表。
看到这些要求我突然觉得电脑为何突然看上去这么眉清目秀?
不过这些要求让我想起了一张图,我简单画一下
TCV=1
评论74次
这顿分析让我想起了原谅宝
聊了 聊吐了,攒了一天的小姐姐 晚上统一回复 然后加微信 最后 都被我聊死了
小可爱,在干嘛? 这个资料有年龄和地区吗,可以多几个维度来统计,或者更换不同的头像来实验看看哪个图片xi引的打招呼人多,以后就用它。
啥app 楼主。。
爬一个完美的数据回来,就可以按照这个要求去找小姐姐了
挺想知道是啥APP的,不过这种APP里面是不是机器人较多哦
啥app 楼主。。
恭喜老表没有走偏, 之前分析过,分析分析着 走上了日站的想法。然后就是 各种找漏洞,最后 进入后台 发现基本上都是采用机器人发送,平台对接智能机器人,然后诱导你去购买会员。查看对方微信 等敏感信息。。。。
厉害,不过很想知道要求里的310是个什么要求
hello小哥哥在干嘛
做安全真好,啥都会,大数据真可怕
多跟论坛大佬 清水 404 玄道 学xi,你也可以一样优秀的
大佬如何才能像你这么优秀
多跟论坛大佬 清水 404 玄道 学xi,你也可以一样优秀
大佬如何才能像你这么优秀
大佬如何才能像你这么优秀
小可爱,在干嘛? 这个资料有年龄和地区吗,可以多几个维度来统计,或者更换不同的头像来实验看看哪个图片xi引的打招呼人多,以后就用它。
今天测试晒网图,账号余额千万,这样访问量超出平常4倍
小可爱,在干嘛? 这个资料有年龄和地区吗,可以多几个维度来统计,或者更换不同的头像来实验看看哪个图片xi引的打招呼人多,以后就用它。
优秀,大数据果然可怕