基于某异性交友APP的小数据分析
前言:
我习惯在包里藏一瓶百无聊赖,打发人间的白云和苍狗,一日百无聊赖的我下载了某款异性交友APP,开始了我的异性交友之旅,尬聊了两天成功率为0的我略感苍白。感觉APP里的小姐姐太优秀了,这样尬聊下去注定要孤独一生,于是就在想是否对这些妹子进行大数据分析一波,分析出妹子的需求,才好对症下药。
1.数据抓取
1.1数据源获取
想法有了,数据该从哪里来呢,这个交友APP是采取匹配机制。无法无限爬取。限制如下
1.非会员每个人一天只能匹配5次。只有匹配到了才能看对方资料。
2.对方匹配到你跟你发起聊天。
3.对方匹配到你的动态评论或者点赞,你才能看到对方的动态。
因为有以上三点限制,每天能爬取的数据就非常少,等爬完这些数据,我又要单身好几年,这是无法容忍的,于是乎我便对这款APP进行了友情测试,发现一个系统BUG,可以把自己匹配的权重调为最优,只要写成脚本,就可以让妹子无时无刻优先匹配对象为你。这样就可以做到人在家中坐,妹从天上来。
下图为跑脚本90分钟的数据量:
于是乎跑了一个星期,共收到了5300+妹子的打招呼,12000+的访问量(本来想截图装逼的,可是手贱把状态值点没了)下面我们就开始爬取数据。
1.2数据选取
既然有了数据源,就到了选取数据的阶段,决定要爬取哪些数据。经过反复分析,我选定了三类数据,并录入数据库。
1.妹子跟我的聊天内容及时间。(也就是妹子打招呼的第一句话)。
2.妹子的动态信息。
3.妹子对我动态评论的信息(这个本文不分析)
4.数据除杂
在数据整理的时候发现这款APP有机器人和真人推广的存在,用于推广股票,贷款之类的产品。所以这一部分数据普遍是没有价值的。
通过分析这些机器人或者人工推广,他们的动态几乎是空的,所以这里把动态为空的认定为废数据,虽然可能会误杀新手用户,但也是没有办法的。我们把这些废数据从数据库内删除。
3. 数据分析
3.1妹子在线频段分析
根据妹子打招呼及动态的时间进行分析,可以得出妹子们一般在哪个时间段出现。
可以从上图看出从4点开始,在线小姐姐人数呈直线上升并在10点达到峰值。这仅仅是打招呼的小姐姐们,按访问频率来换算,每2个匹配到的会点进来看,每3个就会有一个打招呼的话,人数应该再乘6。
周一到周日小姐姐分布图
可以看出周五周六周日为小姐姐们的频繁活动时间,让人意外的是周六没周五高???
3.2妹子对异性打招呼用语
因为本人没学过数据分析只会计数,所以只能计数分析,首先随机挑选样本数据进行分词。
分词之后计数统计
因为数字不太准确,所以用了模糊的数据,还有那个说呸的小姐姐真的很优秀。
3.3动态信息分析
看到好多小姐姐会在动态中写出对对象的要求,这里我们依旧用分词计数分析(其他的我真不会),分词的时候把要求无关的剔除可以得出下表。
看到这些要求我突然觉得电脑为何突然看上去这么眉清目秀?
不过这些要求让我想起了一张图,我简单画一下
TCV=1
我习惯在包里藏一瓶百无聊赖,打发人间的白云和苍狗,一日百无聊赖的我下载了某款异性交友APP,开始了我的异性交友之旅,尬聊了两天成功率为0的我略感苍白。感觉APP里的小姐姐太优秀了,这样尬聊下去注定要孤独一生,于是就在想是否对这些妹子进行大数据分析一波,分析出妹子的需求,才好对症下药。
1.数据抓取
1.1数据源获取
想法有了,数据该从哪里来呢,这个交友APP是采取匹配机制。无法无限爬取。限制如下
1.非会员每个人一天只能匹配5次。只有匹配到了才能看对方资料。
2.对方匹配到你跟你发起聊天。
3.对方匹配到你的动态评论或者点赞,你才能看到对方的动态。
因为有以上三点限制,每天能爬取的数据就非常少,等爬完这些数据,我又要单身好几年,这是无法容忍的,于是乎我便对这款APP进行了友情测试,发现一个系统BUG,可以把自己匹配的权重调为最优,只要写成脚本,就可以让妹子无时无刻优先匹配对象为你。这样就可以做到人在家中坐,妹从天上来。
下图为跑脚本90分钟的数据量:
于是乎跑了一个星期,共收到了5300+妹子的打招呼,12000+的访问量(本来想截图装逼的,可是手贱把状态值点没了)下面我们就开始爬取数据。
1.2数据选取
既然有了数据源,就到了选取数据的阶段,决定要爬取哪些数据。经过反复分析,我选定了三类数据,并录入数据库。
1.妹子跟我的聊天内容及时间。(也就是妹子打招呼的第一句话)。
2.妹子的动态信息。
3.妹子对我动态评论的信息(这个本文不分析)
4.数据除杂
在数据整理的时候发现这款APP有机器人和真人推广的存在,用于推广股票,贷款之类的产品。所以这一部分数据普遍是没有价值的。
通过分析这些机器人或者人工推广,他们的动态几乎是空的,所以这里把动态为空的认定为废数据,虽然可能会误杀新手用户,但也是没有办法的。我们把这些废数据从数据库内删除。
3. 数据分析
3.1妹子在线频段分析
根据妹子打招呼及动态的时间进行分析,可以得出妹子们一般在哪个时间段出现。
可以从上图看出从4点开始,在线小姐姐人数呈直线上升并在10点达到峰值。这仅仅是打招呼的小姐姐们,按访问频率来换算,每2个匹配到的会点进来看,每3个就会有一个打招呼的话,人数应该再乘6。
周一到周日小姐姐分布图
可以看出周五周六周日为小姐姐们的频繁活动时间,让人意外的是周六没周五高???
3.2妹子对异性打招呼用语
因为本人没学过数据分析只会计数,所以只能计数分析,首先随机挑选样本数据进行分词。
分词之后计数统计
因为数字不太准确,所以用了模糊的数据,还有那个说呸的小姐姐真的很优秀。
3.3动态信息分析
看到好多小姐姐会在动态中写出对对象的要求,这里我们依旧用分词计数分析(其他的我真不会),分词的时候把要求无关的剔除可以得出下表。
看到这些要求我突然觉得电脑为何突然看上去这么眉清目秀?
不过这些要求让我想起了一张图,我简单画一下
TCV=1
评论74次
这顿分析让我想起了原谅宝
聊了 聊吐了,攒了一天的小姐姐 晚上统一回复 然后加微信 最后 都被我聊死了
小可爱,在干嘛? 这个资料有年龄和地区吗,可以多几个维度来统计,或者更换不同的头像来实验看看哪个图片xi引的打招呼人多,以后就用它。
啥app 楼主。。
有点意思,然而发现了这些,也撩不到妹 哈哈
单身一时爽,一直单身一直爽
有点意思,然而发现了这些,也撩不到妹 哈哈
可以呢,查理,你换下发型,内裤外穿,绝对碉堡,西门吹雪也要下跪的。。。
每次在吐司看到老哥这个清奇的思路,我就想大声喊:陈独秀你快回来,有人占你位置
重点不应该是这个么 "发现一个,可以把自己匹配的权重调为最优,可以让妹子无时无刻。" 加上基于app的爬虫和数据处理分析。优秀
来了,小哥哥,你还没说怎么变高权重呢
撸到后台自己改
来了,小哥哥,你还没说怎么变高权重呢
小哥哥,你好,方便加qq吗?
这个一定是机器人
小哥哥,你好,方便加qq吗?
其实我更想了解自己匹配的权重调为最优这个原理,不然说别的都是扯淡
这个呸咋这么眼熟.啊哈哈
你好呀~小可爱的小哥哥在干嘛
不过还是更关心小姐姐们的情况,像上面一个表哥说的,年龄地区什么的都可以分析一下~
这顿分析让我想起了原谅宝
一看回复就知道是机器人和你聊天。
恭喜老表没有走偏, 之前分析过,分析分析着 走上了日站的想法。然后就是 各种找漏洞,最后 进入后台 发现基本上都是采用机器人发送,平台对接智能机器人,然后诱导你去购买会员。查看对方微信 等敏感信息。。。。
哈哈,老哥同道中人呀
这个APP可能大部分机器人吧
数据已经筛选过一遍了,机器人几乎全筛掉了
厉害,不过很想知道要求里的310是个什么要求
身份证310开头上海人 110北京人
这个APP可能大部分机器人吧
漏洞咋发现的,我猜是不是抓了个包,然后发现是明文,然后遍历了所有的id号
一顿数据分析,给人家分析跑路了