西安旅游网我们一直在努力
您的位置:西安旅游网 > 旅游景点 > 旅游网站上激增的机票搜索查询量可能不是用户,而是“爬虫”——旅游查询

旅游网站上激增的机票搜索查询量可能不是用户,而是“爬虫”——旅游查询

作者:西安旅游网日期:

返回目录:旅游景点

3月22日,国务院办公厅发布了《关于调整2019年五一假期的通知》。通知规定五一假期将从前一天调整为四天。通知发布几分钟后,B2C网站和各航空公司空旅游网站上的机票查询数量飙升,国际航班增加了十倍。在飞速增长的机票查询数据背后,是一群欣喜若狂的人,还有被非法代理操纵的恶意“爬虫”。


旅游网站上暴增的机票搜索查询量,可能不是用户而是“爬虫”

假票搜索查询卷背后的“罪魁祸首”

“爬虫”是一种通用技术,最早应用于搜索引擎领域。主要用Python语言编写,用于批量和自动收集网站数据。

所谓恶意“爬虫”是指一些航空公司空服务代理通过“爬虫”非法获取B2C网站或官方应用以及航空公司空公司其他平台上的机票信息,然后非法转售给他人牟利。


旅游网站上暴增的机票搜索查询量,可能不是用户而是“爬虫”

一些代理使用“爬网程序”来爬网票证信息,然后使用虚假身份信息来预订票证,但不付费。在航空公司空公司允许的预订期内付款,将被转售给真正需要购买机票的用户。这导致一些机票没有售出,但用户在查看航空公司空时显示机票已经售完。这种行为被称为“虚假职业”。

恶意的“爬虫”导致了用户信息的泄露,浪费了航空公司空公司的带宽资源,也浪费了航空公司空查询的成本。“假席位占用”不仅给航空公司空公司和用户带来经济损失,损害用户的合法权益,而且扰乱航空公司空的正常运营。更重要的是,预订量的波动导致了航空公司空公司收入管理系统算法的误判,导致价格调整不符合实际情况,损害了用户权益和平台声誉。

监测显示,在国务院颁布五一劳动节假期安排后的72小时内,几家航空公司空网站上的“爬虫”流量飙升。其中,假票检查占查询总数的36%以上,一些航空公司空公司甚至有高达99%的假票检查。

“恶意爬虫”

1.访问的目标网页相对集中:“爬虫”代理有一个明确的目标,主要抓取频率、价格和数量等核心信息,所以它只浏览和访问几个固定页面,而不访问其他页面。

2.查询和预订等行为是有规律的:由于“爬行器”被编程为按照预设的过程操作和访问,所以它表现出的不是思维,而是有规律的、有节奏的和连续的行为。

3.同一设备上有大规模的访问和操作:“爬虫”(crawler)的目标是在最短的时间内捕获最多的信息,因此同一设备将会有大量离散的行为,包括访问、浏览、查询等。

4.访问源IP地址异常:正常情况下,用户查询和购买时的IP地址相对稳定。在“爬虫”和“假座位占用”操作中,不同维度的知识产权源地址聚合在一起,在浏览、查询和购票操作中知识产权地址不断变化。

5.设置UA模拟浏览器并频繁使用代理IP:许多“爬虫”程序伪装成浏览器来访问,例如程序头或UA默认包含python-requests/2.18.4等固定字符串;并通过购买或租赁云服务、路由器、租赁知识产权代理、频繁变更代理知识产权访问。

6.运营主要集中在非业务阶段:“爬虫”程序的运行时间主要集中在无人值守阶段。此时,系统监控将会放松,平台的带宽和其他资源将会占用更少。爬虫密集型批量抓取不会影响带宽和接口。以下是图像反欺诈中心的顶级监控,凌晨1-5点是恶意“爬虫”的高峰期。

航空公司空公司的B2C2网站应该如何“爬回去”?

防止恶意“爬虫”的关键是有效识别“爬虫”行为,然后及时阻止它们。传统的防御方法受到知识产权和验证码的限制,但这两种方法都有很大的局限性。

受知识产权地址限制:当同一知识产权和同一台计算机在一定时间内访问网站时,系统会自动限制其访问和浏览等。然而,拦截知识产权的手段可能会误伤真实用户,“爬虫”背后的运营商可以通过购买或租用云服务、改造路由器、租用知识产权代理、频繁更换代理知识产权等方式随时绕过拦截规则。

受验证码限制:当用户访问次数过多时,他会自动将请求跳转到验证码页面。只有输入正确的验证码后,他才能继续访问网站。然而,设置复杂的验证码会影响用户操作,并给客户体验带来负面影响。

传统的方法或措施无法区分恶意的“爬虫”,通过黑白名单识别、客户端预防、验证码保护和风控决策建立防控体系。有效识别恶意“爬虫”行为,拦截敏感数据的爬行,很好地防范恶意爬行的风险。

相关阅读

  • 日本旅游的终极策略——日本旅游路线

  • 西安旅游网哪里好玩
  • 日本旅游线路,“随着日本震后旅游路线的逐渐恢复,日本游仍然是很多国内游客的选择,然而,日本高得离谱的物价,又使很多人望而却步。而日本的物价高也是出了名的,甚至当地生
关键词不能为空

出游计划_旅游度假_旅游景点_旅游攻略_哪里好玩_西安旅游网