<dfn id='NQaXGaLs'></dfn>

        <noscript id='NQaXGaLs'></noscript>

      1. 频道栏目
        首页 > 网络 > 云计算 > 正文

        Spark案例之根据ip地址计算归属地教程

        2019-02-21 11:18:36           
        收藏   我要投稿

        1.需求

        根据访问日志中的ip地址计算出访问者的归属地,并且按照省份,计算出访问次数,最后将计算好的结果写入到Mysql中

        2.思路分析

        1)整理访问日志中的数据,切分出ip字段,然后将ip字段转换成十进制

        2)加载ip地址的规则,取出有用的字段,然后将数据缓存到内存中(Executor中的内存)

        3)将访问日志中的ip与ip地址的规则进行匹配(使用二分查找进行匹配)

        4)取出对应的省份名称,将其和1组合在一起

        5)按照省份名进行聚合

        6)将聚合后的数据写入Mysql

        3.本地模式实现

        有了上边的分析,我们可以现在本地模式下实现一下,在本地模式下实现起来比较简单

        先放上实现代码和效果:

        package cn.ysjh0014
        
        import scala.io.{BufferedSource, Source}
        
        object TestIp {
        
          //将ip地址转换为十进制
          def ip2Long(ip: String): Long = {
            val fragments = ip.split("[.]")
            var ipNum = 0L
            for (i <- 0 until fragments.length) {
              ipNum = fragments(i).toLong | ipNum << 8L
            }
            ipNum
          }
        
          //读取ip规则,并整理
          def readRules(path: String): Array[(Long, Long, String)] = {
            //读取ip规则
            val bf: BufferedSource = Source.fromFile(path)
            val lines: Iterator[String] = bf.getLines()
            //对ip规则进行整理,并放入到内存
            val rules: Array[(Long, Long, String)] = lines.map(line => {
              val fileds = line.split("[|]")
              val startNum = fileds(2).toLong
              val endNum = fileds(3).toLong
              val province = fileds(7)
              (startNum, endNum, province)
            }).toArray
            rules
          }
        
          //二分查找
          def binarySearch(lines: Array[(Long, Long, String)], ip: Long): Int = {
            var low = 0
            var high = lines.length - 1
            while (low <= high) {
              val middle = (low + high) / 2
              if ((ip >= lines(middle)._1) && (ip <= lines(middle)._2))
                return middle
              if (ip < lines(middle)._1)
                high = middle - 1
              else {
                low = middle + 1
              }
            }
            -1
          }
        
          def main(args: Array[String]): Unit = {
            //读取ip规则,这些数据是在内存中
            val rules: Array[(Long, Long, String)] = readRules("D:\\视频\\小牛学堂-2018\\06-Spark安装部署到高级-10天\\spark-04-Spark案例讲解\\课件与代码\\ip\\ip.txt")
        
            //将ip转换为十进制
            val ipNum = ip2Long("120.78.142.230")
        
            //查找
            val index = binarySearch(rules, ipNum)
        
            var Num = "未查找到该ip所在地区"
        
            if (index != -1) {
              Num = rules(index)._3
            }
            print(Num)
          }
        }
        

        运行结果:

        \

        上边测试的ip地址是我买的阿里云的服务器的公网ip地址,广东省深圳市的,还算比较准确,这个ip地址的规则实在淘宝买的,比较早期的,不是很全面

        日志文件及ip地址规则下载: 链接://pan.baidu.com/s/1G0DuO2pTbYCm-Ym6V0KDYw
        提取码:6egh

        上一篇:遗传算法的一些个人看法
        下一篇:IDEA输出jar包步骤流程
        相关文章
        图文推荐

        关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

        版权所有: 第一门户--致力于做实用的IT技术学习网站