猪哥学习群直播第一期:人工智能在银行电信企业中的应用
一年前猪哥在建学习群的时候就说过要邀请企业大佬来群直播,中间因为很多事情给耽搁了,但是一直记在心里,昨天终于完成第一期直播,下面的内容是整理后的文章。
关于直播使用的微信机器人项目猪哥后面也会单独出一个教程写一下,并给出源码供大家学习和使用!
本次直播精华猪哥都整理在一份XMind文件中,文末会给出链接!
一、直播流程
这是咱们群的第一期直播,在直播完成后会有一个关于直播质量的问卷调查,希望大家直播完填写一下,一起努力渐渐提高我们的群直播质量!
下图是本次图文直播的流程,给大家40秒时间看一下。
二、主讲人介绍
主讲人:杨美红,工作十年,主要从事数据分析挖掘和人工智能方向,以下为详细工作履历:
- 2009年开始工作,做运营商营收软件研发。
- 2011年开始到国家质检总局做进出口数据收集平台化,对数据进行挖掘分析和情报自动化汇总处理。
- 2015年加入亚信和品友联合控股的运营商大数据团队,主要做数据挖掘和广告数据投放调优。
- 2018年加入建行金融科技公司北京事业群,做人工智能平台化。
猪哥为什么会邀请杨美红作为咱们群的第一期主讲人,几个月前在一个号主群看到他发的一篇文章:
四、应用在哪些方面
企业中用到的统计学习、数据挖掘、机器学习。
统计学习目前来说,仍然是主流的,简单易用,效果直接粗暴。
同时企业因为和个人应用的频度、广度都有差异,所以企业会平台化,这样对开发的难度、维护难度、设备资源利用率都有较好的提升。(比如开发模板、参考模型、参考算法 ,这些都整合后,比个人的开发要容易)
目前本人了解到的银行类和电信有:
- 银行类:获客营销、合规风控、产品服务、运维经营、住房租赁、普惠金融、智慧城市、政务服务 …智能反欺诈…智能客服
- 电信类:互联网广告推荐、电商类反作弊、反薅羊毛、人群流量监控、区域拥堵预测、交通调控。
数据挖掘:电信运营商、程序化广告, 目前主流技术仍然是spark+hadoop+yarn模式
机器学习:尤其是结构化数据的,基本上都是hadoop+spark
五、用到了哪些技术
可以把使用到的技术分成四大类:
- 主流的计算框架:SparkMLlib、TensorFlow、Caffe、pySpark、pyTorch等
- 软件:ApacheTomcat 、python、 docker、springCloud、kubernetes、mysql、redis
- 辅助软件:jenkins、git、gerrit
- 数据集成:Hadoop、Kylin
这些技术不是孤立的,好多都是多个互相协作完成产品功能。如政务服务:要求有市民提交图像的识别、提交文字的情感和反恐等识别,提交图像又可能是丢了东西,也可能是小孩走失,处理优先级是不一样的。 如A计算框架可能对动物识别比较好,B计算框架可能对静物识别好,C框架可能对人脸识别比较好,这时候就可能需要三个框架结合,采取合理的顺序进行衔接,才能让政务的处理看起来更合理,更智能。
六、具体的案例
因为本人主要从事电信和银行业相关,所以具体的案例就从这两个行业讲讲吧!
1.电信业人工智能
目前落地的经历过的有 广告推荐 、电商类反作弊、反薅羊毛、人群流量监控(地理位置)、犯罪追踪(通过地理位置时序变迁、上网记录、联系人知识图谱 等手段,能够快速的筛选出犯罪嫌疑人,重点监控)。
电信运营商数据和阿里、腾讯等数据的异同点:
- 同:均可以对一个人的长久的、持续的数据进行处理。
- 异:阿里的数据偏向于购物、目前多了钉钉,有职场社交;腾讯的偏社交、游戏、京东购物;电信运营商的2者兼有,但是颗粒度不够细,三者各有优缺点。
2.银行业人工智能
首先说,在大多数公司,所谓的算法,是通过程序体现的,这最基本的就要求团队有三类人:
- 有需要了解的业务,业务人员对需求的描述;
- 建模人员对算法和模型使用的规划;
- 开发人员进行开发、对反馈进行分析有调优。
国内银行业的性质,决定了它对人工智能的应用、实现主要还是体现在银行相关、少数是政府类项目相关。跨界的比较少。
- 政务服务:采用tensorflow、caffe、 keras 做 图片识别和处理方向的服务,语言情感的判断、涉黄涉恐的判断。
- 反欺诈: 对信用卡的开卡、各种银行卡的盗刷行为进行监控。
- 普惠金融:根据人群资料的划分,进行贷款额度管理与控制。
- 运维监控:银行业特殊的是监控方面,和安防比较像,视频监控(生产机房监控、数据中心监控)、进出记录监控(如明显异常出入机房)、操作记录监控(如 某个账号大量的、突发的不合理操作进行预警)。
七、建议掌握的技术
如果你对人工智能确实感兴趣,那个人给你些实际的建议,重点分为2个部分:大数据和人工智能。
1.大数据
大数据方面做好工作的要求:
- 对sql的理解。
- 能够对产品需求有一定的熟悉,通过多个途径、手段设计实现方式。
- 对算法有一定了解。(如统计类的贝叶斯之类,是做什么的,大概在什么场景,广告类的lookalike 大体是怎么做到的)对其他大厂要求的算法,leedcode可以刷到。
2.人工智能
精通一个 、基础扎实、适应快,都可以作为自己的出发点,团队里肯定是算法的最重要,最好知晓一些,其他方向也需要了解,毕竟只有算法的话,算是有了添加剂,做成什么样的食品还得靠全体努力。
银行和电信业都是对高新技术不算太敏感的行业,所以个人说的可能也是比较陈旧,希望大家理解,希望能够抛转引玉,对大家有帮助,谢谢。
八、问题解答
在主讲人开始之前,猪哥在朋友圈征集了一些问题,大佬都一一为大家耐心解答。
猪哥整理了一下,将问题归为三类:技术类、职业类、个人类
1.技术类
问:深度学习优化调参
答:目前来说,我们这边的同事也主要是凭感觉和常识:大概正确率要到多少,比较流行的是训练多少轮。比如60轮。
问:CNN
答:抱歉,这个我接触的也不多,建议网上搜索学习。
问:图像和模式识别
答:目前主流的框架有TensorFlow、Caffe、包装过的Keras,都可以根据官方教程学入门的。深入的话,涉及算法层面的有能力修改的人还是比较少,主要还是样本和调参要玩的好一些,容易工程实现。
问:图像多示例学习
答:可以对标注数据进行部分改变,或者标注后的分类进行修改,然后重新训练或者累积训练。或者采用不同的算法框架,添加多个判断逻辑,进行区分。比如第一部分辨动物和植物,第二步分辨 人和其他动物。
问:坐标和编码规则,在分子结构的数学表示上给建议,可以包含更多的信息
答:抱歉,这个方向我没涉及过,这块我不能给出建议
问:GBDT的形状
答:交个底,我对算法的研究基本上是0,只停留在知晓的水平。 gbdt 目前主流的是残差收敛、梯度下降。 都是迭代。形状这块不懂。 样本和特征选择,根据经验来说,尽量选择比较均衡的样本,这样训练的结果效果好,也容易解释。