2人赞同了该回答
近几年,大数据不可谓不火,尤其是2017年,发展大数据产业被写入政府工作报告中,大数据开始不只是出现在企业的战略中,也开始出现在政府的规划之内,可以说是互联网世界的宠儿。
据数联寻英发布《大数据人才报告》显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万,越来越多人加入到大数据培训,都希望在大数据培训机构中学习最前沿的知识,找一份不错的工作。
大数据产业的背景
据职业社交平台LinkedIn发布的《2016年中国互联网最热职位人才报告》显示,研发工程师、产品经理、人力资源、市场营销、运营和数据分析是当下中国互联网行业需求最旺盛的六类人才职位。其中研发工程师需求量最大,而数据分析人才最为稀缺。领英报告表明,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺。数据分析人才跳槽速度也最快,平均跳槽速度为19.8个月。
根据中国商业联合会数据分析专业委员会统计,未来中国基础性数据分析人才缺口将达到1400万,而在BAT企业招聘的职位里,60%以上都在招大数据人才。
大数据就业方向
Java大数据毕业之后的主要从事工作举例如下:
1.大数据开发工程师
基础大数据服务平台,大中型的商业应用包括我们常说的企业级应用(主要指复杂的大企业的软件系统)、各种类型的网站等。负责搭建大数据应用平台以及开发分析应用程序。
2.大数据分析师
负责数据挖掘工作,运用Hive、Hbase等技术,专门对从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。以及通过使用新型数据可视化工具如Spotifre,Qlikview和Tableau,对数据进行数据可视化和数据呈现。
大数据就业的钱景(薪酬)
大数据开发工程师
北京大数据开发平均工资:¥ 30230/月。
数据分析师
北京数据分析平均工资:¥10630/月,取自15526份样本,较2016年,增长9.4%。
Hadoop开发工程师
北京hadoop平均工资:¥20130/月,取自1734份样本。
数据挖掘工程师
北京数据挖掘平均工资:¥21740/月,取自3449份样本,较2016年,增长20.3%。
算法工程师
北京算法工程师平均工资:¥22640/月,取自10176份样本。
目前,大数据人才数量较少,但是在数据驱动的未来,大数据人才市场势必会越来越大,而现在仅仅是大数据起步的初级阶段,现在入行正是恰逢其时。
近日,网上流行的一段非洲小哥自称“要回家避暑”的视频,迎来众多网友的围观。去非洲大陆旅游真的能避暑吗 记者了解到,由于南北半球季节相反,加之非洲东部和南部都是高原,海拔在一千米以上,目前,赤道以南的肯尼亚、南非、毛里求斯等旅游目的地正处于一年之中最凉爽的季节,温度非常适宜。此外,签证利好、航班增加、特色旅游资源丰富等因素,今年国内赴非洲旅游非常热门。
暑期人次上涨近2倍 毛里求斯、肯尼亚成“人气王”
随着旅游消费的不断升级,人们越来越追求个性化、品质游,不少具有独特体验的旅游目的地受到消费者的青睐。驴妈妈旅游网数据显示,今年暑期赴非游预订人次同比上涨近2倍,赴非旅游热情持续高涨,8月中上旬将迎来暑期出游最高峰。
其中,追求独特旅游体验且有一定经济实力的25-40岁游客是赴非洲旅游的主力客群,该年龄段占比超7成;国内城市中,上海、成都、北京、广州、深圳、昆明、西安、南京、武汉、无锡成为十大热门客源地。网络大数据显示,国内游客暑期最爱的非洲避暑旅游目的地依次为毛里求斯、肯尼亚、摩洛哥、南非和突尼斯;整体价格较去年同期基本持平,集中在1-2万元之间,出游天数多在8天以上。
驴妈妈 公关部负责人李秋妍表示,近年来,赴非游市场持续向好发展,成为出境游新兴热门目的地,一方面是因为许多非洲国家对中国游客持开放态度,陆续对华实施免签政策,如毛里求斯、摩洛哥、突尼斯都已对华免签,刺激着中国游客的出游热情;另一方面,非洲拥有许多独特的旅游资源,如肯尼亚动物大迁徙、在摩洛哥跟着《卡萨布兰卡》去旅行等,对追求个性化、品质游的中国游客有着极大的吸引力。
亲子家庭预订占比达5成 “驴悦亲子”线路受追捧
与传统看法不同的是,虽然国内赴非洲旅游路途遥远,飞行时间单程均在12个小时以上,但仍然有非常多的家长热衷于带孩子前往非洲,体验身临其境的动物世界。驴妈妈旅游网数据显示,今年暑期赴非洲游客中,亲子家庭占比接近5成,比去年提升近2成。
在众多的赴非游线路中,以亲子家庭量身定制、包含丰富的亲子体验课程,尤其受到家长的欢迎。比如一款“南非开普敦、约翰内斯堡、比勒陀利亚、太阳城5晚8日深度游”线路,不但能体验创意独特的人造海滩浴场、山崩地裂塌陷之感的地震桥、建筑失落城,还能在海豹岛,看成千上万只海豹戏水、嬉戏;游企鹅滩,让孩子与南非企鹅零距离接触等,预订人气爆棚。
记者了解到,由于近期国内酷暑及网络事件传播,非洲游意外成为暑期热门旅游目的地,前往肯尼亚、南非等线路大部分已经售罄,只有部分线路8月份还有团期。
来源:中国经济网
1. 分解思路
做互联网运营的数据分析,首先就是学会“分解”。将数据分解,将问题分解。所有的数据都可以层层向下分解,找出更多的“子数据”,通过对子数据的挖掘和优化,往往能逐个击破,找到方向,提升最后的“关键指标”。这个重要的思路也贯穿了本文章下面几乎所有的内容。很多时候我们找不到努力的方向,往往是分解的能力还不够,只盯着最后大的成交额指标不放,不去挖掘这个指标下面的相关因素,而这些因素就是所谓的细节,做好了,就成为“极致”。
分解思路还有一个好处是可以帮助运营更好的分工,进行组织架构的优化调整。使员工更专业,更聚焦到某一块业务上,从而培养出一个细分职能的专家,当每个细分职能都有专家时,又会反应在运营细节的完美上。
2. 追踪思路
运营的问题,是追踪出来的,不是一次就看出来的。所有的数据都是靠积累和沉淀才能发现问题,单一的数字没有任何意义,只能称为 “数值”。比如一个店铺今天的流量是2000,转化率1.5%,成交额3000 ,好还是不好,进步还是退步了,不知道。只有放到近1周,近1个月,甚至是近1年的数据中,组成线性的趋势去研究,才能找到“问题”,这个时候的数据才是有意义的。
所以,无论到哪一个阶段的店铺,都要养成一个每日积累数据的习惯,我们知道淘宝后台会有成熟的数据产品,会给你看一个趋势和历史数据,但这个远远不够,需要把所有数据都摘录到自己的数据库中,结合不同数据维度去综合分析问题,建立追踪机制,也就是下面讲的“结合思路”。中型以上的电商都会有一套自己的数据管理模式,对重点指标进行监控,以保证及时定位到问题作出相应决策。
3. 结合思路
单独追踪一个数据的会比较“片面”,得出结论甚至是错误的。因为所有电商的核心数据在一段时间内,具备偶然性和关联性的。
偶然性是指,可能某一天,转化率突然降低,比日常要低很多,这个是非常可能发生的。于是,所有人都惊慌失措,找到转化率相关的因素,看产品详情页的设计,产品的价格,找客服聊天记录,“优化了”整整1天详情页的设计,使产品价格更低了,售前客服被整顿了。最后发现一切照旧,还浪费了1天时间做了很多无用的工作。
关联性是指,大部分指标都是具有关联性,正相关或者负相关,转化率突然的降低,最后发现是在昨天流量突然暴涨,再看看流量来源,大部分来自于推广流量,不精准,但人多。
所以,追踪数据一定是多个维度一起看的,一般来说,转化率和流量是负相关的,流量暴涨,转化率就会下降;转化率上升,客单价就会下降。(大型促销活动除外)
但是,追踪了数据,多个维度结合了来分析数据,结论依然可能会不准确,原因在于,这2个思路都是在和“自己比”,我们还需要进行“与其他人对比”。这就是下面介绍的“对比思路”。
4. 对比思路
对比就是和其他人比。这个其他人一定要选择“合适的”。可以是与自己品牌定位相似的店铺数据,也可以是同行业中做的比较好的店铺数据。最具有可比性的还是跟自己“同层级”店铺。通过对比,才能发现自己差距到底在哪,找到优化的正确方向。
实际案例,之前做微波炉产品,销售量一直不如竞争品牌—格兰仕,然后去分析数据发现流量差很多。于是加大了展示类(钻石展位,CPM)和竞价类(直通车,CPC)广告的投入,却发现收效甚微,甚至牺牲了大部分利润。最后我们拿着同类型的一个产品,做了深度对比分析,发现流量来源中,自然搜索相差比较大,才发现是品牌认知的问题。于是推动品牌商着重于对产品品牌的打造。
5. 节点思路
节点思路就是将大的营销事件作为节点单独标记,数据剔除出来单独进行分析。在日常运营中,营销活动对数据影响还是非常大的,尤其是突然参加了淘宝官方的活动,比如聚划算等,会让某几天的流量,转化率,成交额飙升,这个时候我们再将这些数据插入到日常运营数据分析中,就会引起“失真”,影响对店铺日常运营优化方向的判断。
6. 锚点思路
锚点思路有2层含义,第一个含义是在做业务数据分析中,当存在多个因子影响一个数据指标时,只留一个因子做变量,其他因子保持不变,然后测试这个因子对于最终指标影响的程度。比如,下面会讲到的转化率,有6个因子与之有关,但每个因子对于转化率的影响又不相同,这个时候,需要进行一个小测试,保持1个因子变动,其他5个不变,放到市场中实际销售,最终得出这个因子与转化率的具体影响关系,以便后续做更多优化。
第二层含义是产品竞争力层面。通过锚点策略可以让用户更快速的做决策,使产品销售的更好。比如,A和B两个店铺经营同一个品牌,这个品牌下面有1号和2号产品,这个时候,A店铺与B店铺沟通,A主力卖1号,B主力卖2号,这时,A可以把2号产品价格标高,以便帮助B店铺做价格“锚点”,让用户知道B店铺2号产品确实有价格优势,这样用户决策将加快。A店铺也同理。
7. 行为标记思路
行为标记法,就是将大动作的优化,大的项目上线及时标注在数据报表中。以便在后面通过数据检验是否是有效。因为大部分的优化导致的结果,都是“滞后”的,也就是说,一个大的优化动作,可能在1个月后才能体现出来效果,甚至是半年后才会有效果。当然,也有些优化动作是即时的,比如宝贝标题对于搜索结果的影响。无论怎样,在运营过程中我们要明确的知道,哪些事情是花费了大量时间有效的,哪些是无效的。
之前我们做产品包装优化,用了1个月与品牌商沟通,品牌商再通过各种测试,实验,采购新的包装材料,2个月后我们给用户发出的货就都是新包装的产品了。但是,在采用新包装产品1个月后,退货率只是缓慢下降,到第2个月后才明确的在财务表中提现,因破损造成的退货下降了很多,用户体验好了,再1个月后回购率也提升了。进而提升了整个店铺销量和好评率。
以上7种思路是数据分析基础,下面将落实到具体每个运营指标的优化,你将看到所有指标都被7种思路的某一种或某几种所贯穿。有了这样的分析思路,无论做哪一块内容,都将快速的找到核心问题,进而再找到解决问题的方法。
随着大数据技术的不断提高,大数据应用的不断普及,大数据与各行各业的关系越来越紧密。大数据行业充斥着大量的专业词汇,准确掌握和了解这些词汇的含义,有助于更好的理解大数据,更好地利用大数据技术。以下整理了以数据处理为中心的14个大数据专业词汇, 一起来看看吧~~~
本地数据库(LDB/Local Data Base)
本地数据库是指驻留于运行客户应用程序的机器的数据库。本地数据库位于本地磁盘或局域网。典型的本地数据库有Paradox、dBASE、FoxPro和ACCCSS。
数据采集(Data Acquisition,DAQ)
数据采集又称数据获取,将被测试对象的各种参量通过各种传感器做适当转换后,再经过信号调理、采样、量化、编码、传输等步骤传递到控制器的过程。
数据采集的一般步骤:①用传感器感受各种物理量,并把它们转换成电信号;②通过A/D转换,模拟量的数据转变成数字量的数据;③数据的记录,打印输出或存入磁盘文件。④生产厂商为该采集系统编制的专用程序,常用于大型专用系统;⑤固化的采集程序,常用于小型专用系统;⑥利用生产厂商提供的软件工具,用户自行编制的采集程序,主要用于组合式系统。
数据模型(data model)
数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型是数据库中数据的存储方式,是数据库系统的基础。在数据库中,数据的物理结构又称数据的存储结构,就是数据元素在计算机存储器中的表示及其配置;数据的逻辑结构则是指数据元素之间的逻辑关系,它是数据在用户或程序员面前的表现形式,数据的存储结构不一定与逻辑结构一致。
数据整理(Data Cleansing)
数据整理是对调查、观察、实验等研究活动中所搜集到的资料进行检验、归类编码和数字编码的过程,是数据统计分析的基础。
数据处理(Data Handling)
数据处理是指对数据(包括数值的和非数值的)进行分析和加工的技术过程。也就是对数据的采集、存储、检索、加工、变换和传输,将数据转换为信息的过程。
数据压缩(Data Compression)
数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少数据的存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。
数据恢复(Data Recovery)
数据恢复是指通过技术手段,将保存在台式机硬盘、笔记本硬盘、服务器硬盘、移动硬盘、U盘等等设备上由于各种原因导致损伤或丢失的数据进行抢救和恢复的技术。
数据集成(Data Integration)
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。数据集成维护了数据源整体上的数据一致性、提高信息共享利用的效率。
数据迁移(Data Migration)
数据迁移又称分级存储管理,是一种将离线存储与在线存储融合的技术。将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,将磁盘中常用的数据按指定策略自动迁移到磁带库等二级容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。
数据冗余(Data Redundancy)
数据冗余是指同一个数据在系统中多次重复出现。消除数据冗余的目的是为了避免更新时可能出现的问题,以便保持数据的一致性。
数据抽取
数据抽取是指从源数据源系统抽取目的数据源系统需要的数据的过程。
网络数据抽取 (Web data mining)
网络数据抽取(Web data mining),是指从网络中取得大量的又利用价值的数字化信息。主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Informationintegreation)和观点挖掘(Opinion mining)等。
结构化数据抽取的目标是从Web页面中抽取结构化数据。这些结构化数据往往存储在后台数据库中,由网页按一定格式承载着展示给用户。例如论坛列表页面、Blog页面、搜索引擎结果页面等。信息集成是针对结构化数据而言,其目标是将从不同网站中抽取出的数据统一化后集成入库。其关键问题是如何从不同网站的数据表中识别出意义相同的数据并统一存储。
数据标准化(data standardization)
数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。
数据备份(Data Backup)
数据备份是容灾的基础,为防着系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从原来存储的地方复制到其他地方的活动,将数据遭受破坏的程度减到最小。传统的数据备份主要采用内置或外置的磁带机进行冷备份。这种方式只能防止操作失误等人为故障,其恢复时间也很长。现代企业采用网络备份,通过专业的数据存储管理软件结合相应硬件和存储设备来实现备份。
完全备份(Full Backup)。优点是当发生数据丢失的灾难时,可以迅速恢复丢失的数据。不足之处是每天都对整个系统进行完全备份,造成备份的数据大量重复。
增量备份(Incremental Backup)。先实施一次完全备份,后续时间里只要对当天的或修改过的数据进行备份。优点:节省了磁盘空间,缩短了备份时间;缺点是数据恢复比较麻烦,备份的可靠性很差。
差分备份(Differential Backup)。先实施一次完全备份,再将当天所有与备份不同的数据(新的或修改过的)备份到磁盘上。该策略避免了以上两种策略缺陷的同时,具备其所有优点。首先,它无须每天都对系统做完全备份,所需的备份时间短,节省磁盘空间。其次,数据恢复方便。一旦发生问题,用户只需使用完全备份和发生问题前一天的备份就可以将系统恢复。
丢一块石头到水里会发生什么 人工智能可以战胜围棋大师,却会被这样的简单问题难倒:对自然语言的处理仍是一个待解难题。
7月23日在北京举行的第二届语言与智能高峰论坛上,业界专家就人工智能如何突破自然语言处理展开研讨,并向公众展示了语言智能领域的创新成果。
论坛由中国计算机学会和中国中文信息学会共同主办。中国计算机学会中文信息技术专委会秘书长赵东岩说,论坛旨在达成三个目标:讨论自然语言处理的核心技术问题;推动产学研互动;增加语言智能研究领域的显示度,给学者、创新技术企业提供展示平台。
“自然语言处理是当前人工智能研究的核心问题。”中国计算机学会秘书长杜子德介绍,语言智能是人工智能“皇冠上的明珠”,如果语言智能实现突破,跟它同属认知智能的知识和推理就会得到长足发展,进而推动整个人工智能体系的进步。
“自然语言是不精确的,字面背后还有太多意思,这也是为什么自然语言处理如此困难的原因。”美国伊利诺伊大学芝加哥分校教授刘兵在论坛上说。自然语言处理若想突破,需要做出范式上的改变。
“图灵测试”被公认为测试计算机是否具有智能的实验,在这个实验中,人和计算机的问答都是通过自然语言进行。中国工程院院士、北京大学教授高文在论坛报告中进一步提出,要将图灵测试的问题内容拓展到视觉内容交互问答,即讨论如何定义和设计图灵视觉测试,以及在此基础上如何推进人工智能的演进。
特许全球金融科技师(CGFT®)..
特许全球金融科技师简介 特许全球金融科技师(CGFT)是上海高金金融研究院在上海交通大学上海高级金融学院的学术指导下,倾力打造...
7月份,在经历了长达几个月外界对苹果AI技术落后的质疑后,苹果又有了一些新动作,首先是在7月20日上线了苹果机器学习官方博客(Apple Machine Learning Journal),并发表了第一篇博文;其次提交的论文被CVPR 2017收录,获最佳论文。
苹果CEO库克面对外界对苹果AI技术落后的质疑,曾向媒体回应说,苹果精神是“just work ”(实干精神),之所以外界看不到苹果AI技术的进展,是因为苹果只喜欢谈论即将上线的产品功能。这么来看,公众最多只能通过公开的博客和学术论文中了解到苹果在AI领域研究的大方向,而关于这些研究的应用以及进度,只能靠猜测了。
不过笔者编辑在网上找到了一些PPT。这些PPT是在去年的12月6日,一个仅面向受邀者参加的行业AI大会的午餐会上,苹果公司机器学习负责人罗斯·萨拉克丁诺夫(Russ Salakhutdinov)和其他苹果员工进行的议题讨论,详细介绍了苹果公司在AI领域的一些进展。
无人驾驶领域
根据参会者的描绘:
会上一张幻灯片上有两张非常有特色的汽车图片,该幻灯片汇总了苹果公司的研究,说明了“LiDAR的体积检测”和“结构化输出预测”。
对于现如今的无人驾驶技术而言,LiDAR或光感测距(和雷达类似,但借助激光)以及物理事件预测都是非常重要的组成部分。不过,鉴于所介绍的内容比较敏感,两名不愿透露姓名的参会者强调,苹果公司并没有提及他们的造车理想。
今年6月份,库克首次公开谈论了正在开发的代号为Project Titan 无人驾驶项目。但只是声称在做无人驾驶技术的研发,对是否会自主制造汽车,库克并没有给出答案。
而英国《每日邮报》7月21日有文爆料,苹果正与一家中国公司合作研发汽车电池, 这家公司名字叫时代新能源科技有限公司(CATL)。CATL曾经隶属新能源技术有限公司,为苹果产品供应电池,但后来脱离后者成为一个独立实体。CATL目前为电动巴士、电动客车、电动卡车和固定能量储存供应电池组。
由此可见,苹果的野心并不只是研发自动驾驶系统那么简单。
AI专用芯片
对于算法在图形处理单元或GPU(常用于服务器端加速深度学习的处理速度)上的运行效率,苹果还是非常自豪的。一张幻灯片指出,苹果的图像识别算法每秒钟处理的照片是谷歌的两倍,谷歌每秒处理1500张,而他们每秒可以处理3000张,而且大体上只需要1/3的GPU。这种比较是基于在Amazon Web Services(一个云计算的标准)上运行算法做出的。
虽然其他公司正开始基于专用芯片来加速AI工作,如谷歌的TPU(张量处理单元)和微软的FPGA(现场可编程逻辑闸阵列),值得注意的是,苹果是基于标准的GPU。不过,苹果是否为了匹配其客制化客户硬件而构建了自己的客制化GPU,还是从像英伟达这样的大型制造商购买,并没有详细介绍。
另外,苹果用来训练其神经网络识别图像的图片库似乎是专有的,其规模几乎是标准ImageNet数据库的两倍。
神经网络工具Core ML
神经网络工具Core ML, 它构建的神经网络比原始神经网络小4.5倍,精度却没有损失,速度比原先快两倍。在AI研究领域,这项技术使用更强大的神经网络训练另一个网络,使其知道在各种情况下做什么决策。然后,这位“学生”(student)网络就会具备“老师”(teacher)网络知识的精简版本。本质上,对于给定的照片或音频样本,它能做出更大网络的预测。通过精简神经网络,iPhone和iPad可以识别照片中的人脸和位置,或者了解用户的心率变化,并且不需要依赖远程服务器。将这些处理过程封装在手机里可以让这项功能随处可用,而且,这还使得数据无需加密,也无需通过无线网络传输。
Core ML
对于希望将AI构建到自己的iOS应用的开发人员而言,苹果构建的这一套机器学习模型和应用程序协议接口(API),即Core ML,非常有帮助。开发人员可以使用这些工具将图像识别构建到照片应用中,或者引入自然语言处理技术到一个聊天机器人中,可以理解用户所说的内容。
苹果首先发布了其中四个图像识别模型以及一个面向计算机视觉和自然语言处理的API。这些工具在用户设备本地运行,也就是说,数据仍然是私有的,永远不需要在云上进行处理。
此外,苹果还让AI开发人员可以很容易地将他们自己喜欢的AI引入苹果设备。某些种类的深度神经网络可以直接转换为Core ML。
苹果现在提供了Caffe和Keras支持,前者是由加州大学伯克利分校开发的一款用于构建和训练神经网络的开源软件,后者是一个可以简化那个过程的工具。值得注意的是,它不支持谷歌的开源AI框架TensorFlow。不过,创建者可以构建自己的转换器。
在苹果提供的预训练模型中,有一部分是开源的谷歌代码,主要面向图像识别。
需要说明的是:苹果并不是第一个发布可在移动设备运行的深度学习工具的公司。
在WWDC之前的谷歌I/O大会上,谷歌发布了“为移动而生”的TensorFlow Lite,它将允许开发人员在用户的移动设备上实时地运行人工智能应用,有多款在移动设备上使用 TensorFlow 做翻译、风格化等工作;TensorFlow 在移动设备 CPU(高通 820)上,能够达到更高的性能和更低的功耗。
而早在 2016 年 11 月,Facebook 就已经发布了一个称为 Caffe2Go 的架构。Caffe2Go 用于实时风格转移(Style Transfer),即在用户的移动设备添加了类艺术(Art-like)过滤器。在今年的 F8 大会上, Facebook 进一步发布了 Caffe2,正式支持移动平台。而除此之外,MxNet 深度学习框架也支持多个平台,包括移动设备。
和Tensorflow、Caffe等深度学习框架不同,Core ML是完全聚集于在设备端本地进行深度学习推理的框架,而其它框架除了支持本地设备端同时也支持云端,能够推理也支持训练。苹果宣传Inception v3速度是Tensorflow的6倍,这是通过MetalAPI对于GPU能力充分利用的结果。
相较于其他移动端深度学习框架,Core ML看起来更方便使用。苹果很聪明的定义了一个标准的模型格式(.mlmodel),提供了流行的框架模型到该格式的转换工具,比如你可以将你的Caffe模型转换成Core ML的模型格式。这样就可以利用各个模型的训练阶段,而不像TensorflowLite只能使用Tensorflow模型。模型训练好了之后,只要拖放到XCode中就可以使用,苹果甚至把接口的Swift代码都生成好了,非常方便。
从目前的情况看来,Core ML似乎在移动端上的表现更胜一筹,但是将来是否真的可以保持稳定发挥,还得靠时间来检验。
苹果系统中AI应用
苹果在之前的开发者大会上的主题演讲中清楚地向大家表明,发生在手机上的每个动作都会被记录,然后由操作系统的一系列机器学习算法进行分析,判断是否预示着用户希望要做一个日历预约、拨打一个电话,或者制作更好的动态照片。像Apple music的听歌推荐,通过对用户听歌记录的学习来调整作出相应的推荐;iphone的电池续航,手机的电池管理系统使用了机器学习,了解了用户的使用习惯并作出相应的调整,使续航更持久。
另外从Siri的声音也可以看出苹果用到了机器学习。他们不再使用预先录制好的标准答案,现在,Siri的声音完全是由AI生成的。这样更灵活(苹果在大会上示范了四种不同的音调),随着技术的发展,它听上去会越来越像真人(苹果的竞争对手离这个目标已经不远了)。
学术研究
苹果只发表了一篇论文,并且获得了CVPR 2017最佳论文。苹果AI研究负责人Ruslan Salakhutdinov一直在做巡回演讲(很大程度上是为了招聘到AI顶尖人才)。举例来说,他在Nvidia的GPU技术大会上了发表了演讲,之后他还会在纽约发表演讲。此外,去年年底,在Salakhutdinov上任后不久,苹果在一个重大的AI会议上和他们的竞争对手举行了一场闭门会议。但是,就目前竞争激烈的AI市场来讲,论文和演讲的威慑力似乎远不如实在的研究成果来的强大。苹果公司如果想成为全球AI领跑者,未来的路似乎并不好走。
参考资料:
1.https://qz.com/856546/inside-the-secret-meeting-where-apple-aapl-revealed-the-state-of-its-ai-research/
2.https://qz.com/999235/apple-is-finally-serious-about-artificial-intelligence/
一直以来都有两个观点:
1,当你不能够用生活中的例子来讲明白你所懂技术的时候,也许就是你自身对该技术理解深度不到位。
2,牛人分两种,一种是把自己所会的技术讲的所有人都能听明白,而另一种就是讲的只有一小部分高手能听懂……..
最近开始泡知乎论坛,买了一些Live开始学习。才发现自己对数据挖掘行业的认知浅薄,才知道自己该努力的方向。于是就有了今天的这篇文章:
大数据是什么?它跟柴米油盐有什么样的关系?大数据跟数据科学家,数据挖掘,算法工程师又有什么关系?
实际上,最近一年。嚷嚷大数据的人很多,而这个词的热度也丝毫不减。而个人认为,大数据重要的是思维,是商业模式,而不是技术!大数据的这一思维能带给我们什么?不再是传统的拍脑袋做决定,而是依靠我们所拥有的数据跟行业经验,在这方面,行业经验非常重要。这也就是为什么互联网公司要想在传统行业做大数据分析必须要找到一个在这个行业经验很多的人的原因。
记得一次中午吃饭,跟同事们就聊起了什么是大数据,什么是云计算的话题。实际很简单,我们吃饭的餐盘就是云,而我们食物就是大数据。而同事不是不知道云,他是不智道云跟我们有什么关系?它能带给我们什么?能给现在的工作提供哪些便利?
云只是一个平台,重要的还是它的内容。我们用完餐,就会把餐盘放到收餐台上。而食物是我们所要吸收的,餐盘里不同的小格子可以放不同的食物,这些食物有些是大块,有些是小块,这些就相当于数据前期 的整理。专业点的说法就是数据清理,或者叫ETL。
2,它跟柴米油盐有什么样的关系呢?
要做好一道菜,或是做出一顿美食。缺少不了柴米油盐,就相当于有了数据,我们不仅要有烹饪的工具,而且还要有烹饪的技术。最近在看舌尖系列,就觉得中国人烹饪美食的技术不亚于现在IT的相关技术。只不过是我们都忽略了老祖宗的一些东西罢了……..
当我们把食材准备好的时候,我们就需要开始烹饪了。这里就拿我的拿手菜(茄子烧肉)来举例子吧:茄子有很多的切法,可以切条,也可以切丁(就是那种小块)。而肉也是可以切成丝,也可以切成丁,同时也可以切成肉沫(这就是借助搅拌机了)。这些数据原始加工的过程,很大程度上决定了你最终分析出来的结果。有人的喜欢吃茄丁,有的人喜欢吃肉沫,有的人喜欢大块的肉…………而不同人的喜好决定了你的分析目标是什么?这也就是为什么数据挖掘里分析目标的关键性。
当你有了分析目标之后,后边的油,盐,调料的多少就有了判断。而油是所有抄菜基上必须的一道步骤,这一步就相当于数据分析里的去缺失值,数据统计这一步。大体统计出数据的一个整体质量,有多少缺失值?中位数与平均数是否相等?是否符合正态分析?数据是呈现离散的,还是连续的?基本上都是在热锅的这一部分所要思考的。油热的好,葱姜蒜的香味就能出来,热不好,葱姜蒜有可能就糊锅了。后边抄菜的香味就出不来了。
3,大数据跟数据科学家,数据挖掘,算法工程师又有什么关系?
数据科学家:厨师长
数据科学家这个概念,最早听到是在IBM的一次沙龙活动中听到的。当时我们小团队也稀里糊涂拿到了优胜奖,以为我们就可以是数据科学家了。现在想想,真的是too young,too native。科学家那有那么简单的事。而大数据就是一个跟柴米油盐的工种,离科学家还有很远的距离!
当掌握了大数据思维之后,你也要跟实际的业务相关连。相当于你知道如何抄这个菜之后,食材的选择,新鲜程度如何这一方面你也需要掌握。同时你也要了解到当下这个菜的大体定价………..等等一系列的东西,有数据有关的,与数据无关的。你都要掌握你可以成为一个合格的数据科学家。否则,还是不要拿这个title出去忽悠人。
数据挖掘:创作厨师
至于数据挖掘,就你要你自创一个菜。刚开始学抄菜的时候,我们都是按照食谱一个一个的学着抄的。而到后期,当家人特别爱吃某两个菜的时候,你就要学会来调和这种菜的做法。比如,在做好鲫鱼豆腐汤的时候,是否要把冬瓜跟粉丝也放在一起。而当这样尝试之后,有的会成为一道更加美味的菜肴。而有的就不那以好吃了。
从以上的角度来看,数据挖掘==自创菜,而数据分析==照菜谱抄菜。这样我们就能看出这两者的差别了。一个是有分析目标,一个是没有分析目标。数据挖掘有可能会为公司创造更大业绩,也有可能失败。就是因为你不知道你挖掘出来的目标是否符合公司的业务要求,或者说你挖掘出来的客户都很好,但在业务执行的时候就是会出很多问题。
算法工程师:火候厨师
实际上,算法工程师在大数据行业里是很重要的。经常见到的说法就是:代码工程师好招。而是一个好的算法工程师难遇。换在古代的说法就是:千军易得,名将难求!
在大一点的饭店,你都会发现,客人在等餐的时间都会很长。而如何加快上餐速度。如何最快的烹饪好食物,并摆盘上菜。这一块是很有讲究的。而算法工程师,他们需要了解客户的业务,同时也要了解自己数据系统的性能。只有这两者相结合,才能更好的从业务角度来优化自己的数据架构。在这里,想起当时导师跟我讲的一个例子,中国人在写C的时候,爱用指针去调用内存,而在国外有些成熟的公司里都是用数组堆栈来直接调用。因为系统的延迟效应也是决定着你的最终成败。
在IT行业分工越来越细的今天,算法工程师的价值越来越大,有可能一个公司。一个算法工程师就相当于10个代码人员的工作效果。这里提到的不是效率,而是效果。因为最终的业务落地需要有内在的算法支持,但更重要的是你的代码逻辑表达。
好了,这次就先写到这吧!以后会坚持写的,希望能把抄菜大数据系列写完。最后,还是要感谢下公司,不定期的发菜(按照惯例,最后还是放上一道学会抄的菜),让我对各种菜谱开始了学习,在不能学习技术的同时,抄菜过程中也是对所学的知识进行深入思考。希望自己未来能抄得一手好菜,也能在大数据上精进一些,加油!
End.
现如今,卷积神经网络在人工智能领域应用的广泛性及重要性可谓是不言而喻。为了让大家对卷积的类型有一个清晰明了的认识,我可以快速概述不同类型的卷积及其好处。为了简单起见,我仅关注二维卷积。
卷积(Convolutions)
首先,我们需要就定义卷积层的几个参数。
图1 二维卷积、内核大小为 3、步幅为 1
内核大小:内核大小定义了卷积的视野。二维的常见选择是3——即3x3像素。
步幅:步幅定义了遍历图像时内核的步长。虽然它的默认值通常为1,但我们可以使用2的步长,类似于最大池化对图像进行下采样。
padding:padding定义样本的边框如何处理。一(半)个padding卷积将保持空间输出尺寸等于输入尺寸,而如果内核大于1,则不加卷积将消除一些边界。
输入和输出通道:卷积层需要一定数量的输入通道(I),并计算出特定数量的输出通道(O)。可以通过I * O * K来计算这样一层所需的参数,其中K等于内核中的值的数量。
扩张卷积(Dilated Convolutions)
(又名阿鲁斯卷积)
扩张卷积引入另一个卷积层的参数被称为扩张率。这定义了内核中值之间的间距。扩张速率为2的3x3内核将具有与5x5内核相同的视野,而只使用9个参数。 想象一下,使用5x5内核并删除每个间隔的行和列。
图2 二维卷积、扩展速率为2的3核,无padding
它使得系统能够以相同的计算成本提供更广泛的观察范围。扩张卷积在实时分割领域特别受欢迎。 如果你需要更大的观察范围,且无法承受多个卷积或更大的内核,请考虑使用它。
转置卷积(Transposed Convolutions)
(又名反卷积或分段缠绕卷积)
一些人使用反卷积这个名称,这不是特别恰当的,因为它不是一个反卷积。使事情变得更糟糕的反卷积确实存在,但在深度学习领域并不常见。实际的反卷积是反转卷积的过程。想象一下,将图像输入到单个卷积层。现在开始输出,把放置到一个黑盒子里,然后将你的原始图像再次输出。这个黑盒子进行了一个反卷积操作。这就是卷积层的数学反演。
转置的卷积在某种程度上来说是相似的,因为它和一个假设的反卷积层所产生的空间分辨率是相同的。但是,正在执行的实际数学运算在值上是不同的。转置卷积层执行的是常规卷积,但它会恢复其空间变换。
图3 二维卷积无padding,步幅2和内核3
关于这一点你可能会感到困惑,所以让我们来看一个具体的示例。将一个5x5的图像馈送到卷积层。其步幅设置为2,padding禁用,内核为3x3。结果是产生一个2x2的图像。
如果我们想反转这个过程,我们需要反数学运算,以便从我们输入的每个像素中生成9个值。之后,我们以2步幅的设置来遍历输出图像。这将是一个反卷积。
图4 转置的二维卷积无padding,步幅2和内核3
而转置卷积将不会进行此类操作。唯一的共同之处在于它保证输出也将是一个5x5的图像,同时仍然执行正常的卷积运算。为了实现这一点,我们需要在输入上执行一些漂亮的padding。
正如你现在可以想象的,这一步并不会从上面扭转这个过程。 至少不包括数值。
它只是在以往的基础上重建空间分辨率并执行卷积操作。这可能不是数学的反演,但是对于Encoder-Decoder架构来说,它仍然非常有用。这样,我们可以将图像的缩放与卷积相结合,而不是将两个过程单独分开进行。
可分离卷积(Separable Convolutions)
在一个可分离卷积中,我们可以将内核操作拆分成多个步骤。我们用y = conv(x,k)表示卷积,其中y是输出图像,x是输入图像,k是内核。这一步很简单。接下来,我们假设k可以由下面这个等式计算得出:k = k1.dot(k2)。这将使它成为一个可分离的卷积,因为我们可以通过对k1和k2做2个一维卷积来取得相同的结果,而不是用k做二维卷积。
图5 Sobel X和Y滤镜
我们以通常用于图像处理的Sobel内核为例。你可以通过乘以向量[1,0,-1]和[1,2,1] .T获得相同的内核。在执行相同的操作时,你只需要6个而不是9个参数。
上面的示例显示了所谓的空间可分离卷积,据我所知,这并不是在深度学习中使用的。我只是想确保在他人费劲地操作时,你不会受到如此困惑。在神经网络中,我们通常使用的是一种叫做深度可分离卷积的神经网络。
这将执行一个空间卷积,同时保持通道独立,然后进行深度卷积操作。在我看来,为了加深了解,可以用一个示例作为典范。
假设我们在一个16输入通道和32输出通道上有一个3x3的卷积层。那么将要发生的就是16个通道中的每一个都由32个3x3的内核进行遍历,从而产生512(16x32)的特征映射。接下来,我们通过将每个输入通道中的特征映射相加从而合成一个大的特征映射。由于我们可以进行此操作32次,因此我们得到了期望的32个输出通道。
那么,针对同一个示例,深度可分离卷积的表现又是怎样的呢?我们遍历16个通道,每一个都有一个3x3的内核,可以给出16个特征映射。现在,在做任何合并操作之前,我们将遍历这16个特征映射,每个都含有32个1x1的卷积,然后才逐此开始添加。这导致与上述4608(16x32x3x3)个参数相反的656(16x3x3 + 16x32x1x1)个参数。
该示例是深度可分离卷积的具体实现,其中所谓的深度乘数为1。而这是目前为止这些层最常见的设置。
我们这样做是因为假设空间和深度信息是可以去耦的。而反观Xception模型的表现,可以发现这个理论似乎是有效的。其实,可移动设备中也可以使用深度可分离卷积。因为它们的参数是可以有效利用的。
总结
到此为止,可以说对于卷积网络类型的介绍就要告一段落了。我希望能帮助大家简要了解一下这个问题。而接下来,我们将为大家展示一些卷积动画,帮助大家对此做深一步了解。
01 无padding无步幅
02 随机padding无步幅
03 半padding无步幅
04 全padding无步幅
05 无padding无步幅转置
06 随机padding无步幅转置
07 半padding无步幅转置
08 全padding无步幅转置
09 无padding有步幅
10 有padding有步幅
11 有padding有步幅(奇数)
12 扩张
特许全球金融科技师(CGFT®)..
特许全球金融科技师简介 特许全球金融科技师(CGFT)是上海高金金融研究院在上海交通大学上海高级金融学院的学术指导下,倾力打造...
“数据可视化”是个好帮手,可以帮助用户理解数据。但是,你真的会用它吗?看看这里,数据可视化的十大错误你占了几个?
优秀的数据可视化依赖优异的设计,并非仅仅选择正确的图表模板那么简单。全在于以一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本。当然并非所有的图表制作者都精于此道。所以我们看到的图表表达中,各种让人啼笑皆非的错误都有,下面就是这些错误当容易纠正的例子:
1、饼图顺序不当
饼图是一种非常简单的可视化工具,但他们却常常过于复杂。份额应该直观排序,而且不要超过5个细分。有两种排序方法都可以让你的读者迅速抓取最多的重要信息。
方法一:将份额最大的那部分放在12点方向,逆时针放置第二大份额的部分,以此类推。
方法二:最大部分放在12点,然后顺时针放置。
2、在线状图中使用虚线
虚线会让人分心,而是用实线搭配合适的颜色更容易彼此区分。
3、数据摆放不直观
你的内容应该符合逻辑并于直观的方式引导读者阅读数据。对类目进行按字母,次数或数值大小进行排序。
4、数据模糊化
确保数据不会因为设计而丢失或被覆盖。例如在面积图中使用透明效果来确保用户可以看到全部数据。
5、耗费读者更多的精力
要通过辅助的图形元素来使数据更易于理解,比如在散点图中增加趋势线。
6、错误呈现数据
确保任何呈现都是准确的,比如,气泡图的大小应该跟数值一样,不要随便标注。
7、在热图中使用不同颜色
一些颜色比其他颜色突出,赋予了数据不必要的重元素。反而你应该使用单一颜色,然后通过颜色的深浅来表达。
8、柱状过宽或过窄
柱子与柱子之间的间隔最好调整为宽的1/2。
9、数据对比困难
对比是呈现差异的有效方式,但如果你的读者不易对比时,效果就大打折扣了。确保数据的呈现方式一致,可以让你的读者对比。
10、使用三维图
尽管这些图看来让人振奋,但3D图也容易分散预期和扰乱数据,坚持2D是王道。
怎么样?看过10个数据可视化的错误之后,是否意识到领导对你的数据分析图表摇头的原因了,快行动起来吧~
如果有人问你哪种排序算法最奇怪,可能你会先在冒泡排序、选择排序、快速排序等常见排序算法中「搜索」了。
有人在 Quora 上也发帖问了这个问题。于是乎,各种脑洞大开的奇特算法就被列出来了。它们可能存在性能问题或无法实现,但是不可否认其创造性。
睡眠排序(Nipun Ramakrishnan 的回答)
这个搞笑算法流传于 4chan 的 /prog/ 板块。无从查证具体出自哪位程序员,伪代码如下
procedure printNumber(n)
sleep n seconds
print n
end
for arg in args
run printNumber(arg) in background
end
wait for all processes to finish
算法运行如下: 对于数组中每个元素 x,开启一个新程序:
休眠 x 秒
打印 x 所有元素同时开始计时。 只适用于非负数字。
Bogo 排序/猴子排序 (Ryan Turner的回答)
Bogo 排序/猴子排序,名字很奇怪。它是愚蠢排序中的一员。
主要来说,算法就是你把元素随机排列。
如果没有排好序,再次把元素随机排列。
如果还没有排好序,你懂的。下面是个例子:
4, 7, 9, 6, 5, 5, 2, 1 (未排序)
2, 5, 4, 7, 5, 9, 6, 1 (随机排列)
1, 4, 5, 6, 9, 7, 5, 2 (再次随机排列)
1, 2, 4, 5, 5, 6, 7, 9 (天呐,真幸运)