我认为计算机历史上最扯淡的词应该当BI莫属,BI已经成为花花绿绿图表的代名词。很多IT人士张嘴闭嘴BI,也不嫌丢人,明明是个统计图表系统,非要说成是大数据或者商业智能(Business Intelligence)。
计算机行业技术发展的速度快,爱造词儿已经成为了社会的共识,更何况还有像Garnter这样的专业造瓷机器。
其实大数据BI的历史要追溯到数据库的发展。自从Codd博士利用关系代数,彻底打败了层次数据库和网络数据库后,SQL吸收了关系代数的特性,与关系型数据库一举成为统治信息技术世界的工具。
编程的本质:网页链接
面向对象的本质:网页链接
数据库是放在磁盘中的速度不快,成为了很多程序员的噩梦,数据量一大也为了大量的程序员提供了非常长久并且安逸的工作机会。稍微有经验的程序员上来不是做系统设计,首先想的是表结构、join方案以及分库分表的性能问题。
BI的技术实际上OLAP,这个词儿也是Codd的博士力排众议最后确定下来的。当时觉得非要把数据库分为OLTP和OLAP,但实际技术上并没有什么特殊的区分,其实大家骨子里都是觉得有点扯。 Codd博士为这个区分归纳了两个理由:
数据分散在不同的数据库中是一个事实,贯穿数据查询的需求客观存在是另一个事实。两个事实都无法否认,自然这个概念就立住了。
考虑到当时Codd博士正在大数据BI厂商海波龙当顾问拿钱,这里面多多少少有点为了五斗米折腰的意思。
所以OLAP的本质实际上就是把业务数据库中的数据抽出来,如果是要做统计就需要按照后来kimball提出的维度模型来进行,再存一份,然后再进行分析。
其实这就是整个BI所代表的技术基础,说到这里你当然也听得出来这个和大数据、智能没啥关系,其实如果要做多表Join长链路联查,还需要借助SQL的复杂语句来实现。
如果要为OLAP取个恰当的名字,应该是数据统计报表系统,如果稍微往上抬一点,就可以叫做辅助决策支持系统,辅助嘛,稍微帮上点儿忙也算帮上。但无论如何也难以称得上是智能。
直到今天,如何快速获取统计数据仍然是大数据行业的热点:从大数据hadoop到spark,一直到最近流行的大数据Flink,其本质都是如何从大数据业务数据库中快速获得想要的统计结果。
大词儿虽然用完了,但世界依旧还要前行。
最后问题来了,你认为真正的商业智能应该是什么呢?评论区见!
#大数据##人工智能##程序员#