大数据如何获得？如何统计分析？( 三 )

导入与预处理过程的特点和挑战主要是导入的数据量大。每秒钟的导入量经常会达到百兆。甚至千兆级别。
3. 大数据处理之三：统计/分析
统计与分析主要利用分布式数据库。或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等。以满足大多数常见的分析需求。在这方面。一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata 。以及基于MySQL的列式存储Infobright等。而一些批处理。或者基于半结构化数据的需求可以使用Hadoop 。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大。其对系统资源。特别是I/O会有极大的占用。
4. 大数据处理之四：挖掘
与前面统计和分析过程不同的是。数据挖掘一般没有什么预先设定好的主题。主要是在现有数据上面进行基于各种算法的计算。从而起到预测（Predict）的效果。从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes 。主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂。并且计算涉及的数据量和计算量都很大。常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤。才能算得上是一个比较完整的大数据处理。