正确答案
①尽可能赋予属性名和属性值明确的含义;
②统一多数据源的属性值编码;
③去除无用的惟一属性或键值(如自动增长的id);
④去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的);
⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果);
⑥合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额);
⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。