[数据] 2024-04-25 圈点904
摘要:结构化大量数据整理思维:先有大量数据再归类。先有大量的格式化数据再进行归类的思维,比如当采集到大量的格式化数据的时候,如商品数据。有id,分类,标题等字段。如何进行归类呢?
结构化大量数据归类,比如当采集到大量的格式化结构数据的时候,如商品数据。有id,分类,标题等字段。如何进行归类呢?
可以先用group by 分类,取出所有的分类信息;
1,新建一个归类表,做二次归类
结构如下:
id,mulu,mulumd,guilei,
实现自动归类
1,数据库中取出所有sp,(id,spmulu,)新增guilei字段,
2,数据库中取出所有mulu(id,mulu,mulumdf,guilei)
2,循环sp,取出spmulu 转化成sp_mulumdf(md)
if sp_mulumdf 在mulu_mulumdf中,就取出guilei
if guilei为真,就将其更新到sp记录的字段
else
sp_mulumdf 不在mulu_mulumdf,将spmulu,写入mulu表,等待将mulu表中的mulu归类(即手动更新mulu_guilei信息)后再重新执行
以后可以简单的修改第一步:
取出所有没有归类的sp,guilei为0的记录;这样可以省一些事。
思维优化:
1,找出sp_mulumdf 不在mulu_mulumdf中的mulu,mulumdf,再插入mulu表;
2,循环mulu中的mulumdf,在sp中找mulumdf相同的记录,然后更新sp中的guilei
需要手动更新mulu_guilei信息后再次执行
上一篇[数据]股票所有公告下载数据记录(国内股票公告历年所有公告)
下一篇[数据]免费公共的IP查询接口3个