老虎机摆法-[在线平台]

   宠物咨询:0512-6500-1280



棋牌类游戏

您当前位置: 首页 > 棋牌类游戏

IBM BigSheets保留稍纵即逝的Web数据

来源:老虎机摆法-[在线平台]    发布时间:2019-10-10    阅读量:9999+

棋牌代理  IBM周四宣布,它正在与英国图书馆合作开展一个项目,该项目将在网络永久丢失之前保存和分析网络上的数TB信息。 最近的研究估计,网站的平均预期寿命为44至75天。例如,每六个月,英国域名中约有10%的网页丢失。 在大多数个人网站的情况下,这不是什么大损失。但在组织试图存档和记录选举,新闻,媒体和视频的情况下,这种数据泄漏带来了巨大的挑战。即使你有数据,问题仍然是它是否可用,甚至是可识别的格式。 这个名为IBM BigSheets的新分析软件项目使用Web浏览器帮助提取,注释和可视化分析大量Web信息。英国图书馆正在使用该软件的原型来存档和保存大量网页,以确保数据不会随着时间的推移而消失。 这不是一件小事。大英图书馆收到英国和爱尔兰出版的每份实体出版物的副本,其中必须存档超过1.5亿张地图,手稿,乐谱,报纸和杂志。 除了物质资产之外,英国图书馆自2官方网站004年以来一直存档来自英国域名的精选网页。根据IBM的Emerging Technologies首席技术官David Boloker和BigSheets,未来图书馆的用户将能够访问存档历史网站,轻松研究和分析他们的查询,并可视化搜索结果。 Boloker还通过电子邮件告诉我,BigSheets软件是基于几个开源组件构建的: Boloker解释说,BigSheets是一个私有云服务,在所有库的机器上运行并行MapReduce作业。虽然它是一个私有云(请注意 - 在野外发现私有云),但大英图书馆将提供供人们访问的数据和服务。 这些天不乏分析数据,越来越多的政府机构和大公司将继续寻找这些类型的解决方案。令人高兴的是,开源,也许更重要的是,Apache许可的开源软件正在构建下一代分析工具。 2月25日上午8:40 PDT更新,以反映IBM的声明已正式发布。棋牌游戏