本标准规定了WARC文件格式:
——存储来自于主流互联网应用层协议(如HTTP、DNS和FTP)的有效载荷内容和控制信息;
——存储与其他已存储数据(如主题分类、语言、编码)相关的任意元数据;
——支持数据压缩,且保证数据记录的完整性;
——存储来自收割协议的全部控制信息(如请求标头信息),而不仅仅是响应信息;
——存储与其他已存储数据相关的数据转换结果;
——存储与其他已存储数据相关的重复监测活动(当相同或者大体相似的资源出现时,可以减少存储消耗);
——在不中断当前功能的情况下进行扩展;
——支持对超长记录在所需处进行截断或分段操作。

GB/T 33994-2017 pdf下载 信息和文献 WARC文件格式
GB/T 33994-2017 pdf下载 信息和文献 WARC文件格式
声明:本站所有均来自互联网,如若本站内容侵犯了原著者的合法权益,可联系站长进行处理。