MNBVC 去重部分

项目描述

本项目的主要目的是：

将外界输入的文件以文件md5和文件大小进行重复检测，删除不同来源的同一文件。
将大量文本文件（目前仅有txt文件）转换为格式化的、易于查询的数据。
在个人电脑上，实现对百万个文件的量级的快速去重操作。
（TODO）在集群上，对全部类型的文件进行重复检测。

环境安装

从gtihub下载本项目

git clone https://github.com/aplmikex/deduplication_mnbvc

使用 pip命令安装所需的库

# 进入这个库的目录
cd deduplication_mnbvc
# 安装项目所需要的依赖
pip install -r requirements.txt

jsonl格式说明

对于每个jsonl文件，其大小略大于500MiB，这个数值定义在 utils.py中的 max_size，可根据需要更改

对于每一个文件，他的json结构层次如下：

{
    '文件名': '文件.txt',
    '是否待查文件': False,
    '是否重复文件': False,
    '文件大小': 1024,
    'simhash': 0,
    '最长段落长度': 0,
    '段落数': 0,
    '去重段落数': 0,
    '低质量段落数': 0,
    '段落': []
}

将每一行为一个段落，段落的json结构层次如下：

{
    '行号': line_number,
    '是否重复': False,
    '是否跨文件重复': False,
    'md5': md5,
    '内容': line
}

Name		Name	Last commit message	Last commit date
Latest commit History 67 Commits
basic_dedup		basic_dedup
convert		convert
corpus_processing		corpus_processing
parallel_dedup		parallel_dedup
utils		utils
words_dedup		words_dedup
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MNBVC 去重部分

项目描述

环境安装

jsonl格式说明

About

Releases

Packages

Contributors 2

Languages

License

aplmikex/deduplication_mnbvc

Folders and files

Latest commit

History

Repository files navigation

MNBVC 去重部分

项目描述

环境安装

jsonl格式说明

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages