GitHub - hieuxinhe94/CVProject: Dự thi CV Parse tại

#CVProject Tác Giả : PHẠM VĂN HIẾU email : [email protected] github/hieuxinhe94/CVProject Ý Tưởng : Xử lí khối lượng lớn tệp tin và với thời gian nhanh nhất có thể
** Chương trình đả được kiểm thử với xử lý 100 tệp CV chỉ trong 6s** (Yêu cầu : cài đặt gói python numpy : sudo apt-get install python-numpy và python 2.7 ) < CHƯƠNG TRÌNH KHÔNG THỂ CHẠY TRÊN WINDOWS VÌ CÁC MOLDUN : textract,numppy KHÔNG THỂ CHẠY TỐT Ở NỀN TẢNG NÀY >
< CÓ THỂ CHẠY TRÊN TẤT CẢ CÁC NỀN TẢNG NHÂN UNIX , MAC , DEBIAN , UBUNTU , CENT OS , ... >

Biên Dịch và chạy chương trình :
1. git clone https://github.com/hieuxinhe94/CVProject.git
2. Open Terminarl ,... and go to CVProject Floder
3. Enter : python trich_xuat_cv.py
4. Enter path to data floder :
ex: (/home/user/Documents/CVProject/data/) Đường dẩn đến thư mục chứa các file cv
5. finish : Mở thư mục chứa data vừa rồi và xem kết quả ở các file cvs,txt được tạo ra
hoặc cũng có thể quan sát trực tiếp trên thiết bị đầu cuối

            ** Chương trình có sử dụng các moduln mả nguồn mở như :
    1. Textract : Xử lí văn bản từ nhiều định dạng sang kiểu text 
    2. Langid   : Nhận biết 97 loại ngôn ngử tự nhiên 
    3.  Numpy   : git clone http://github.com/numpy/numpy.git numpy 
    4. pretty table : Hiển thị giao diện trực tiếp các bảng dử liệu trên thiết bị đầu cuối 
    5. các gói : Shultil , goslate , ...

              **  Quy trình thực thi chính của phần mềm  như sau :

I. Nhận biết ngôn ngử :
    0.Nhập vào địa chỉ thư mục chứa dử liệu , chương trình sẻ lưu lại ở setup.txt
    1.Đọc từng tệp tin đầu vào và nhận ra đó thuộc ngôn ngử nào 
    2.Di chuyển các tệp tin đó vào từng thư mục chứa cùng một loại ngôn ngủ (mới hổ trợ eng,vi)
    <#nhan_biet_ngonngu.py>
II. Xử lí văn bản :
    1. Tìm kiếm các định dạng doc,pdf,.. trong từng thư mục của các ngôn ngử lưu  trong setup.txt
    2. Đọc và chuyển kiểu đó sang text 
    3 .Cập nhật lại danh sách và tiến hành trích xuất   
III. Thống kê ,tìm từ khóa :
    1. Nhận diện các từ khóa tiêu đề (Profile , Education,Hồ Sơ ,Kinh NGhiệm ... )
    2. Phân chia thành từng đoạn ,ngăn cách bởi các từ khóa lớn đó 
    3. Từ những đoạn vưa tìm được  bắt đầu nhận diện từ khóa chi tiết chỉ trong đoạn đó 
       theo từng thuật toán riêng ,đảm báo đúng yêu cầu dử  liệu 
    4.Hiển thị bảng dử  liệu lên màn hình 
IV. Xuất FIle :
    Tụ động tạo mới hoặc ghi đè ,hoặc ghi thêm dử liệu ra cá file với định dạng gồm Csv(exel),text table ,
    
V. Kết thúc

******************************** CHƯƠNG TRÌNH KHÔNG HOẠT ĐỘNG TỐT TRÊN WINDOWS ******************* ************************* VÀ KHÔNG THỂ KHẮC PHỤC NÓ ******************************

              B. Hướng phát triển thêm :
    1. fix lổi khi các Tag lớn  xáo trộn , không theo thứ tự phổ biến 
    2. Trả về các định dạng Json kết nối webservice và database 
    3. viết nhiều hàm nhằm thực thi chính xác hơn với kiểu Pdf 
    4. Làm việc tốt với các định dạng unicode,symbol toán học ...

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
data		data
langid		langid
textract		textract
README.md		README.md
fghjk.gif		fghjk.gif
function_en.py		function_en.py
function_en.pyc		function_en.pyc
function_vi.py		function_vi.py
function_vi.pyc		function_vi.pyc
goslate.py		goslate.py
nhan_biet_ngonngu.py		nhan_biet_ngonngu.py
nhan_biet_ngonngu.pyc		nhan_biet_ngonngu.pyc
prettytable.py		prettytable.py
prettytable.pyc		prettytable.pyc
result_en.png		result_en.png
result_vi.png		result_vi.png
setup.txt		setup.txt
shutil.py		shutil.py
shutil.pyc		shutil.pyc
trich_xuat_cv.py		trich_xuat_cv.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

hieuxinhe94/CVProject

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages