Twitter profiler Ver2 tạo ra dự án
===============
## thông tin cơ bản
Tên dự án
Twitter hồ sơ ver2 tạo
Bộ phận phát triển / Division
Phát triển SI (xử lý hàng loạt)
Số lượt truy cập thư ký
Itaru Suzuki
Toàn bộ Tổng quan ##
doanh nghiệp, trong một số các dịch vụ của DS, bạn phải sử dụng các thông tin từ sinh học của người dùng và tweet để ước tính giới tính và tuổi tác của người sử dụng.
Độ tuổi để nói ở đây, các thiếu niên sử dụng, độ tuổi 20, ..., đó là liệu những năm 50.
Sau đó, "hồ sơ" các thông tin giới tính và tuổi tác của người sử dụng, được gọi là "hồ sơ" một chương trình để đánh giá hồ sơ cá nhân của người sử dụng. Trong profile của người dùng là hồ sơ hiện tại, 80% chính xác giới tính, có thể được đánh giá một cách chính xác 50% tuổi. Điều này là không cho là đủ để giá trị đáng tin cậy, chúng tôi muốn tiếp tục nâng cao tính chính xác hơn. Vì vậy, tôi nghĩ rằng các phương pháp hiện tại cố gắng để yêu cầu tạo ra một hồ sơ sử dụng một kỹ thuật khác nhau. ### Mục đích dữ liệu RAW (dữ liệu tweet liệu cung cấp từ Twitter, 10% dữ liệu Twitter) được đọc, và để tạo ra một chương trình để đánh giá hồ sơ cá nhân của người sử dụng đó. ### Yêu cầu phạm vi làm việc hồ sơ này là để lưu trữ các kết quả ước lượng cuối cùng để các cơ sở dữ liệu, phần kết nối cơ sở dữ liệu tôi tạo ra ở đây. Cảm ơn bạn sự sáng tạo của tất cả các bộ phận khác hơn là trong DSV. ### Giao hàng tận ngày 08 tháng 12 (tháng) tôi sẽ và thời gian giao hàng. ### Giao hàng tận nơi tôi sẽ tạo ra một kho lưu trữ trên Bitbucket. Hãy cam kết kết quả đó. ### Hệ thống dự án
Nhân viên bên DS
Itaru Suzuki
Nhân viên phụ DSV
XXX
### Kế hoạch truyền thông
xin vui lòng báo cáo tiến độ cho các cán bộ phụ DS mỗi thứ Hai.
Ngoài ra, xin vui lòng cam kết mã để thời gian đó. ---- ## Tổng quan về hệ thống phát triển ### Tổng quan hệ thống Tôi muốn tạo ra thời gian này, đọc dữ liệu RAW, để ước tính hồ sơ từ sinh học và cơ thể, nó là một chương trình viết các kết quả vào một tập tin. Hoạt động của nó là như sau. 1. Đọc dữ liệu RAW, và trích xuất sinh học cơ thể và từ đó 1. Ước tính hồ sơ cá nhân dựa trên nguyên tắc nếu nó không thành công để ước tính của 1. Trong hồ sơ cá nhân, bạn có thể ước lượng hồ sơ cá nhân của các bộ lọc Bayesian nộp 1. Kết quả viết cho ### phạm vi phát triển Đọc dữ liệu RAW, lớp trả về một đối tượng đại diện cho một tweet RawDataParser để thực hiện phía DS. Bạn yêu cầu phát triển trong DSV cho các bộ phận khác. Miễn là không có lý do, RawDataParser Xin vui lòng không thay đổi. ## Kiến trúc ### đặc điểm kỹ thuật phần cứng là chưa quyết định. ### Phần mềm Thông số kỹ thuật * phát triển ngôn ngữ là Java. Hãy thực hiện theo các phiên bản 8. ## Yêu cầu phi chức năng ### yêu cầu thực hiện * một ngày tại một thời gian, 144 để xử lý các tập tin sử dụng * Bộ nhớ, xin vui lòng thiết lập một mục tiêu đó là 2GB hoặc ít hơn hoàn thành trong cả 1 * quá trình không có vấn đề bao lâu cần có một lý do tại sao như vậy đã trở thành thông số kỹ thuật, bởi vì nó được dự kiến sẽ thay thế các hồ sơ cũ hiện đang chạy trên cùng một loại điều kiện. ## Chức năng thiết kế ### hoạt động tổng thể và các lớp tương ứng của toàn bộ chương trình xử lý sẽ làm việc như mô tả ở trên. Các quá trình này, nó được giả định rằng mỗi trách nhiệm các lớp sau. * RawDataParser * RuleBaseClassifier * BayesianClassifier * ResultWriter Ngoài ra, chính có một phương pháp, các lớp học đó sẽ được gọi từ dòng lệnh, ProfilerToplevel xin với. Giới thiệu về ### hồ sơ hồ sơ điều tra hồ sơ xin được bày tỏ trong. Giá trị của nó là M10 , M20 , ..., M50 , F10 , F20 , ..., F50 , và UNKNOWN là. ### RuleBaseProfiler hành vi của #### Tổng quan đến sinh học của tweet là một lớp học mà đại diện cho các hồ sơ để ước tính như thế nào trong hồ sơ cá nhân nếu nó có chứa chuỗi cụ thể. [] (RuleBaseClassifier.Png) phân loại các phương pháp chấp nhận một đối tượng đại diện cho các phát hiện và trả về nó được ước tính dựa trên hồ sơ cá nhân của người dùng đã đăng cai trị. Trong trường hợp này vô không được phép quay trở lại. Lớp này là một nhà xây dựng tập tin nhận được đối tượng, bạn phải tải các quy tắc phân loại bằng văn bản trong đó. Định dạng tập tin #### Rules để các tập tin quy tắc, một trong những quy tắc đã được viết trên một dòng đơn. Quy định là những từ khóa tách, giới tính, và tuổi tác trong các tab, khi các từ khóa bao gồm trong sinh học, người sử dụng đã viết sinh học được coi là một hồ sơ tương ứng. Nếu, giới tính, nó có thể đoán chỉ có một tuổi, nếu người kia không biết, những người không biết * được thể hiện như. Nội dung của nó, ví dụ, là như sau. `` `Python Boy sinh viên M 10 sinh F 10 học sinh trung học * 10 người đàn ông của M * F * Phụ nữ `` ` Điều này là để thể hiện các nguyên tắc sau đây.
có chứa một "nữ sinh" trong sinh học
"Nữ 10 tuổi"
có chứa một "trường trung học" trong sinh học
"Teen không biết quan hệ tình dục"
chứa các "chàng trai" để sinh học
"Đàn ông không rõ tuổi"
chứa các "cô gái" trong sinh học
"Phụ nữ trong độ tuổi chưa biết"
Trong các trường hợp sau đây, bạn nên nâng cao một ngoại lệ trong quá trình khởi * cùng một từ khóa trong các tập tin quy tắc nếu đã xuất hiện trường hợp đã bao gồm chuỗi mà không thể được giải thích như là * giới chứa không thể được giải thích như là * string tuổi Nếu có quy tắc tập tin và thực hiện theo các thông số kỹ thuật sau đây cho khoảng trắng và bình luận. * Từ khoá, giới tính, trước và sau khi các nhân vật không gian của mỗi chuỗi đại diện cho tuổi được giả định là sau khi giải thích rằng đã bị xóa nhân vật * trống không chỉ bao gồm các dòng (dòng trống) được bỏ qua chỉ đơn giản là không phải là một lỗi * Đó là một nhận xét để kết thúc của dòng từ đồng bảng nửa chiều rộng (#). Hãy đối xử với nó như trống là để cho phép các khoảng trắng và thêm ý kiến, bạn làm cho nó dễ dàng hơn để viết các quy tắc. Chẳng hạn như các quy tắc sau đây xin vui lòng bỏ qua như vô nghĩa nếu * keyword không chỉ chứa trống * giới tính, tuổi tác là cả hai * Nếu bạn muốn là cũng có, các định dạng sau đây xin vui lòng để điều trị đặc biệt. * Keyword đúng, giới tính, nếu bạn tiếp tục sau khi các tab tuổi và tiếp tục chuỗi, chuỗi tab tiếp theo sau tuổi xin vui lòng bỏ qua. Đây sẽ là bằng và suy nghĩ nếu bạn thêm một mục mới vào các quy tắc. Tất cả nếu bạn không tuân theo các định dạng, thêm vào đó bạn nên tăng một ngoại lệ trong quá trình khởi tạo như lỗi giải thích các quy tắc #### nếu điều đó không phù hợp với bất kỳ quy tắc, hồ sơ cá nhân của người dùng UNKNOWN là. Áp dụng một hoặc nhiều hơn các quy tắc, họ không phải là không phù hợp, và nếu giới tính và độ tuổi được tìm thấy cùng, hồ sơ cá nhân của người dùng UNKNOWN sẽ là một trong những hồ sơ không. Ví dụ, nếu bạn bao gồm các "nữ sinh" trong sinh học, hồ sơ cá nhân của người sử dụng F10 là (nữ 10 của). Hoặc, nếu bạn bao gồm các "cô gái" và "trung học" trong sinh học, hồ sơ cá nhân của người sử dụng F10 là (nữ 10 của). Nếu giới tính hay tuổi tác, thậm chí sử dụng tất cả các quy tắc áp dụng là không rõ, hồ sơ cá nhân của người dùng UNKNOWN là. Ví dụ, nếu chỉ "học" được tổ chức đúng, vì nó là giới tính không rõ, UNKNOWN và. Nếu có nhiều quy tắc xung đột nếu bị trúng, UNKNOWN nên được coi. Ví dụ, nếu "Boy sinh viên" và "sinh" được bao gồm cùng một lúc là UNKNOWN nó trở thành. #### Thử nghiệm quan điểm ##### hệ thống bình thường hãy chắc chắn rằng các ví dụ được khởi tạo một cách chính xác theo các quy tắc sau đây như file. * Kiểm tra các tập tin * bao gồm định dạng đúng chỉ các quy tắc * keyword, giới tính, tuổi bao gồm một trống khác với tab qua lại bao gồm * dòng trống , bao gồm * Comments tab và bất kỳ nhân vật mà sau * cột bổ sung (tuổi cột) bao gồm cả dòng là phân loại các phương pháp, hãy chắc chắn rằng nó hoạt động chính xác trong các trường hợp sau đây. * Nếu các tập tin quy tắc luật lệ, không có ai. Phương pháp nên luôn luôn trả về UNKNOWN. * Nếu các quy tắc không giữ ngay cả một * quy tắc áp dụng chỉ có một, do đó Nếu hồ sơ được thiết lập chỉ áp dụng một quy tắc *, nếu giới tính hay tuổi tác là không rõ * quy tắc áp dụng hai hoặc nhiều hơn, do đó hồ sơ Nhưng nếu để xác nhận * quy tắc áp dụng hai hoặc nhiều hơn, nếu giới tính hay tuổi tác là không biết hệ thống bất thường ##### nếu sau đây, bạn nên nâng cao một ngoại lệ. * Trong quá trình khởi tạo, quy tắc định dạng tập tin nếu một bất thường ### BayesianClassifier hành vi của #### Tổng quan về danh từ xuất hiện trong sinh học và cơ thể của tweet, cho dù đó là một danh từ đặc trưng để họ có hồ sơ Đó là một lớp học mà đại diện cho một hồ sơ để suy ra các hồ sơ bằng cách kiểm tra. [] (BayesianClassifier.png) Lớp này là một nhà xây dựng tập tin nhận được các đối tượng và ngưỡng, tập tin bạn cần phải tải số lần xuất hiện của từ ngữ của mỗi hồ sơ được viết cho các đối tượng. phân loại các phương pháp có một đối tượng đại diện cho các ngày, và lợi nhuận được ước tính dựa trên hồ sơ cá nhân của người sử dụng đã đăng các quy tắc. Trong trường hợp này vô không được phép quay trở lại. #### Xác định bước BayesianClassifier cho tất cả các cấu hình, và để tính toán xác suất mà ngày thuộc về cấu hình, nó sẽ ước tính sơ cá nhân của những người dùng đã đăng phát hiện bằng cách trả lại hồ sơ cao nhất. Thủ tục quyết tâm này, tôi có một kế hoạch để spam (http://www.paulgraham.com/spam.html) để tham khảo. Này và là mâu thuẫn, xin vui lòng cho tôi biết nếu bạn nghĩ rằng nó được sử dụng thuật toán sai
đang được dịch, vui lòng đợi..