Twitter hồ sơ ver2 tạo ra dự án
===============
## thông tin cơ bản
Tên dự án
Twitter hồ sơ ver2 tạo
Bộ phận phát triển / Bộ phận
Phát triển SI (xử lý hàng loạt)
Số lượt truy cập thư ký
Itaru Suzuki
Toàn bộ Tổng quan ##
doanh nghiệp, trong một số các dịch vụ của DS, bạn phải sử dụng các thông tin từ sinh học của người dùng và tweet để ước tính giới tính và tuổi tác của người sử dụng.
Độ tuổi để nói ở đây, các thiếu niên sử dụng, độ tuổi 20, ..., đó là liệu những năm 50.
Sau đó, "hồ sơ" các thông tin giới tính và tuổi tác của người sử dụng, được gọi là "hồ sơ" một chương trình để đánh giá hồ sơ cá nhân của người sử dụng. Trong số hồ sơ là hồ sơ hiện tại, 80% chính xác giới tính, có thể được xác định một cách chính xác 50% tuổi. Điều này là không cho là đủ để giá trị đáng tin cậy, chúng tôi muốn tiếp tục nâng cao tính chính xác hơn. Vì vậy, tôi nghĩ rằng cách tiếp cận hiện tại cố gắng để yêu cầu tạo ra một hồ sơ mà sử dụng một cách tiếp cận khác nhau. ### Mục đích dữ liệu RAW (dữ liệu tweet liệu cung cấp từ Twitter, 10% dữ liệu Twitter) được đọc, và để tạo ra một chương trình để đánh giá hồ sơ cá nhân của người sử dụng đó. ### Yêu cầu phạm vi làm việc hồ sơ này là để lưu trữ các kết quả ước lượng cuối cùng để các cơ sở dữ liệu, phần kết nối cơ sở dữ liệu tôi tạo ra ở đây. Cảm ơn bạn sự sáng tạo của tất cả các bộ phận khác hơn là trong DSV. ### Giao ngày 08 tháng 12 (tháng) tôi sẽ có thời gian giao hàng. ### Giao hàng tận nơi tôi sẽ tạo ra một kho lưu trữ trên Bitbucket. Hãy cam kết kết quả đó. ### Hệ thống dự án
Nhân viên bên DS
Itaru Suzuki
Nhân viên bên DSV
XXX
### Kế hoạch truyền thông
xin vui lòng báo cáo tiến độ cho các cán bộ phụ DS mỗi thứ Hai.
Ngoài ra, xin vui lòng cam kết mã để thời gian đó. ---- ## Tổng quan về hệ thống phát triển ### Tổng quan hệ thống Tôi muốn tạo ra thời gian này, đọc dữ liệu RAW, để ước tính hồ sơ từ sinh học và cơ thể, nó là một chương trình viết các kết quả vào một tập tin. Hoạt động của nó là như sau. 1. Đọc dữ liệu RAW, và trích xuất sinh học cơ thể và từ đó 1. Ước tính hồ sơ cá nhân dựa trên nguyên tắc nếu nó không thành công để ước tính của 1. Trong hồ sơ cá nhân, bạn có thể ước lượng hồ sơ cá nhân của các bộ lọc Bayesian nộp 1. Kết quả viết cho ### phạm vi phát triển Đọc dữ liệu RAW, lớp trả về một đối tượng đại diện cho một tweet RawDataParser để thực hiện phía DS. Bạn yêu cầu phát triển trong DSV cho các bộ phận khác. Miễn là không có lý do, RawDataParser Xin vui lòng không thay đổi. ## Kiến trúc ### đặc điểm kỹ thuật phần cứng là chưa quyết định. ### Phần mềm Thông số kỹ thuật * phát triển ngôn ngữ là Java. Hãy thực hiện theo các phiên bản 8. ## Yêu cầu phi chức năng ### yêu cầu thực hiện * một ngày tại một thời gian, 144 để xử lý các tập tin sử dụng * Bộ nhớ, xin vui lòng thiết lập một mục tiêu đó là 2GB hoặc ít hơn hoàn thành trong cả 1 * quá trình không có vấn đề bao lâu cần có một lý do tại sao như vậy đã trở thành thông số kỹ thuật, bởi vì nó được dự kiến sẽ thay thế các hồ sơ cũ hiện đang chạy trên cùng một loại điều kiện. ## Chức năng thiết kế ### hoạt động tổng thể và các lớp tương ứng của toàn bộ chương trình xử lý sẽ làm việc như mô tả ở trên. Các quá trình này, nó được giả định rằng mỗi chịu trách nhiệm cho các lớp sau. * RawDataParser * RuleBaseClassifier * BayesianClassifier * ResultWriter Ngoài ra, chính có một phương pháp, các lớp học đó sẽ được gọi từ dòng lệnh, ProfilerToplevel xin với. Giới thiệu về ### hồ sơ hồ sơ điều tra hồ sơ xin được bày tỏ trong. Giá trị của nó là M10 , M20 , ..., M50 , F10 , F20 , ..., F50 , và UNKNOWN là. ### RuleBaseProfiler hành vi của #### Tổng quan đến sinh học của tweet là một lớp học mà đại diện cho các hồ sơ để ước tính như thế nào trong hồ sơ cá nhân nếu nó có chứa chuỗi cụ thể. [] (RuleBaseClassifier.Png) phân loại các phương pháp chấp nhận một đối tượng đại diện cho các tweet, và lợi nhuận được ước tính dựa trên hồ sơ cá nhân của người sử dụng đã đăng các quy tắc. Trong trường hợp này vô không được phép quay trở lại. Lớp này là một nhà xây dựng tập tin nhận được đối tượng, bạn phải tải các quy tắc phân loại bằng văn bản trong đó. Định dạng tập tin #### quy trong tập tin quy tắc, một trong những quy tắc đã được mô tả trong một dòng đơn. Quy định là những từ khóa tách, giới tính, và tuổi tác trong các tab, khi các từ khóa bao gồm trong sinh học, người sử dụng đã viết sinh học được coi là một hồ sơ tương ứng. Nếu, giới tính, nó có thể đoán chỉ có một tuổi, nếu người kia không biết, những người không biết * được thể hiện như. Nội dung của nó, ví dụ, là như sau. `` `Python Boy sinh viên M 10 sinh F 10 học sinh trung học * 10 nam M * Phụ nữ F * `` ` Điều này là để thể hiện các quy tắc sau đây.
có chứa một "nữ sinh" trong sinh học
"Nữ 10 của"
có chứa một "trường trung học" trong sinh học
"Teen không biết quan hệ tình dục"
chứa các "chàng trai" để sinh học
"Đàn ông không biết tuổi"
chứa các "cô gái" trong sinh học
"Phụ nữ trong độ tuổi chưa biết"
Trong các trường hợp sau đây, bạn nên nâng cao một ngoại lệ trong quá trình khởi * cùng một từ khoá trong các tập tin quy tắc là trường hợp đã xuất hiện trường hợp chứa một chuỗi mà không thể được giải thích như là * giới chứa không thể được hiểu là * string tuổi Nếu có quy tắc tập tin và thực hiện theo các thông số kỹ thuật sau đây để khoảng trắng và ý kiến. * Từ khoá, giới tính, trước và sau khi nhân vật không gian của mỗi chuỗi đại diện cho tuổi được giả định là sau khi giải thích rằng đã bị xóa * ký tự trống không chỉ bao gồm dòng (dòng trống) được bỏ qua chỉ đơn giản là không phải là một lỗi * Đó là một bình luận cho sự kết thúc của dòng từ đồng bảng Anh nửa chiều rộng (#). Hãy đối xử với nó như trống là để cho phép thêm không gian và ý kiến, bởi vì bạn là dễ dàng hơn để viết các quy tắc. Chẳng hạn như các quy tắc sau đây xin vui lòng bỏ qua như vô nghĩa nếu * keyword không chỉ chứa trống * giới tính, tuổi tác là cả hai * Nếu bạn muốn là cũng có, các định dạng sau đây xin vui lòng để điều trị đặc biệt. * Từ khóa đúng, giới tính, nếu bạn tiếp tục sau khi tab tuổi và chuỗi tiếp tục, các tab sau chuỗi sau tuổi Hãy bỏ qua. Đây sẽ là bằng và suy nghĩ nếu bạn thêm một mục mới vào các quy tắc. Tất cả nếu bạn không thực hiện theo các định dạng khác so với ở trên tôi nên nâng cao một ngoại lệ trong quá trình khởi như lỗi giải thích các quy tắc #### nếu đó không phải là trường hợp bất kỳ quy tắc, hồ sơ cá nhân của người dùng UNKNOWN là. Áp dụng một hoặc nhiều các quy tắc, họ không phải là mâu thuẫn, còn nếu giới tính và độ tuổi đã được tìm thấy cùng nhau, hồ sơ cá nhân của người dùng UNKNOWN sẽ là một trong những hồ sơ không. Ví dụ, nếu bạn bao gồm các "nữ sinh" trong sinh học, hồ sơ cá nhân của người sử dụng F10 là (nữ 10 của). Hoặc, nếu bạn bao gồm các "cô gái" và "trung học" trong sinh học, hồ sơ cá nhân của người sử dụng F10 là (nữ 10 của). Nếu giới tính hay tuổi tác, thậm chí sử dụng tất cả các quy tắc áp dụng là không rõ, hồ sơ cá nhân của người dùng UNKNOWN là. Ví dụ, nếu chỉ là "trung học" là đúng, vì nó là giới tính không rõ, UNKNOWN và. Nếu có nhiều quy tắc xung đột nếu bị trúng, UNKNOWN nên được coi. Ví dụ, nếu "Boy sinh viên" và "sinh" được bao gồm cùng một lúc là UNKNOWN nó trở thành. #### Thử nghiệm quan điểm ##### hệ thống bình thường hãy chắc chắn rằng các ví dụ được khởi tạo một cách chính xác theo các quy tắc sau đây như file. * Kiểm tra các tập tin * bao gồm định dạng đúng chỉ các quy tắc * keyword, giới tính, tuổi bao gồm một trống khác với tab qua lại bao gồm * dòng trống , bao gồm * Comments tab và bất kỳ nhân vật mà sau * cột bổ sung (tuổi cột) bao gồm cả dòng là phân loại các phương pháp, hãy chắc chắn rằng nó hoạt động chính xác trong các trường hợp sau đây. * Nếu các quy tắc tập tin quy tắc không có ai. Phương pháp nên luôn luôn trả về UNKNOWN. * Nếu các quy tắc không giữ ngay cả một * quy tắc áp dụng chỉ có một, do đó Nếu hồ sơ được thiết lập chỉ áp dụng một quy tắc *, nếu giới tính hay tuổi tác là không rõ * quy tắc áp dụng hai hoặc nhiều hơn, do đó hồ sơ Nhưng nếu để xác nhận * quy tắc áp dụng hai hoặc nhiều hơn, nếu giới tính hay tuổi tác là không biết hệ thống bất thường ##### nếu sau đây, bạn nên nâng cao một ngoại lệ. * Trong quá trình khởi tạo, quy tắc định dạng tập tin nếu một bất thường ### BayesianClassifier hành vi của #### Tổng quan về danh từ xuất hiện trong sinh học và cơ thể của tweet, cho dù đó là một danh từ đặc trưng để họ có hồ sơ Đó là một lớp học mà đại diện cho một hồ sơ để suy ra các hồ sơ bằng cách kiểm tra. [] (BayesianClassifier.png) Lớp này là một nhà xây dựng tập tin nhận được các đối tượng và ngưỡng, tập tin bạn cần phải tải số lần xuất hiện của từ ngữ của mỗi hồ sơ được viết cho các đối tượng. phân loại các phương pháp có một đối tượng đại diện cho các ngày, và lợi nhuận được ước tính dựa trên hồ sơ cá nhân của người sử dụng đã đăng các quy tắc. Trong trường hợp này vô không được phép quay trở lại. #### Xác định bước BayesianClassifier cho tất cả các cấu hình, và tính xác suất mà ngày thuộc về hồ sơ cá nhân, nó sẽ ước tính sơ cá nhân của người sử dụng đã đăng các tweet bằng cách trả lại hồ sơ cá nhân cao nhất. Thủ tục quyết định này, tôi có một kế hoạch để spam (http://www.paulgraham.com/spam.html) để tham khảo. Này và là mâu thuẫn, xin vui lòng cho tôi biết nếu bạn nghĩ rằng nó được sử dụng thuật toán sai
đang được dịch, vui lòng đợi..