Twitter hồ sơ ver2 tạo ra dự ánThông tin cơ bảnTên dự ánTạo một hồ sơ Twitter ver2Bộ phận phát triển / bộ phậnSI phát triển (xử lý hàng loạt)Liên hệHinoue SuzukiTổng thể tóm tắtHiện nay, phục vụ một số DS, tiểu sử người dùng và Tweet ước tính từ của người dùng giới tính, tuổi, và sử dụng thông tin đó để. Và nói ở đây là những người dùng thanh thiếu niên và 20-somethings,..., 50-somethings mà làm, hoặc là. Kể từ khi người dùng giới tính và tuổi ước tính "cấu hình", chương trình thông tin hồ sơ người dùng được gọi là "Hồ sơ".Hồ sơ hiện tại có thể cấu hình ra, tình dục - 80% một cách chính xác, 50% một cách chính xác xác định độ tuổi để. Hơn nữa, nó có thể không và giá trị bạn có thể tin tưởng đủ để tin rằng và muốn nâng cao độ chính xác của họ.Tôi đã cố gắng để yêu cầu hồ sơ bằng cách sử dụng một phương pháp và phương pháp hiện tại bằng cách tạo ra.Mục đíchĐể thực hiện chương trình tải nguyên dữ liệu (nguyên tweets dữ liệu được cung cấp bởi Twitter, Twitter của 10% dữ liệu), để ước tính của người dùng hồ sơ.Phạm vi yêu cầuHồ sơ này cuối cùng ước tính kết quả cơ sở dữ liệu chứa phần của kết nối với cơ sở dữ liệu được tạo ra ở đây. DSV hãy tạo ra tất cả các bộ phận khác.### Giao hàng 12/8 (thứ hai), ngày giao hàng và. Tạo một kho lưu trữ trên Bitbucket ### giao hàng. Cam kết quả có.Cơ cấu dự ánDS bên đại diệnHinoue SuzukiNhân viên phía DSVXXXKế hoạch truyền thôngHàng tuần báo cáo một sự tiến bộ đại diện DS mặt vào ngày thứ hai. Ngoài ra, cam mã ở thời điểm đó.Hệ thống tổng quanPhát triển hệ thống tổng quanChúng tôi muốn tạo ra là một chương trình tải dữ liệu thô, và ước tính các cấu hình từ sinh học và văn bản đầy đủ, được viết vào một tập tin kết quả.Hành vi trông như thế này.Đọc dữ liệu thô, chiết xuất tiểu sử và toàn bộ nội dung từ đóHồ sơ ước tính dựa trên quy tắcHồ sơ dự toán không thành công, ước tính cấu hình bởi bộ lọc BayesXuất khẩu các kết quả để nộpPhát triển phạm viThực hiện lớp RawDataParser trả về một đối tượng đại diện cho các Tweets, đọc các dữ liệu thô trên DS. Đối với một phần khác xin vui lòng phát triển trong DSV.Miễn là không có không có lý do, không thay đổi RawDataParser.Kiến trúc### Phần cứng specs là TBD.Thông số kỹ thuật phần mềmPhát triển ngôn ngữ là Java. Xin vui lòng phù hợp với phiên bản 8.Bên ngoài các tính năng yêu cầuYêu cầu thực hiệnĐồng thời 1 phút, 144 tập tin xử lýSử dụng bộ nhớ là 2 GB hoặc ít hơn mục tiêu để làm hài lòngPhải một ngày kết thúc xử lý không có vấn đề bao lâuNhững lý do cho đặc điểm kỹ thuật dự kiến sẽ thay thế hồ sơ cũ hiện đang chạy trong các điều khoản tương tự đối với.Chức năng thiết kếĐể phù hợp với hành vi của các lớp học toàn bộToàn bộ chương trình làm việc như mô tả ở trên.Mỗi trong số này là chịu trách nhiệm cho các lớp học sau.RawDataParserRuleBaseClassifierBayesianClassifierResultWriterNgoài ra, cố gắng để ProfilerToplevel các lớp học có phương pháp chính, gọi là từ dòng lệnh.Về hồ sơCấu hình đại diện cho hồ sơ loại liệt kê. Giá trị của nó là, M10, M20,..., M50, F10, F20,..., F50, và không biết.RuleBaseProfiler hành viTổng quanGiai cấp đại diện cho hồ sơ để ước tính các hồ sơ có chứa sinh học đã chỉ định văn bản Tweet hay không.phân loại phương pháp mất đối tượng đại diện cho tweet, trả lại, ước tính theo quy định rằng nó đăng hồ sơ người dùng. Không được phép trở về null tại thời điểm này.Bạn phải tải phân loại quy tắc đã được viết bằng, lớp này mất đối tượng tập tin trong các nhà xây dựng.Quy tắc định dạng tập tinTệp Qui tắc chứa, một quy tắc cho mỗi dòng. Inferred quy tắc, người sử dụng khi từ khoá được bao gồm trong sinh học, đã viết sinh học trong tab-delimited hồ sơ tương ứng từ khóa, giới tính và tuổi tác. Nếu các được biểu thị dưới * và nếu bạn có thể đoán chỉ hoặc giới tính và tuổi tác, mặt khác không biết, không biết làm thế nào.Nội dung của nó cho ví dụ: trông giống như.Cậu bé Trung học M 10Sinh trung học F 10Học sinh trung học * 10Quần M *Nữ F *Điều này thể hiện các quy tắc sau đây.học sinh trung học trong sinh học10 tỷhọc sinh trung học trong sinh học"Không biết tình dục thiếu niên"chàng trai trong sinh học"Con người không xác định"'cô gái' trong sinh học' Phụ nữ trong độ tuổi không được báo cáo 'Nếu bạn thích, trong quá trình khởi tạo nên nâng cao một ngoại lệNếu bạn có cùng một từ khoá xuất hiện trong tệp quy tắcNếu chuỗi không thể được hiểu là một giới tính được đính kèmNếu chuỗi không thể được hiểu là lứa tuổi được đính kèmCác quy tắc về khoảng trắng và ý kiến thực hiện theo các thông số kỹ thuật sau đây.Xóa trống trước và sau khi mỗi chuỗi đại diện cho một từ khóa, tuổi, và được hiểu là cácVà lỗi, chỉ cần bỏ qua dòng có chứa chỉ khoảng trắng (dòng trống)Từ nửa pound (#) là một bình luận cho đến cuối dòng. Xin vui lòng điều trị như một trốngĐể cho phép ý kiến và khoảng trắng phụ là để dễ dàng viết quy tắc.Xin vui lòng bỏ qua như vô nghĩa quy tắc chẳng hạn như:Nếu từ khóa không chứa chỉ khoảng trắngGiới tính, tuổi tác, cả hai * như cóNgoài ra, đặc biệt định dạng như: xử lý xin vui lòng.Nếu các chuỗi theo sau một tab, theo sau là các từ khóa chính xác, giới tính, tuổi, bỏ qua các chuỗi sau khi tab tuổi sau khi. Để suy nghĩ về nếu này tack, ghi một quy tắc mới.Nếu bạn không làm theo các định dạng khác với tất cả ở trên là một lỗi trong quá trình khởi tạo ngoại lệ tăng nênGiải thích các quy tắcNếu bạn ăn cắp bất kỳ quy tắc, Hồ sơ người dùng không biết.Áp dụng một hoặc nhiều quy tắc, phù hợp với họ, nếu bạn tìm thấy cả hai giới tính và tuổi tác, Hồ sơ người dùng cũng không không biết bất kỳ cấu hình. Ví dụ, nếu học sinh trung học với sinh học, Hồ sơ của người dùng là F10 (teen girls). Hoặc, bao gồm cả học sinh trung học với một sinh học 'nữ', Hồ sơ người dùng là F10 (teen girls).Nếu bạn cũng sử dụng tất cả quy tắc là đúng giới tính hoặc tuổi không được báo cáo, Hồ sơ người dùng không biết. Ví dụ cho học sinh trung học chỉ áp dụng nếu giới tính chưa biết, và chưa biết.Nếu nếu bạn nhấn nhiều quy tắc xung đột, nên được suy ra là chưa biết. Ví dụ nếu các bé trai cao trường học và trường trung học sinh viên đồng thời là chưa biết.Kiểm tra quan điểmHệ thống bình thườngĐảm bảo rằng trường hợp được khởi tạo đúng bởi các quy tắc như sau.Một tập tin rỗngCó chứa chỉ là các quy tắc chính xác định dạngChứa các tab ngoại trừ trống trước và sau khi từ khoá, giới tính, tuổiTrong đó có hàng trống nàoBao gồm cả các ý kiếnThêm cột (tab theo tuổi và bất kỳ chuỗi ký tự) có chứa dòngXin vui lòng kiểm tra, phân loại các phương pháp để hoạt động được nếu sau đây.Nếu các quy tắc không phải là tệp Qui tắc. Phương pháp nên luôn luôn trở lại chưa biết.Trường hợp nơi một quy tắc duy nhấtNếu chỉ có một quy tắc áp dụng, chấp nhận hồ sơNếu chỉ có một quy tắc áp dụng, đó là giới tính hoặc tuổi không được báo cáoNếu các quy tắc áp dụng ít nhất hai, chấp nhận hồ sơNếu các quy tắc hơn một áp dụng, không được báo cáo bởi giới tính hoặc tuổiLoạt các bất thườngNếu sau đây nên là một ngoại lệ.Nếu các quy tắc tập tin định dạng bất thường lúc khởi tạo thời gian,BayesianClassifier hành viTổng quanHồ sơ danh từ sinh học tweets và văn bản xuất hiện, họ đã bày tỏ hồ sơ để đoán cấu hình bằng cách kiểm tra cho dù các lớp học đặc trưng danh từ.Bạn cần phải tải một số lần xuất hiện của từ viết bằng một đối tượng tập tin cho mỗi cấu hình mỗi, lớp này mất tập tin đối tượng và ngưỡng trong các nhà xây dựng.phân loại phương pháp mất đối tượng đại diện cho tweet, trả lại, ước tính theo quy định rằng nó đăng hồ sơ người dùng. Không được phép trở về null tại thời điểm này.Quyết định quy trìnhBayesianClassifier, tính toán xác suất của tất cả các thông tin hồ sơ, thuộc cấu hình đó một tweet, ước tính các Tweets đăng bằng cách trả lại nó là hồ sơ người dùng hồ sơ cao nhất.Thủ tục quyết định này là một kế hoạch để thư rác (http://www.paulgraham.com/spam.html) đề cập đến. Xin vui lòng cho tôi biết nếu bạn dường như sử dụng các thuật toán sai mâu thuẫn với điều này.Các thủ tục trông như thế này.Để tính toán xác suất cho một tweet, nó là người đàn ông, các xác suất của phụ nữ trong, xác suất của thiếu niên, xác suất của 20-somethings, xác suất... fifties trongVề giới tính của người dùng, chọn một xác suất cao. Tuy nhiên, nếu falls dưới ngưỡng thiết lập để xử lý không rõTuổi của người dùng, chọn một xác suất cao. Tuy nhiên, nếu falls dưới ngưỡng thiết lập để xử lý không rõTrả về tương ứng, xác định cấu hình giới tính và tuổi tác. Trở lại chưa biết nếu một trong hai là không rõ ràng nhưng một) ( Ví dụ quần tweets một tweet, với một xác suất thuộc tính được tính như sau.Vào danh sách danh từ tweets sinh học và phân tích hình Thái văn bản đầy đủ, và xuất hiệnCác thuộc tính của một người dùng đăng nó về một chữ w, p xác suất cho công thức 1. Và prob (p, w) để làm điều này.| prob (p, w)-0.5 | tối đa, trong thứ tự giảm dần bằng cách chọn 15 danh từ. Ngoại trừ những gì giá trị này là 0. Danh từ tập thể để W.Bởi phương trình 2 tính toán xác suất bạn gửi tweets từ W, thuộc tính người dùng trong các p.Chỉ khi ngưỡng này không vượt quá nếu các cấu hình của hầu hết các tỷ lệ cược lớn để trở về sự trở lại như UNKNOW.Xác suất chứ không phải thời gian để xác định các hồ sơ, giới tính và tuổi để xác định một cách riêng biệt M10, M20 xác suất. Và các lý do như vậy không phải để làm như vậy có thể là cách để xác định, do đó, từ các dữ liệu khối lượng là quá thấp.Tại sao các bản án ở nam giới là người đàn bà, và một trong những người đàn ông là từ dường như đã nói và những gì phụ nữ không biết.Công thức 1all_but (p) với các thuộc tính trong các p.Tổng số Tweets đăng bởi người dùng với thuộc tính k lần xuất hiện của từ w là trong các tweet đã được đăng bởi người dùng có thuộc tính k num (k, w) để allnum (k).Sau đó công thức 1 có thể được biểu thị dưới dạng:.def prob (p, w): Nếu in a (p, w) + num (all_but (p), w) < 5: trở về 0,5 p_prob = min (1, 2 * num (p, w) / allnum (p)) q_prob = min (1, num (all_but (p), w) / allnum (all_but (p))) trở về phút (0,99, tối đa (0.01, p_prob / (p_prob + q _ prob)))Biểu hiện 2Xác suất với thuộc tính p người dùng gửi Tweets có chứa từ w để prob (w, p), và loại 2 có thể được đại diện như:.def expr2 (W, p): p_prob = 1 cho w trong W: p_prob = p_prob * prob (w, p) n_prob = 1 cho w trong W: n_prob = n_prob * (1-prob (w, p)) trở lại p_prob / (n_prob + p _ prob)Định dạng của tập tin được sử dụng để khởi tạo cácBayesianClassifier nhận được một tập tin khởi tạo là một tập tin CSV ghi lại tất cả các tweets số thuộc về danh sách các thuộc tính, mỗi thuộc tính, và số lần xuất hiện của từ, và cho mỗi cấu hình. Tập tin được mã hóa theo UTF-8.Cụ thể, các nội dung của tập tin trông như thế này.Hồ sơ, M, F, 10, 20, 30, 40,50num_of_tweets, 172, 139,172, 93,129, 126, 87word1, 72, 31, 38, 82, 59,109, 22Trong trường hợp này, dòng 1 chi.
đang được dịch, vui lòng đợi..