BayesianClassifier hành viTổng quanHồ sơ danh từ sinh học tweets và văn bản xuất hiện, họ đã bày tỏ hồ sơ để đoán cấu hình bằng cách kiểm tra cho dù các lớp học đặc trưng danh từ.Bạn cần phải tải một số lần xuất hiện của từ viết bằng một đối tượng tập tin cho mỗi cấu hình mỗi, lớp này mất tập tin đối tượng và ngưỡng trong các nhà xây dựng.phân loại phương pháp mất đối tượng đại diện cho tweet, trả lại, ước tính theo quy định rằng nó đăng hồ sơ người dùng. Không được phép trở về null tại thời điểm này.Quyết định quy trìnhBayesianClassifier, tính toán xác suất của tất cả các thông tin hồ sơ, thuộc cấu hình đó một tweet, ước tính các Tweets đăng bằng cách trả lại nó là hồ sơ người dùng hồ sơ cao nhất.Thủ tục quyết định này là một kế hoạch để thư rác (http://www.paulgraham.com/spam.html) đề cập đến. Xin vui lòng cho tôi biết nếu bạn dường như sử dụng các thuật toán sai mâu thuẫn với điều này.Các thủ tục trông như thế này.Để tính toán xác suất cho một tweet, nó là người đàn ông, các xác suất của phụ nữ trong, xác suất của thiếu niên, xác suất của 20-somethings, xác suất... fifties trongVề giới tính của người dùng, chọn một xác suất cao. Tuy nhiên, nếu falls dưới ngưỡng thiết lập để xử lý không rõTuổi của người dùng, chọn một xác suất cao. Tuy nhiên, nếu falls dưới ngưỡng thiết lập để xử lý không rõTrả về tương ứng, xác định cấu hình giới tính và tuổi tác. Trở lại chưa biết nếu một trong hai là không rõ ràng nhưng một) ( Ví dụ quần tweets một tweet, với một xác suất thuộc tính được tính như sau.Vào danh sách danh từ tweets sinh học và phân tích hình Thái văn bản đầy đủ, và xuất hiệnCác thuộc tính của một người dùng đăng nó về một chữ w, p xác suất cho công thức 1. Và prob (p, w) để làm điều này.| prob (p, w)-0.5 | tối đa, trong thứ tự giảm dần bằng cách chọn 15 danh từ. Ngoại trừ những gì giá trị này là 0. Danh từ tập thể để W.Bởi phương trình 2 tính toán xác suất bạn gửi tweets từ W, thuộc tính người dùng trong các p.Chỉ khi ngưỡng này không vượt quá nếu các cấu hình của hầu hết các tỷ lệ cược lớn để trở về sự trở lại như UNKNOW.Xác suất chứ không phải thời gian để xác định các hồ sơ, giới tính và tuổi để xác định một cách riêng biệt M10, M20 xác suất. Và các lý do như vậy không phải để làm như vậy có thể là cách để xác định, do đó, từ các dữ liệu khối lượng là quá thấp.Tại sao các bản án ở nam giới là người đàn bà, và một trong những người đàn ông là từ dường như đã nói và những gì phụ nữ không biết.Công thức 1all_but (p) với các thuộc tính trong các p.Tổng số Tweets đăng bởi người dùng với thuộc tính k lần xuất hiện của từ w là trong các tweet đã được đăng bởi người dùng có thuộc tính k num (k, w) để allnum (k).Sau đó công thức 1 có thể được biểu thị dưới dạng:.def prob (p, w): Nếu in a (p, w) + num (all_but (p), w) < 5: trở về 0,5 p_prob = min (1, 2 * num (p, w) / allnum (p)) q_prob = min (1, num (all_but (p), w) / allnum (all_but (p))) trở về phút (0,99, tối đa (0.01, p_prob / (p_prob + q _ prob)))Biểu hiện 2Xác suất với thuộc tính p người dùng gửi Tweets có chứa từ w để prob (w, p), và loại 2 có thể được đại diện như:.def expr2 (W, p): p_prob = 1 cho w trong W: p_prob = p_prob * prob (w, p) n_prob = 1 cho w trong W: n_prob = n_prob * (1-prob (w, p)) trở lại p_prob / (n_prob + p _ prob)Định dạng của tập tin được sử dụng để khởi tạo cácBayesianClassifier nhận được một tập tin khởi tạo là một tập tin CSV ghi lại tất cả các tweets số thuộc về danh sách các thuộc tính, mỗi thuộc tính, và số lần xuất hiện của từ, và cho mỗi cấu hình. Tập tin được mã hóa theo UTF-8.Cụ thể, các nội dung của tập tin trông như thế này.Hồ sơ, M, F, 10, 20, 30, 40,50num_of_tweets, 172, 139,172, 93,129, 126, 87word1, 72, 31, 38, 82, 59,109, 22Trong trường hợp này, đại diện cho số lần xuất hiện của từ và thuộc tính mỗi dòng số tweets tất cả thuộc về mỗi thuộc tính danh sách thuộc tính, dòng 2, dòng 3 và sau đó.Nếu bạn thích, trong quá trình khởi tạo nên nâng cao một ngoại lệNếu không thuộc tính danh sách và tổng số tweetsNếu chứa ký tự không thể được hiểu là các thuộc tính trong danh sách thuộc tính,Nếu ngay cả một giá trị tiêu cực là các tweets tất cảBỏ qua thứ ba hàng là dòng tiếp theo.Dòng sản phẩm nàoCột Số lần xuất hiện từ danh sách số là ít hơn các cột trong danh sách các thuộc tính nếu (số và thuộc tính không được ánh xạ)Nếu số lần xuất hiện của từ chứa ít nhất một giá trị tiêu cựcKiểm tra quan điểmHệ thống bình thườngĐảm bảo rằng trường hợp được khởi tạo đúng bởi các quy tắc như sau.Chỉ các quy tắc chính xác định dạng bao gồm.Bao gồm chỉ là danh sách cấu hình và tổng số TweetsBao gồm các dòng sản phẩm nàoNhững người có số từ là tiêu cựcNhững gì có hàng số cột đại diện cho số lần xuất hiện của từ là không đủSố cột đại diện cho số lần xuất hiện của từ rất nhiều bao gồm dòng quáXin vui lòng kiểm tra, phân loại các phương pháp để hoạt động được nếu sau đây.Số lần xuất hiện của từ trong tất cả 0 khi tôi đọc nó, chẳng hạn như một tập tin. Phương pháp nên luôn luôn trở lại chưa biết.Loạt các bất thườngNếu sau đây nên là một ngoại lệ.Nếu từ sự xuất hiện số định dạng tập tin là bất thường trong quá trình khởi tạo,Nếu ngưỡng là 0 hoặc ít hơn, hoặc nhiều hơn một
đang được dịch, vui lòng đợi..