Bạn đang xem bạn dạng rút gọn của tài liệu. Coi và download ngay phiên bản đầy đầy đủ của tài liệu tại đây (1.46 MB, 69 trang )


1.2 khám phá tri thức cùng quá trình mày mò tri thức1.2.1 khám phá tri thức
Khám phá hay phát hiện học thức trong CSDL là 1 trong những quy trình nhận biếtcác mẫu mã hoặc các quy mô trong dữ liệu với những tính năng: Phân tích, tổnghợp, thích hợp thức, khả ích, và rất có thể hiểu được. Còn khai thác dữ liệu là một bướctrong quy trình khám phá tri thức gồm có những thuật toán khai quật dữ liệuchuyên sử dụng dưới một số trong những quy định về tác dụng tính toán gật đầu đồng ý được đểtìm ra những mẫu hoặc các mô hình trong dữ liệu. Nói một biện pháp khác, mục đíchcủa phát hiện tri thức và khai phá dữ liệu chính là tìm ra những và/hoặc các môhình vẫn tồn tại trong số CSDL nhưng vẫn tồn tại bị bịt khuất bởi hàng núi dữliệu.1.2.2 quá trình tìm hiểu tri thức
Việc tìm hiểu tri thức thông thường rất có thể mô tả bằng sơ đồ những quy trìnhsau:Hình 1: quá trình khám phá tri thức12 Trong đó, mỗi bước là một trong quy trình có vai trò riêng rẽ và nhiệm vụ khácnhau, bao gồm:Bước sản phẩm công nghệ nhất: tò mò lĩnh vực ứng dụng và hình thành bài toán,bước này sẽ ra quyết định cho việc rút ra được những tri thức hữu ích và cho phépchọn các phương thức khai phá tài liệu thích phù hợp với mục đích áp dụng vàbản chất của dữ liệu.Bước thứ hai: thu thập và xử lý tài liệu thô, còn được gọi là tiền xử lýdữ liệu nhằm vứt bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu cùng rútgọn tài liệu nếu bắt buộc thiết, đoạn này chiếm khá nhiều thời gian trong toàn bộquy trình mày mò tri thức.Bước đồ vật ba: khai phá dữ liệu, hay nói cách khác là trích ra các mẫuhoặc/và các quy mô ẩn dưới các dữ liệu.Bước vật dụng tư: Hiểu tri thức đã kiếm tìm được, nhất là làm sáng tỏ những môtả và dự đoán. Các bước trên hoàn toàn có thể lặp đi lặp lại một số trong những lần, công dụng thu đượccó thể được đem trung bình trên tất cả các lần thực hiện.Bước máy năm: Sử dụng tri thức đã được khai phá vào thực tế. Những trithức phát hiện tại được tích hợp chặt chẽ trong hệ thống. Mặc dù để sử dụngđược các tri thức đó nhiều lúc cần mang đến các chuyên viên trong các nghành quantâm vì học thức rút ra hoàn toàn có thể chỉ mang ý nghĩa chất cung ứng quyết định hoặc cũng cóthể được áp dụng cho một vượt trình khám phá tri thức khác.Mặc dù được bắt tắt thành năm bước nhưng thực chất quy trình xâydựng và triển khai việc tìm hiểu tri thức không những tuân theo công việc cốđịnh cơ mà các quy trình này còn rất có thể được lặp đi lặp lại tại một hoặc một sốgiai đoạn trước cùng cứ liên tiếp như cầm sẽ có tác dụng cho quy trình khai phá và tìmkiếm dữ liệu ngày càng hoàn thành hơn.13 1.3 khai phá dữ liệu1.3.1 khai phá dữ liệu
Khai phá dữ liệu là 1 trong giai đoạn đặc biệt trong quy trình khám phátri thức. Về thực chất nó là giai đoạn duy nhất tìm ra được thông tin mới. Việckhai phá dữ liệu còn được coi như là việc khai phá trí thức từ dữ liệu, trích lọctri thức, phân tích dữ liệu – mẫu, đào xới, nạo vét dữ liệu.Khai phá tài liệu (Data Mining) được khái niệm là quá trình trích lọccác thông tin có quý hiếm ẩn vào lượng lớn tài liệu được tàng trữ trong các
CSDL hoặc những kho dữ liệu … khai phá dữ liệu cũng nói một cách khác là mộtquá trình tra cứu kiếm, tìm hiểu ở nhiều góc nhìn để tìm kiếm ra các mối tương quan,các mối liên hệ dưới nhiều góc độ khác biệt nhằm tìm ra các mẫu hay các môhình tồn tại phía bên trong cơ sở dữ liệu hiện giờ đang bị che khuất. Để trích rút những mẫu,mô hình tiềm ẩn có tính “tri thức” ta bắt buộc tìm cùng áp dụng những phương pháp, kỹthuật khai phá thế nào cho các nghệ thuật và phương pháp này phải cân xứng với tínhchất, đặc thù của dữ liệu và mục tiêu sử dụng. Tuy khai phá dữ liệu chỉ làmột cách trong vượt trình tìm hiểu tri thức nhưng này lại là bước tiên quyết,quan trọng và ảnh hưởng đến tổng thể quá trình.Tóm lại, khai thác dữ liệu là một quá trình tìm kiếm tin tức “tri thức”tiểm ẩn vào cơ sở tài liệu lớn, khổng lồ. Bởi vì thế, có thể nói rằng rằng nhị thuật ngữkhám phá học thức và khai phá dữ liệu là tương đương nếu nói ngơi nghỉ khía cạnhtổng quan, còn trường hợp xét ở góc độ cụ thể thì khai phá dữ liệu là một trong những giai đoạncó vai trò quan trọng đặc biệt trong quá trình khám phá tri thức.1.3.2 mục tiêu của khai phá dữ liệu
Qua phần đông nội dung đã trình diễn ở trên, ta có thể hiểu một biện pháp sơ lượcrằng khai thác dữ liệu là quy trình tìm kiếm thông tin hữu ích, tàng ẩn và mangtính dự báo trong số cơ sở tài liệu lớn. Việc khai thác dữ liệu nhằm mục đích các mụcđích chính như sau:14 - khai quật những tin tức tiềm ẩn mang tính chất chất dự kiến từ mọi cơsở tài liệu lớn dựa trên các công cụ khai phá dữ liệu nhằm mục đích dự đoánnhững xu hướng trong tương lai nhằm mục tiêu giúp các đối tượng người sử dụng cần khai phátri thức như: những tổ chức, doanh nghiệp, bên nghiên cứu, … để hỗ trợviệc đưa ra những ra quyết định kịp thời, được lý thuyết trên phần đông trithức được mày mò mang lại.- tiến hành phân tích xử lý, đo lường và thống kê dữ liệu một cách auto cho mỗiquá trình xử lý tài liệu để tìm ra tri thức.1.3.3 quá trình khai phá dữ liệu
KPDL là một giai đoạn quan trọng trong quá trình KPTT. Về bản chất,nó là quy trình tiến độ duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn gồm trong
CSDL công ty yếu ship hàng cho mô tả và dự đoán. Dự đoán là thực hiện việc suyluận trên dữ liệu để lấy ra các dự báo nhằm phân tích tập dữ liệu huấn luyệnvà tạo thành một tế bào hình có thể chấp nhận được dự đoán các mẫu, quy mô mới không biết. Môtả dữ liệu là tổng kết hoặc diễn đạt những đặc điểm chung của không ít thuộctính tài liệu trong kho tài liệu mà bé người có thể hiểu được.Quá trình KPDL bao gồm các bước:Hình 2: quy trình khai phá dữ liệu
Xác định nhiệm vụ: Xác định đúng đắn các sự việc cần giải quyết.Xác định các dữ liệu liên quan: dùng làm xây dựng giải pháp.Thu nhập và tiền cách xử lý dữ liệu: thu thập các dữ liệu liên quan và tiềnxử lý chúng thế nào cho thuật toán KPDL rất có thể hiểu được. Đây là 1 trong những quá15 trình rất nặng nề khăn, bao gồm thể gặp gỡ rất nhiều các vướng mắc như: Dữ liệuphải được làm sao cho nhiều bản (nếu được chiết xuất vào những tệp), quản lýtập những dữ liệu, cần lặp đi tái diễn nhiều lần toàn cục quá trình (nếu môhình dữ liệu thay đổi), …Thuật toán khai thác dữ liệu: chọn lựa thuật toán KPDL và thực hiệnviệc KPDL để tìm được các mẫu tất cả ý nghĩa, những mẫu này được biểudiễn dưới dạng lao lý kết hợp, cây quyết định, … tương xứng với ý nghĩacủa nó.1.3.4 các hướng tiếp cận cơ bạn dạng và kỹ thuật vận dụng trong khai phádữ liệu
Vấn đề khai phá dữ liệu rất có thể được phân loại theo lớp các hướng tiếpcận thiết yếu sau:1.3.4.1Phân lớp cùng dự đoán
Hướng tiếp cận này làm trọng trách đưa ra các dự đoán phụ thuộc các suydiễn trên tài liệu hiện thời. Chuyên môn này bao gồm có: Phân lớp, hồi quy, … Là quátrình xếp một đối tượng vào một trong những lớp sẽ biết trước (ví dụ: phânlớp những bệnh nhân theo tài liệu hồ sơ căn bệnh án, phân lớp vùng địa lý theo dữliệu thời tiết …). Đối với hướng tiếp cận này hay sử dụng một trong những kỹ thuậtcủa máy như cây quyết định, mạng nơron nhân tạo, …1.3.4.2Phân các dữ liệu
Mục tiêu của cách thức phân cụm dữ liệu là quy trình nhóm cácđiểm tài liệu trong cơ sở dữ liệu thành các cụm thế nào cho những điểm dữ liệutrong cùng một cụm gồm độ tương đương lớn và phần đông điểm không cùng mộtcụm bao gồm sự tương đương là khôn xiết nhỏ. Điểm mạnh mẽ của phân cụm dữ liệu là gửi rađược đa số cấu trúc có ích hoặc những nhiều có đối tượng tìm thấy thẳng từdữ liệu mà lại không cần bất kì một học thức cơ sở nào. Y hệt như cách tiếp cậnhọc máy, phân cụm dữ liệu được gọi như là phương pháp “học không có16 thầy”. Không y hệt như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏiphải khái niệm trước các mẫu dữ liệu huấn luyện. Bởi thế, rất có thể coi phân cụmdữ liệu là 1 trong những cách học bằng quan sát, trong khi phân lớp dữ liệu là học tập bằngví dụ. Trong phương pháp này sẽ không biết hiệu quả các các thu được đang nhưthế như thế nào khi ban đầu quá trình. Bởi vậy, cần phải có một chuyên viên để nhận xét cáccụm thu được. Phân cụm tài liệu được sử dụng nhiều trong những ứng dụng vềphân đoạn thị trường, phân đoạn khách hàng hàng, nhấn dạng mẫu, phân một số loại trang
Web … xung quanh ra, phân cụm dữ liệu còn rất có thể được sử dụng như một bướctiền xử lý cho các thuật toán khai thác dữ liệu khác.1.3.4.3Phân lớp tài liệu và hồi quy
Mục tiêu của phương pháp phân lớp là dự đoán nhãn lớp cho những mẫudữ liệu. Quy trình phân lớp tài liệu thường tất cả 2 bước: Xây dựng mô hình vàsử dụng tế bào hình: bước 1: Một quy mô sẽ được xây dựng dựa vào việc so với cácmẫu tài liệu sẵn có. Mỗi mẫu tương ứng với một lớp, được quyết địnhbởi một ở trong tính hotline là trực thuộc tính lớp. Các mẫu tài liệu này còn đượcgọi là tập tài liệu huấn luyện. Các nhãn lớp của tập tài liệu huấn luyệnđều bắt buộc được khẳng định trước khi phát hành mô hình, bởi vậy phươngpháp này còn được gọi là học gồm thầy, khác với phân cụm dữ liệu là họckhông gồm thầy. cách 2: Sử dụng quy mô để phân lớp dữ liệu. Trước hết nên tính độchính xác của mô hình. Nếu như độ đúng đắn là gật đầu được, mô hìnhsẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trongtương lai. Phương thức hồi quy khác với phân lớp tài liệu ở chỗ, hồiquy dùng để tham gia đoán về các giá trị tiếp tục còn phân lớp dữ liệu thì chỉdùng để tham gia đoán về các giá trị tránh rạc.17 1.3.5Thách thức – trở ngại trong tò mò tri thức và khai phá dữ liệu
KPTT với KPDL tương quan đến những ngành, nhiều nghành nghề dịch vụ trong thựctế, vày vậy các thách thức và trở ngại ngày càng nhiều, càng lớn. Một vài cácthách thức và cực nhọc khăn rất cần được quan tâm:Các cơ sở tài liệu lớn, các tập dữ liệu cần xử trí có size rất lớn,trong thực tế, size của những tập dữ liệu thường tại mức tera - byte (hàngngàn giga – byte) .- cường độ nhiễu cao hoặc tài liệu bị thiếu.- Số chiều lớn.- đổi khác dữ liệu cùng tri thức rất có thể làm cho các mẫu đã phát hiện khôngcòn phù hợp.- quan hệ giới tính giữa những trường phức tạp.1.3.6Ứng dụng của khai thác dữ liệu
Marketing: khẳng định các nhóm quý khách hàng (khách hàng tiềm năng,khách hàng giá bán trị, phân nhiều loại và dự đoán hành vi khách hàng, …) sử dụng sảnphẩm tốt dịch vụ của người sử dụng để giúp công ty có chiến lược marketing hiệuquả hơn.Biology: Phân nhóm động vật hoang dã và thực vật phụ thuộc các trực thuộc tính củachúng.Libraries: theo dõi và quan sát độc giả, sách, dự đoán nhu cầu của người hâm mộ …Insurance, Finance: Phân team các đối tượng người dùng sử dụng bảo hiểm và cácdịch vụ tài chính, dự đoán xu hướng (trend) của khách hàng hàng, phát hiện nay gianlận tài chính (identifying frauds).WWW: Phân loại tài liệu (document classification), phân loại ngườidùng web (clustering weblog), …18 1.3.7Kết luận
Khai phá dữ liệu đã với đang trở thành trong những hướng nghiêncứu nóng bỏng được sự thân thiện của nhiều chuyên viên về cntt trên thế giới vàđược ứng dụng trong nhiều nghành nghề dịch vụ khác nhau. Tại việt nam kỹ thuật nàycòn tương đối mới mẻ tuy vậy cũng sẽ được phân tích và dần gửi vàoứng dụng. Trong những năm gần đây, không ít các cách thức và thuậttoán mới tiếp tục được công bố. Điều này chứng tỏ những ưu thế, tác dụng vàkhả năng ứng dụng thực tiễn to mập của khai thác dữ liệu. Trong chương này đãtrình bày một bí quyết tổng quan tiền về khám phá tri thức và khai phá dữ liệu.19 CHƯƠNG 2PHÂN CỤM DỮ LIỆU VÀ CÁCTHUẬT TOÁN PHÂN CỤM DỮ LIỆU2.1 tư tưởng về phân nhiều dữ liệu
Phân nhiều dữ liệu là một kỹ thuật phân phát triển mạnh khỏe trong nhiều nămtrở lại trên đây do những ứng dụng và tác dụng to phệ của nó đối với các nghành nghề trongthực tế. Ở một nấc cơ bạn dạng nhất, người ta có mang phân cụm tài liệu nhưsau:Phân cụm dữ liệu là 1 trong những kỹ thuật trong Data Mining nhằm mục tiêu tìm kiếm,phát hiện những cụm, những mẫu dữ liệu thoải mái và tự nhiên tiềm ẩn và quan trọng trong tậpdữ liệu lớn để từ đó hỗ trợ thông tin, trí thức cho việc ra quyết định.Một nhiều các đối tượng dữ liệu rất có thể xem như một đội nhóm trong nhiềuứng dụng, ví dụ: mô hình về phân cụm các trường dựa vào tiêu chuẩn chỉnh về thunhập với số nợ. Cụm một là cụm những người dân thu nhập cao, số nợ nhiều, nhiều 2gồm những người thu nhập cao cơ mà nợ ít. Nhiều 3 tất cả những đối tượng thunhập ít những nợ nhiều.Hình 3: quy mô về phân cụm dựa trên tiêu chuẩn thu nhập với số nợ20 Quá trình phân cụm là quá trình tìm ra các đối tượng người dùng trong các đại lý dữliệu một bí quyết tự động. Không y như phân lớp, phân cụm không cầnnhững thông tin được khẳng định trước. Nói phương pháp khác, phân nhiều là phươngpháp học từ quan tiếp giáp hay có cách gọi khác là học ko thầy trong kiến thức nhân tạo.Phân các đặc biệt tác dụng khi lừng khừng về thông tin những cụm, hoặc khi taquan trung tâm tới các thuộc tính của các mà chưa biết hoặc biết ít về các thông tinđó.Bài toán phân cụm là quá trình nhóm một cơ sở dữ liệu thành nhữngnhóm đối tượng người sử dụng dữ liệu phục vụ cho mục đích ví dụ của từng vận dụng thứctế. Không tồn tại một thuật toán phân cụm nào là tốt nhất và phù hợp cho tất cảmọi vận dụng mà với mỗi ứng dụng không giống nhau người thì fan ta cần lựachọn ra một thuật toán phân cụm cụ thể thích ứng với áp dụng đó. Kết quảđánh giá cho từng thuật toán cũng dựa vào vào gần như yêu ước của từng ứngdụng.2.2 những ứng dụng của phân cụm
Phân cụm tài liệu đã và đang được nghiên cứu, áp dụng trong nhiềulĩnh vực không giống nhau ở các nước trên cầm giới, tại việt nam kỹ thuật này tươngđối còn new mẻ tuy nhiên cũng sẽ được phân tích và dần gửi vào ứngdụng trên nhiều nghành như:- quy hoạch đô thị: nhấn dạng những nhóm nhà theo phong cách và vùng địa lý …nhằm báo tin cho quy hoạch đô thị.- nghiên cứu trái đất: Phân nhiều để theo dõi các tâm đụng đất nhằm mục đích cungcấp thông tin cho dìm dạng những vùng nguy hiểm.- yêu đương mại: tìm kiếm kiếm nhóm các khách hàng đặc biệt có đặc trưngtương đồng và phần đông đặc tả chúng ta từ các bản ghi giao thương trong CSDLmua hàng.- Sinh học: Phân loại những gen với các công dụng tương đồng và thu đượccác cấu tạo trong mẫu.21

Hai phần cha phụ huynh tại Anh hoảng sợ vì ko thể vấn đáp những câu hỏi khoa học rộng rãi mà đa số đứa con của mình đặt ra.

Bạn đang xem: Khám phá tri thức học đường


Rùng mình tiên đoán mối đe dọa năm 2016?
Hai nhà tiên tri nối tiếng nhân loại Vanga cùng Nostramadus đã chuyển ra một loạt những dự báo về trái đất trong năm năm nhâm thìn khiến ít nhiều người hoang mang. Liệu trong số những dự đoán đó gồm điều gì sẽ trở thành hiện thực?
các biện pháp xử trí khi bị ngộ độc thực phẩm tận nhà
Ngộ độc lương thực là biểu thị bệnh lý mở ra sau lúc ăn, uống đều thức ăn nhiễm độc, lây nhiễm khuẩn, thức nạp năng lượng bị vươn lên là chất ôi thiu, tất cả chất bảo quản, phụ gia.
Lời tiên tri đáng sợ của Vanga năm 2016 là có cơ sở
Nhà tiên tri Vanga đã từng có những lời tiên tri đoán trước về nhiều sự kiện quan liêu trọng và đáng sợ đã và sẽ xảy ra trên thế giới, có những tiên đoán đã thành 70% hiện thực.
công ty tiên tri Vanga và những dự đoán về những thảm họa
Không có khá nhiều người tin vào tiên đoán của không ít nhà tiên tri. Mặc dù nhiên, tín đồ ta bắt buộc làm ngơ khi phần đông tiên đoán đó thành hiện thực tới 70%. Hãy cùng xem các tiên tri của Vanga qua nội dung bài viết dưới đây
định hướng của Einstein chứng minh ma gồm thật?
Những bạn săn ma tin rằng sự tồn tại của ma có thể được khẳng định bằng định hướng về tích điện của Albert Einstein.
Ma quỷ có thực sự tồn tại? Đây là một trong những câu hỏi bí ẩn gây nhiều bất đồng quan điểm nhất trong lịch sử vẻ vang loài người. Trường đoản cú xa xưa, lúc con người dân có nhận thức, họ đang tin và ma quỷ. Mặc dù nhiên, cho tới ngày nay các nhà khoa học vẫn chưa tìm kiếm được câu trả lời cho hiện nay tượng bí hiểm siêu nhiên này.
Việc phát hiện một loại chất protein đặc biệt đã giúp các nhà khoa học trả lời cho câu hỏi chưa tìm được lời đáp vào suốt hàng ngàn năm qua.
Bắt đầu xây dựng từ thời điểm năm 1994 và kết thúc vào năm 2012, đập Tam Hiệp đem về nhiều tiện ích kinh tế rất nhiều cũng nhận các chỉ trích về tác động ảnh hưởng cho môi trường thiên nhiên xung quanh.

Xem thêm: Giải Bài Tập Bằng Camera 4+, Hướng Dẫn Giải Bài Tập Qua Ảnh Chụp Điện Thoại


Một tổ chức triển khai tiên tri dự báo vào ngày 29/7, Trái Đất đã trải sang một trận động đất toàn cầu dữ dội, đồng thời các vì sao cũng trở nên liên tục rơi xuống thế giới xanh.
*
technology mới
*
phần mềm hữu ích
*
Khoa học máy tính
*
phát minh sáng tạo khoa học tập
*
AI - Trí tuệ nhân tạo
*
tò mò khoa học tập
*
Sinh đồ học
*
Khảo cổ học
*
Đại dương học
*
trái đất động đồ
*
Danh nhân thế giới
*
công nghệ vũ trụ
*
1001 bí hiểm
*
Ngày tận cầm
*
đoạt được sao Hỏa
*
Kỳ quan trái đất
*
Người thiên hà - UFO
*
Trắc nghiệm khoa học
*
lịch sử vẻ vang Khoa học quân sự nguyên nhân Địa danh khét tiếng dịch và thông tin bệnh
*
Y học tập - sức mạnh
*
môi trường xung quanh
*
ung thư virut Covid 19
*
Ứng dụng kỹ thuật
*
Khoa học & Bạn gọi
*
dự án công trình khoa học
*
câu chuyện khoa học
*
Sự kiện khoa học
*
Thư viện hình ảnh
*
Góc vui nhộn
*
đoạn clip