国产99久久精品_欧美日本韩国一区二区_激情小说综合网_欧美一级二级视频_午夜av电影_日本久久精品视频

最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當前位置: 首頁 - 科技 - 知識百科 - 正文

思路總結-----對微博情感分析的的挖掘

來源:懂視網 責編:小采 時間:2020-11-09 12:14:17
文檔

思路總結-----對微博情感分析的的挖掘

思路總結-----對微博情感分析的的挖掘:一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期的實驗實踐。實際上,文本挖掘及分析在未來都會產生較大的效果。舉一 一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期
推薦度:
導讀思路總結-----對微博情感分析的的挖掘:一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期的實驗實踐。實際上,文本挖掘及分析在未來都會產生較大的效果。舉一 一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期

一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期的實驗實踐。實際上,文本挖掘及分析在未來都會產生較大的效果。舉一

一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期的實驗實踐。實際上,文本挖掘及分析在未來都會產生較大的效果。舉一個簡單的例子,現在地鐵里的每個人每天都會去刷新自己的人人好友圈,微信好友消息。而這些消息大部分是基于文本的。如何對這些原始的消息進行挖掘。進而為相應的精準營銷做準備。在以后的營銷中將會產生重大效果。

原始數據

這一部分的內容,我們可以通過爬蟲技術來抓取。通過聚類算法,找到相同話題的所有微博。然后拿來做為原始數據。還有就是用戶好友圈內的評價消息,還有用戶產生的連接消息,等等。這些都可以作為原始數據來歸入我們的數據庫。

確訂目標(商業理解)

這一步也同時與業務理解要很好的關聯起來,首先,我們是要用這些原始數據來作什么?比如,我們用情感分析,所有不同用戶對同一事件的理解。我們要將他們的微博信息里的關鍵詞找出來。然而進行相應的查找算法,進而確定所有用戶對這一事件的評價。然后,我們要通過用戶的評價,找到有二次商業利用值的客戶。然后確訂為目標客戶。

數據理解

所抓取到的微博內容是什么,里邊帶幾個鏈接?是用什么符號與之相連?文字,圖片的分類,另外還有評論信息是否也有參考價值。里邊的特殊符號代表什么?等等。這些信息,那些是對我們的來說是有用的,如何去用?比如說要從文本中挖掘出關建字,進行相關的營銷活動。從而確定博主的情感動向。進而可以做些什么?理解我們的數據,才能更好的抓取到我們所要使用的數據。

模型建立

有人說,搞數據挖掘的人就是要來做這一部分的內容。你要建立一個好的模型,那以后的數據通過你的這個模型,那么你所需要的內容自動地就會呈現出來。而這一部分也是整個數據挖掘里最難的部分。

比如說我們的微博數據,我們可以通過決策樹算法建立模型。最后輸出那些關健字的客戶就是我們的目標客戶。又或者,我們可以通過神經網絡的算法建立模型,找到相關的所的決策項。實際上,數據挖掘所用到的方法很多,也很復雜,我也是到現在還是沒有弄清楚一些算法的核心思想。但這樣并不影響我們來使用相關的算法來進行挖掘。再者說,現在的挖掘對象,真正上PB內容的資料也不是很多的。很多企業還停留在小型機的階段。所以,有的時候,我會開玩笑的說:數據量太小的話,EXECL會更好一些,然后是ACCESS數據庫。再然后就是ORCALE數據庫.....

模型建立是一個比較幸苦的工作,可是如果建立完成后,一般3-5年不會發生變化。比如我們現在的信用卡的信用評分系統。

模型評估

這一部分內容,是進行相關優化。也就是說模型建立好了,開始要跑業務了。要測試一下看它到底能跑到什么樣的程度。有的時候,,你挖掘了半年,也找到的目標客戶,結果被其他人先用其他方法吸引走了,怎么辦?所以才要有模型評估這件工作。

先將大數據里的一部分數據,一般是40%拿來先做訓練,你也可以拿少量來試一試。然后看完成這些數據需要多長時間。換了其他的算法后,是否可以提高挖掘時間。一般這一步的數據分配要遵守一個4:3:3的原則,即40%拿來做訓練,30%來做測試,另外的30%拿來做驗證。綜合來說,才能夠評價這個模型的好壞,以及這個模型是否能產生它的相應價值。

發布模型

這是最后一步,讓所有微博數據進行相應的算法優化。進而達到最好的挖掘效果。


在以上的這幾個步驟中,模型評估與商業理解其實也是相輔相成的,因為這兩個主要是與數據最為密切。而數據理解與商業理解又是相互制約的,很多時候,我們是有了大數據,但是我們找不到我們的所要挖掘的目標在那里,這時就需要不斷的修訂我們的商業理解與數據理解,然而,模型的相關內容,在整個閉環的過程中并不顯的那么重要。有的時候,客戶的一個很簡單的需求,我們并不一定要用復雜的技術來實現,簡單也許就意味著勝利。


再來說說在文本挖掘中的思路,少量的文本信息。我們可以放在在WORD里用復制粘貼來完成,多的話可以用EXCEL,再多的話可以用U1,要是還是多就用SAS與R,再多就用其他的了,具體什么軟件,我也沒用過。


好了,就先總結這么多吧。下周有空再寫吧!

本文出自 “數據挖掘與可視化” 博客,轉載請與作者聯系!

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

思路總結-----對微博情感分析的的挖掘

思路總結-----對微博情感分析的的挖掘:一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期的實驗實踐。實際上,文本挖掘及分析在未來都會產生較大的效果。舉一 一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期
推薦度:
標簽: 微博 朋友 情感
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

專題
Top
主站蜘蛛池模板: 欧美a区 | 欧美亚洲免费 | 国产对白在线播放九色 | 欧美日韩国产三级 | 亚洲精品成人久久 | 亚洲色图日韩精品 | 欧美第5页 | 日韩一区二区久久久久久 | 亚洲欧美经典 | 久久久久久久国产高清 | 美女一级毛片免费观看 | 国产精品三级一区二区 | 图片亚洲va欧美va国产综合 | 久久久久久久亚洲精品 | 国产特级毛片aaaaaa高清 | 欧美亚洲综合激情在线 | 国产成人精品视频 | 欧美日韩国产在线观看 | 国产a久久精品一区二区三区 | 亚洲精品日韩中文字幕久久久 | 欧美日韩国产精品综合 | 亚洲第七页 | 久久2| 久久精品国产精品亚洲毛片 | 怡红院一区二区三区 | 欧美另类日韩 | 亚洲欧美日韩综合在线 | 日本免费大黄 | 五月婷婷综合网 | 国产日本在线 | 国产精品一区二区不卡 | 欧美综合国产 | 国产欧美日韩另类va在线 | 香蕉视频啪啪 | 日本a级精品一区二区三区 日本不卡视频一区二区三区 | 国产成人精品999在线观看 | 香港黄色| 成人精品视频在线观看完整版 | 国产中文在线观看 | 国产精品99久久久久久www | 亚洲一区二区三区在线播放 |