《數(shù)學(xué)之美》讀書筆記

時(shí)間：2024-05-31 04:56:51 讀書筆記我要投稿

相關(guān)推薦

　　當(dāng)細(xì)細(xì)地品讀完一本名著后，相信你心中會(huì)有不少感想，此時(shí)需要認(rèn)真地做好記錄，寫寫讀書筆記了。千萬不能認(rèn)為讀書筆記隨便應(yīng)付就可以，下面是小編幫大家整理的《數(shù)學(xué)之美》讀書筆記，僅供參考，大家一起來看看吧。

《數(shù)學(xué)之美》讀書筆記

《數(shù)學(xué)之美》讀書筆記1

　　《數(shù)學(xué)之美》，一個(gè)從事多年工作的谷歌研究員眼中的數(shù)學(xué)。令我大飽眼福的是，大學(xué)里面的數(shù)學(xué)知識(shí)竟能如此廣泛運(yùn)用到了計(jì)算機(jī)行業(yè)中。

　　在語音識(shí)別、翻譯，還有密碼學(xué)領(lǐng)域，有著許多基于概率統(tǒng)計(jì)的模型和思想。當(dāng)然，貝葉斯公式是基礎(chǔ)，應(yīng)用到隱含馬爾科夫鏈模型，神經(jīng)網(wǎng)絡(luò)模型。

　　在搜索中，一些相關(guān)性的計(jì)算，無不用到了概率的知識(shí)。在新聞分類中，用到了一些有關(guān)矩陣特征值、相似對(duì)角化的知識(shí)。當(dāng)然，在圖像處理方面，矩陣變換可謂是無處不在。另外，在識(shí)別方面，有一些通信模型，涉及到了信道、誤碼率、信息熵。

　　最近剛開學(xué)也沒什么事，所以就想隨便找?guī)妆緯匆幌拢詈脛e是那種太艱深晦澀的書。8月份一直到現(xiàn)在，吳軍寫的這本12年5月出版的《數(shù)學(xué)之美》一直盤踞京東、亞馬遜等各大網(wǎng)上商城科技類圖書的榜首，當(dāng)然，還有早些時(shí)候出版的《浪潮之巔》也排在很靠前的位置。心想市場的力量應(yīng)該能幫我挑出好書吧，于是就從圖書館借了一本來，一直到今天晚上把它給看完了。

　　因此想寫一點(diǎn)東西來總結(jié)、反思一下，反正剛開完班會(huì)也沒什么事干。

　　寫在前面的建議：如果你不討厭數(shù)學(xué)的話，強(qiáng)烈推薦這本書，網(wǎng)上也可以下到電子版，不過閱讀感覺上還是很不一樣的。

　　廢話就不多說了，《數(shù)學(xué)之美》其實(shí)是一本科普類的讀物，所面向的是接受過普通高等教育的人，完全不需要在特定領(lǐng)域有很深的造詣就可以看懂，大概懂一點(diǎn)線性代數(shù)、概率統(tǒng)計(jì)、組合數(shù)學(xué)、信息論、計(jì)算機(jī)算法、模式識(shí)別最好(雖然列舉了這么多，其實(shí)有些不懂也沒關(guān)系……)，所以尤其適合信科的人看。內(nèi)容大部分是和人工智能、計(jì)算機(jī)相關(guān)的，這并非我所學(xué)的專業(yè)，但作者比較擅長將看似復(fù)雜的原理用簡明的語言表達(dá)出來，所以可讀性還是很好的。

　　吳軍是清華大學(xué)畢業(yè)的，之前任職于Google，后來到了騰訊，這些文章都是發(fā)表在Google黑板報(bào)上的，后來經(jīng)過了重寫，所以網(wǎng)上下載的和書本內(nèi)容有所差異。由于吳軍本人是研究自然語言處理和語音識(shí)別的，所以統(tǒng)計(jì)語言模型的東西可能會(huì)多一點(diǎn)，不過我覺得這絲毫不妨礙全書數(shù)學(xué)之美的展現(xiàn)……感覺收獲還是挺多的，知識(shí)上的有一些，但更多還是思維方式上的。作者舉了很多例子試圖讓人明白很多看似復(fù)雜的高科技背后，基本原理其實(shí)是出乎意料簡單的(當(dāng)然，必須承認(rèn)第一個(gè)想到這些方法的人還是非常了不起的……)。比如高準(zhǔn)確率的機(jī)器翻譯，看上去好像是計(jì)算機(jī)能夠理解各國語言，隱藏在背后的卻是很多具有大學(xué)理科學(xué)歷的人都非常清楚的統(tǒng)計(jì)模型和概率模型;再比如拼音輸入法的數(shù)學(xué)原理，早期的研究主要集中在縮短平均編碼長度，比如曾經(jīng)流行一時(shí)的五筆輸入法，而現(xiàn)今真正實(shí)用的輸入法卻是有很多信息冗余、編碼長度比較長的拼音輸入法，作者從信息論和市場的角度做了簡單的闡述;又比如新聞的自動(dòng)分類，許多非IT領(lǐng)域的人可能會(huì)認(rèn)為計(jì)算機(jī)可以讀懂新聞并進(jìn)行分類，而實(shí)際上只是特征向量的抽取、多維空間中向量夾角的計(jì)算，非常非常簡單，但凡學(xué)過一點(diǎn)線性代數(shù)的人絕對(duì)是一看就懂的……當(dāng)然，完美的實(shí)現(xiàn)還需要考慮很多細(xì)節(jié)和現(xiàn)實(shí)的情況，但這并不是這本書所關(guān)注的地方，數(shù)學(xué)之美在于其簡潔而不是繁瑣。

　　除了對(duì)于具體信息技術(shù)的剖析之外，作者還花了很大篇幅來講一些杰出人士的成長過程，特別是把這些人的成長經(jīng)歷和中國學(xué)生的'成長經(jīng)歷作對(duì)比。雖然作者并沒有明說，但字里行間多少流露出對(duì)于中國高等教育以及很多中國企業(yè)的批評(píng)，一是教育的功利性，缺乏寬松的獨(dú)立思考的環(huán)境，即使學(xué)了一堆理論也難有用武之地，自然也就缺乏創(chuàng)新性的成果;二是中國企業(yè)的短視，大部分都不舍得在新框架開發(fā)上投資，而是坐享學(xué)術(shù)界和國外企業(yè)的研究成果。

　　總結(jié)一下呢，《數(shù)學(xué)之美》事實(shí)上不能帶給你編程能力的提升，也沒法讓人的數(shù)學(xué)水平有顯著的提升，但它在很大程度上讓你跳出教科書式的繁瑣細(xì)節(jié)的束縛，能夠從更宏觀的角度來思考信息世界背后的數(shù)學(xué)引擎的運(yùn)行原理，讓人明白看似很高級(jí)、復(fù)雜的東西背后其實(shí)并不如我們所想象的那樣復(fù)雜，而我們所學(xué)的“枯燥”的數(shù)學(xué)真的可以“四兩撥千斤”，改變億萬人的生活。

《數(shù)學(xué)之美》讀書筆記2

　　這本書一共3章，主要介紹了這些數(shù)學(xué)方法：統(tǒng)計(jì)方法、統(tǒng)計(jì)語言模型、中文信息處理、隱含馬爾科夫模型、布爾代數(shù)、圖論、網(wǎng)頁排名技術(shù)、信息論、動(dòng)態(tài)規(guī)劃、余弦定理、矩陣運(yùn)算、信息指紋、密碼學(xué)、搜索技術(shù)、數(shù)學(xué)模型、最大熵模型、拼音輸入法、貝葉斯網(wǎng)絡(luò)、句法分析、維特比算法、各個(gè)擊破算法等。從第一章開始其明了幽默的語言就深深的吸引了我，讓我覺得如果早一點(diǎn)看這本書，也許數(shù)學(xué)之于我就是另一番天地。

　　第一章里作者從原始人類的通信方式開始入手，人類最早利用聲音進(jìn)行的通信依賴于開篇給出的"編碼—傳輸—解碼"的基本原理，指出原始人的通信方式和今天的通信方式?jīng)]什么不同，這世界上近現(xiàn)代最普遍的原理大部分都在人類發(fā)展的歷史上被無意識(shí)的使用著。

　　第六章信息論給出了信息的度量，它是基于概率的，概率越小，其不確定性越大，信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性，同理自然語言處理的大量問題就是找相關(guān)的信息。信息熵的物理含義是對(duì)一個(gè)信息系統(tǒng)不確定性的度量，這一點(diǎn)與熱力學(xué)中的熵概念相同，看似不同的學(xué)科之間也會(huì)有著很強(qiáng)的相似性。事務(wù)之間是存在聯(lián)系的，要學(xué)會(huì)借鑒其他知識(shí)。

　　這本書里也能找到不少在學(xué)的課程知識(shí)，如大學(xué)專業(yè)課里，數(shù)電總是要比模電簡單不少，而自然界里大部分的信號(hào)都屬于模擬信號(hào)。所謂模擬信號(hào)，是指從時(shí)間和數(shù)值兩種維度上看來都是連續(xù)變化的信號(hào)。在實(shí)際電路中，模數(shù)轉(zhuǎn)換是一個(gè)很重要的過程，將預(yù)處理的模擬信號(hào)經(jīng)過模數(shù)變換為數(shù)字信號(hào)，然后進(jìn)行數(shù)字信號(hào)處理。而數(shù)字化處理有很多優(yōu)點(diǎn)，比如功能強(qiáng)大、抗干擾能力強(qiáng)、易于傳輸?shù)取?/p>

　　簡而言之，如果沒有數(shù)學(xué)，就沒有數(shù)字信號(hào)處理和傳輸?shù)母拍�，而�?shù)字信號(hào)傳輸在當(dāng)下大規(guī)模的集成電路里是必不可少的，這是通信成功的基本要求。

　　作者把生活中遇到的復(fù)雜的問題，以簡單清晰，直觀的模型或者公式展現(xiàn)出來。我們可能過于注意生活中的種種奇妙現(xiàn)象，往往忽略了追求其理論邏輯的演繹，而這，也是大部分問題的主要根源。

　　羅素曾經(jīng)說過："數(shù)學(xué)，如果正確地看，不但擁有真理，而且也具有至高的美";愛因斯坦也曾說過："純數(shù)學(xué)使我們能夠發(fā)現(xiàn)概念和聯(lián)系這些概念的規(guī)律，這些概念和規(guī)律給了我們理解自然現(xiàn)象的鑰匙。"數(shù)學(xué)在所有科學(xué)領(lǐng)域起著基礎(chǔ)和根本的作用。"哪里有數(shù)，哪里就有美"。在這里，我也想把《數(shù)學(xué)之美》真誠推薦給每一位對(duì)自然、科學(xué)、生活有興趣有熱情的.朋友，不管你是從事職業(yè)，讀一讀它，會(huì)讓你受益良多。

　　吳軍老師在《數(shù)學(xué)之美》中提到："這本書的目的是講道而不是講術(shù)。很多具體的搜索技術(shù)很快會(huì)從獨(dú)門絕技到普及，再到落伍，追求術(shù)的人一輩子工作很辛苦。只有掌握了搜索的本質(zhì)和精髓才能永遠(yuǎn)游刃有余"。回到我們?nèi)粘５纳钪�，需要學(xué)習(xí)的東西、技術(shù)太多太多，如果一味地只為去追技術(shù)的腳步，那么我們也會(huì)很累很累。然而基本的原理卻是沒有怎么變化的。只見森林，不見樹木，難免迷失;站在高處向下看，也許我們一直看不到底，但是站在底處卻是可以看見底的。

《數(shù)學(xué)之美》讀書筆記3

　　《數(shù)學(xué)之美》是一本領(lǐng)域相關(guān)的數(shù)學(xué)概念書，生動(dòng)形象地講解了關(guān)于數(shù)據(jù)挖掘、文本檢索等方面的基礎(chǔ)知識(shí)，可以作為數(shù)據(jù)挖掘、文本檢索的入門普及書。另外，就像作者吳軍老師提到的，關(guān)鍵是要從中學(xué)到道----解決問題的方法，而不僅僅是術(shù)。書中也啟發(fā)式的引導(dǎo)讀者形成自己解決問題的道。

　　下面記錄一下自己讀這本書的一些感想：

　　第一章《文字和語言vs數(shù)字和信息》：文字和語言中天然蘊(yùn)藏著一些數(shù)學(xué)思想，數(shù)學(xué)可能不僅僅的是一門非常理科的知識(shí)，也是一種藝術(shù)。另外，遇到一個(gè)復(fù)雜的問題時(shí)，可能生活中的一些常識(shí)，一些簡單的思想會(huì)給你帶來解決問題的靈感。

　　第二章《自然語言處理----從規(guī)則到統(tǒng)計(jì)》：試圖模擬人腦處理語言的模式，基于語法規(guī)則，詞性等進(jìn)行語法分析、語義分析的自然語言處理有著很大的復(fù)雜度，而基于統(tǒng)計(jì)的語言模型很好的解決了自然語言處理的諸多難題。人們認(rèn)識(shí)這個(gè)過程，找到統(tǒng)計(jì)的方法經(jīng)歷了20多年，非常慶幸我們的前輩已經(jīng)幫我們找到了正確的方法，不用我們?cè)偃タ嗫嗝鳌Ａ硗�，這也說明在發(fā)現(xiàn)真理的過程中是充滿坎坷的，感謝那些曾經(jīng)奉獻(xiàn)了青春的科學(xué)家。自己以后遇到問題也不能輕易放棄，真正的成長是在解決問題的過程中。事情不可能一帆風(fēng)順的，這是自然界的普遍真理吧！

　　第三章《統(tǒng)計(jì)語言模型》：自然語言的處理找到了一種合適的方法---基于統(tǒng)計(jì)的模型，概率論的知識(shí)開始發(fā)揮作用。二元模型、三元模型、多元模型，模型元數(shù)越多，計(jì)算量越大，簡單實(shí)用就是最好的。對(duì)于某些不出現(xiàn)或出現(xiàn)次數(shù)很少的詞，會(huì)有零概率問題，這是就要找到一數(shù)學(xué)方法給它一個(gè)很小的概率。以前學(xué)概率論的時(shí)候覺的沒什么用，現(xiàn)在開始發(fā)現(xiàn)這些知識(shí)可能就是你以后解決問題的利器。最后引用作者本章的最后一句話：數(shù)學(xué)的魅力就在于將復(fù)雜的問題簡單化。

　　第四章《談?wù)勚形姆衷~》：中文分詞是將一句話分成一些詞，這是以后進(jìn)一步處理的基礎(chǔ)。從開始的查字典到后來基于統(tǒng)計(jì)語言模型的分詞，如今的中文分詞算是一個(gè)已經(jīng)解決的問題。然而，針對(duì)不同的系統(tǒng)、不同的要求，分詞的粒度和方法也不盡相同，還是針對(duì)具體的問題，提出針對(duì)該問題最好的方法。沒有什么是絕對(duì)的，掌握其中的道才是核心。

　　第五章《隱馬爾科夫模型》：隱馬爾科夫模型和概率論里面的馬爾科夫鏈相似，就是該時(shí)刻的狀態(tài)僅與前面某幾個(gè)時(shí)刻的狀態(tài)有關(guān)�；诖罅繑�(shù)據(jù)訓(xùn)練出相應(yīng)的隱馬爾科夫模型，就可以解決好多機(jī)器學(xué)習(xí)的問題，訓(xùn)練中會(huì)涉及到一些經(jīng)典的算法(維特比算法等)。關(guān)于這個(gè)模型，沒有實(shí)際實(shí)現(xiàn)過，所以感覺好陌生，只是知道了些概率論講過的原理而已。

　　第六章《信息的度量和作用》：信息論給出了信息的度量，它是基于概率的，概率越小，其不確定性越大，信息量就越大。引入信息量就可以消除系統(tǒng)的不確定性，同理自然語言處理的大量問題就是找相關(guān)的信息。信息熵的物理含義是對(duì)一個(gè)信息系統(tǒng)不確定性的度量，這一點(diǎn)與熱力學(xué)中的熵概念相同，看似不同的學(xué)科之間也會(huì)有著很強(qiáng)的相似性。事務(wù)之間是存在聯(lián)系的，要學(xué)會(huì)借鑒其他知識(shí)。

　　第七章《賈里尼克和現(xiàn)代語言處理》：賈里尼克是為世界級(jí)的大師，不僅在于他的學(xué)術(shù)成就，更在于他的風(fēng)范。賈里尼克教授少年坎坷，也并非開始就投身到自然語言方面的研究，關(guān)鍵是他的思想和他的道。賈里克尼教授治學(xué)嚴(yán)謹(jǐn)、用心對(duì)待自己的學(xué)生，對(duì)于學(xué)生的教導(dǎo)，教授告訴你最多的是“什么方法不好”，這很像聽到的一句話“我不贊同你，但我支持你”。賈里克尼教授一生專注學(xué)習(xí)，最后在辦公桌前過世了。讀了這章我總結(jié)出的一句話是“思想決定一個(gè)人的高度”。

　　在這章中對(duì)于少年時(shí)的教育，以下幾點(diǎn)值得借鑒：

　　1、少年時(shí)期其實(shí)沒有必要花那么多時(shí)間讀書，他們的社會(huì)經(jīng)驗(yàn)、生活能力以及在那時(shí)樹立起的志向?qū)椭麄円簧?/p>

　　2、中學(xué)時(shí)花大量時(shí)間學(xué)會(huì)的內(nèi)容，在大學(xué)用非常短的時(shí)間就可以讀完，因?yàn)樵诖髮W(xué)階段，人的理解力要強(qiáng)很多。

　　3、學(xué)習(xí)（和教育）是一個(gè)人一輩子的過程。

　　4、書本的內(nèi)容可以早學(xué)，也可以晚學(xué)，但是錯(cuò)過了成長階段卻是無法補(bǔ)回來的。

　　第八章《簡單之美----布爾代數(shù)和搜索引擎的索引》：布爾是19世紀(jì)英國的一位中學(xué)教師，但他的公開身份是啤酒商，提出好的思想的`人不一定是大師。簡單的建立索引可以根據(jù)一個(gè)詞是否在一個(gè)網(wǎng)頁中出現(xiàn)而設(shè)置為0和1，為了適應(yīng)索引訪問的速度、附加的信息、更新要快速，改進(jìn)了索引的建立，但原理上依然簡單，等價(jià)于布爾運(yùn)算。牛頓的一句話“（人們）發(fā)覺真理在形式上從來是簡單的，而不是復(fù)雜和含混的”。做好搜索，最基本的要求是每天分析10-20個(gè)不好的搜索結(jié)果，積累一段時(shí)間才有感覺。有時(shí)候，學(xué)習(xí)、處理問題，可以從不好的方面入手，效果可能更好。

　　第九章《圖論和網(wǎng)絡(luò)爬蟲》：圖的遍歷分為“廣度優(yōu)先搜索（Breadth-FirstSearch，簡稱BFS）”和“深度優(yōu)先搜索（Depth-FirstSearch，簡稱DFS）�；ヂ�(lián)網(wǎng)上有幾百億的網(wǎng)頁，需要大量的服務(wù)器用來下載網(wǎng)頁，需要協(xié)調(diào)這些服務(wù)器的任務(wù)，這就是網(wǎng)絡(luò)設(shè)計(jì)和程序設(shè)計(jì)的藝術(shù)了。另外對(duì)于簡單的網(wǎng)頁，沒必要下載。還需要存儲(chǔ)一張哈希表來記錄哪些網(wǎng)頁已經(jīng)存儲(chǔ)過（如果記錄每個(gè)網(wǎng)頁的url，數(shù)量太多，這里可以用后面提到的信息指紋，只需要一個(gè)很多位的數(shù)字即可），避免重復(fù)下載。另外，在圖論出現(xiàn)的很長一段時(shí)間里，實(shí)際需求的圖只有幾千個(gè)節(jié)點(diǎn)，那時(shí)圖的遍歷很簡單，人們都沒有怎么專門研究這個(gè)問題，隨著互聯(lián)網(wǎng)的出現(xiàn)，圖的遍歷一下子有了用武之地，很多數(shù)學(xué)方法就是這樣，看上去沒有什么用途，等到具體的應(yīng)用出來了一下子開始派上大用場了，這可能就是世界上很多人畢生研究數(shù)學(xué)的原因吧。一個(gè)系統(tǒng)看似整體簡單，但里面的每個(gè)東西都可能是一個(gè)復(fù)雜的東西，需要很好的設(shè)計(jì)。

　　第十章《PageRank----Google的民主表決式網(wǎng)頁排名技術(shù)》：搜索返回了成千上萬條結(jié)果，如何為搜索結(jié)果排名？這取決與兩組信息：關(guān)于網(wǎng)頁的質(zhì)量信息以及這個(gè)查詢和每個(gè)網(wǎng)頁的相關(guān)性信息。PageRank算法來衡量一個(gè)網(wǎng)頁的質(zhì)量，該算法的思想是如果一個(gè)網(wǎng)頁被很多其他網(wǎng)頁所鏈接，說明它收到普遍的承認(rèn)和信賴，那么它的排名就高。谷歌的創(chuàng)始人佩奇和布林提出了該算法并用迭代的方法解決了這個(gè)問題。PageRank在Google所有的算法中依然是至關(guān)重要的。該算法并不難，可是當(dāng)時(shí)只有佩奇和布林想到了，為什么呢？

　　第十一章《如何確定網(wǎng)頁和查詢的相關(guān)性》：構(gòu)建一個(gè)搜索引擎的四個(gè)方面：如何自動(dòng)下載網(wǎng)頁、如何建立索引、如何衡量網(wǎng)頁的質(zhì)量以及確定一個(gè)網(wǎng)頁和某個(gè)查詢的相關(guān)性。搜索關(guān)鍵詞權(quán)重的科學(xué)度量TF—IDF，TF衡量一個(gè)詞在一個(gè)網(wǎng)頁中的權(quán)重，即詞頻。IDF衡量一個(gè)詞本身的權(quán)重，對(duì)主題的預(yù)測能力。一個(gè)查詢和該網(wǎng)頁的相關(guān)性公式由詞頻的簡單求和變成了加權(quán)求和，即TF1*IDF1+TF2*IDF2+...+TFN*IDFN�？此茝�(fù)雜的搜索引擎，里面的原理竟是這么簡單！

　　第十二章《地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃》：地址的解析依靠有限狀態(tài)機(jī)，當(dāng)用戶輸入的地址不太標(biāo)準(zhǔn)或有錯(cuò)別字時(shí)，希望進(jìn)行模糊匹配，提出了一種基于概率的有限狀態(tài)機(jī)。通用的有限狀態(tài)機(jī)的程序不是很好寫，要求很高，建議直接采用開源的代碼。圖論中的動(dòng)態(tài)規(guī)劃問題可以用來解決兩點(diǎn)間的最短路徑問題，可以將一個(gè)“尋找全程最短路線”的問題，分解成一個(gè)個(gè)尋找局部最短路線的小問題。有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃問題需要看相關(guān)的算法講解，才能深入理解，目前對(duì)其并未完全理解。

　　第十三章《GoogleAK-47的設(shè)計(jì)者——阿米特·辛格博士》：辛格堅(jiān)持選擇簡單方案的一個(gè)原因是容易解釋每一個(gè)步驟和方法背后的道理，這樣不僅便于出了問題時(shí)查錯(cuò)，而且容易找到今后改進(jìn)的目標(biāo)。辛格要求對(duì)于搜索質(zhì)量的改進(jìn)方法都要能說清楚理由，說不清楚理由的改進(jìn)即使看上去有效也不會(huì)采用，因?yàn)檫@樣將來可能是個(gè)隱患。辛格非常鼓勵(lì)年輕人要不怕失敗，大膽嘗試。遵循簡單的哲學(xué)。

　　第十四章《余弦定理和新聞的分類》：將新聞根據(jù)詞的TF-IDF值組成新聞的特征向量，然后根據(jù)向量之間的余弦距離衡量兩個(gè)特征之間的相似度，將新聞自動(dòng)聚類。另外根據(jù)詞的不同位置，權(quán)重應(yīng)該不同，比如標(biāo)題的詞權(quán)重明顯應(yīng)該大點(diǎn)。大數(shù)據(jù)量的余弦計(jì)算也要考慮很多簡化算法。

　　第十五章《矩陣運(yùn)算和文本處理中的兩個(gè)分類問題》：將大量的文本表示成文本和詞匯的矩陣，然后對(duì)該矩陣進(jìn)行奇異值SVD分解，可以得到隱含在其中的一些信息。計(jì)算余弦相似度的一次迭代時(shí)間和奇異值分解的時(shí)間復(fù)雜度在一個(gè)數(shù)量級(jí)，但計(jì)算余弦相似度需要多次迭代。另外，奇異值分解的一個(gè)問題是存儲(chǔ)量大，而余弦定理的聚類則不需要。奇異值分解得到的結(jié)果略顯粗糙，實(shí)際工作中一般先進(jìn)行奇異值分解得到粗分類結(jié)果，在利用余弦計(jì)算得到比較精確地結(jié)果。我覺得這章講的SVD有些地方不是很清楚，已向吳軍老師請(qǐng)教了，等待回信。

　　第十六章《信息指紋及其應(yīng)用》：信息指紋可以作為信息的唯一標(biāo)識(shí)。有很多信息指紋的產(chǎn)生方法，互聯(lián)網(wǎng)加密要使用基于加密的偽隨機(jī)數(shù)產(chǎn)生器，常用的算法有MD5或者SHA-1等標(biāo)準(zhǔn)。信息指紋可以用來判定集合相同或基本相同。YouTobe就用信息指紋來反盜版。128位的指紋，1.8*10^19次才可能重復(fù)一次，所以重復(fù)的可能性幾乎為0。判定集合是否相同，從簡單的逐個(gè)比對(duì)到利用信息指紋，復(fù)雜度降低了很多很多。啟發(fā)我們有時(shí)候要用變通的思想來解決問題。

　　第十七章《由電視劇《暗算》所想到的——談?wù)劽艽a學(xué)的數(shù)學(xué)原理》：RSA加密算法，有兩個(gè)完全不同的鑰匙，一個(gè)用于加密，一個(gè)用于解密。該算法里面蘊(yùn)含著簡單但不好理解的數(shù)學(xué)思想。信息論在密碼設(shè)計(jì)中的應(yīng)用：當(dāng)密碼之間分布均勻并且統(tǒng)計(jì)獨(dú)立時(shí)，提供的信息最少。均勻分布使得敵人無從統(tǒng)計(jì)，而統(tǒng)計(jì)獨(dú)立能保證敵人即使知道了加密算法，也不能破譯另一段密碼。

　　第十八章《閃光的不一定是金子——談?wù)勊阉饕娣醋鞅讍栴}》：把搜索反作弊看成是通信模型，作弊當(dāng)做是加入的噪聲，解決噪聲的方法：從信息源出發(fā)，增強(qiáng)排序算法的抗干擾能力；過濾掉噪聲，還原信息。只要噪聲不是完全隨機(jī)并且前后有相關(guān)性，就可以檢測到并消除。作弊者的方法不可能是隨機(jī)的，且不可能一天換一種方法，及作弊是時(shí)間相關(guān)的。因此在搜集一段時(shí)間的作弊信息后，就可以將作弊者抓出來，還原原有的排名。一般作弊都是針對(duì)市場份額較大的搜索引擎做的，因此，一個(gè)小的搜索引擎作弊少，并不一定是它的反作弊技術(shù)好，而是到它那里作弊的人少。

　　第十九章《談?wù)剶?shù)學(xué)模型的重要性》：早期的行星運(yùn)行模型用大圓套小圓的方法，精確地計(jì)算出了所有行星運(yùn)行的軌跡。但其實(shí)模型就是簡單的橢圓而已。一個(gè)正確的數(shù)學(xué)模型應(yīng)該在形式上是簡單的；一個(gè)正確的模型可能開始還不如一個(gè)精雕細(xì)琢過的錯(cuò)誤模型來的準(zhǔn)確，但是，如果我們認(rèn)定大方向是對(duì)的，就應(yīng)該堅(jiān)持下去；大量準(zhǔn)備的數(shù)據(jù)對(duì)研發(fā)很重要；正確的模型可能受到噪聲干擾，而顯得不準(zhǔn)確，這是不應(yīng)該用一種湊合的修正方法來彌補(bǔ)它，要找到噪聲的根源，這也許能通往重大的發(fā)現(xiàn)。

　　第二十章《不要把雞蛋放在一個(gè)籃子里——談?wù)勛畲箪啬Ｐ汀罚簩?duì)一個(gè)隨機(jī)事件預(yù)測時(shí)，當(dāng)各種情況概率相等時(shí)，信息熵達(dá)到最大，不確定性最大，預(yù)測的風(fēng)險(xiǎn)最小。最大熵模型的訓(xùn)練非常復(fù)雜，需要時(shí)查看資料做進(jìn)一步的理解。

　　第二十一章《拼音輸入法的數(shù)學(xué)原理》：輸入法經(jīng)歷了以自然音節(jié)編碼，到偏旁筆畫拆字輸入，再回歸自然音節(jié)輸入的過程。任何事物的發(fā)展，螺旋式的回歸不是簡單的重復(fù)，而是一種升華。輸入法的速度取決于編碼的場地*尋找這個(gè)鍵的時(shí)間。傳統(tǒng)的雙拼，記住編碼太難，尋找每個(gè)鍵的時(shí)間太長，并且增加了編碼上的歧義。根據(jù)香農(nóng)第一定理可以計(jì)算理論上每個(gè)漢字的平均最短碼長。全拼不僅編碼平均長度較少，而且根據(jù)上下文的語言模型可以很好的解決歧義問題。利用統(tǒng)計(jì)語言模型可是實(shí)現(xiàn)拼音轉(zhuǎn)漢字的有效算法，而且可以轉(zhuǎn)換為動(dòng)態(tài)規(guī)劃求最短路徑問題。如今各家輸入法的效率基本在一個(gè)量級(jí)，進(jìn)一步提升的關(guān)鍵就在于建立更好的語言模型。可以根據(jù)每個(gè)用戶建立個(gè)性化的語言模型。輸入的過程本身就是人和計(jì)算機(jī)的通信，好的輸入法會(huì)自覺或者不自覺的的遵循通信的數(shù)學(xué)模型。要做出最有效的輸入法，應(yīng)該自覺使用信息論做指導(dǎo)。

　　第二十二章《自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們》：將自然語言處理從基于規(guī)則到基于統(tǒng)計(jì)，貢獻(xiàn)最大的兩個(gè)人，一個(gè)是前面介紹的賈里尼克教授，他是一個(gè)開創(chuàng)性任務(wù)；另一個(gè)是將這個(gè)方法發(fā)揚(yáng)光大的米奇·馬庫斯。馬庫斯的貢獻(xiàn)在于建立了造福全世界研究者的賓夕法尼亞大學(xué)LDC語料庫以及他的眾多優(yōu)秀弟子。馬庫斯的影響力很大程度上是靠他的弟子傳播出去的。馬庫斯教授有很多值得欽佩的地方：給予他的博士研究生自己感興趣的課題的自由，高屋建瓴，給學(xué)生關(guān)鍵的指導(dǎo)；寬松的管理方式，培養(yǎng)各有特點(diǎn)的年輕學(xué)者；是一個(gè)有著遠(yuǎn)見卓識(shí)的管理者。他的學(xué)生為人做事風(fēng)格迥異，但都年輕有為，例如追求完美的邁克爾·柯林斯和尋求簡單美的艾克爾·布萊爾。大師之所以能成為大師，肯定有著一些優(yōu)秀的品質(zhì)和追求。

　　第二十三章《布隆過濾器》：判斷一個(gè)元素是否在一個(gè)集合當(dāng)中時(shí)，用到了布隆過濾器，存儲(chǔ)量小而且計(jì)算快速。其原理是：建立一個(gè)很長的二進(jìn)制，將每個(gè)元素通過隨機(jī)數(shù)產(chǎn)生器產(chǎn)生一些信息指紋，再將這些信息指紋映射到一些自然數(shù)上，最后在建立的那個(gè)很長的二進(jìn)制上把這些自然數(shù)的位置都置為1。布隆過濾器的不足之處是它可能把不在集合中的元素錯(cuò)判成集合中的元素，但在某些條件下這個(gè)概率是很小的，補(bǔ)救措施是可以建立一個(gè)小的白名單，存儲(chǔ)那些可能誤判的元素。布隆過濾器背后的數(shù)學(xué)原理在于完全隨機(jī)的數(shù)字其沖突的可能性很小，可以用很少的空間存儲(chǔ)大量的信息，并且由于只進(jìn)行簡單的算術(shù)運(yùn)算，因此速度非常快�！毒幊讨榄^》中第一章的那個(gè)例子就是布隆過濾器的思想。開闊思維，尋找更好更簡單的方法。

　　第二十四章《馬爾科夫鏈的擴(kuò)展——貝葉斯網(wǎng)絡(luò)》：貝葉斯網(wǎng)絡(luò)是馬爾科夫鏈的擴(kuò)展，由簡單的線性鏈?zhǔn)疥P(guān)系擴(kuò)展為網(wǎng)絡(luò)的關(guān)系，但貝葉斯網(wǎng)絡(luò)仍然假設(shè)每一個(gè)狀態(tài)只與它直接相連的狀態(tài)相關(guān)。確定貝葉斯網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和各個(gè)狀態(tài)之間相關(guān)的概率也需要訓(xùn)練。在詞分類中，可以建立文章、主題和關(guān)鍵詞的貝葉斯網(wǎng)絡(luò)，用來得到詞的分類。貝葉斯網(wǎng)絡(luò)的訓(xùn)練包括確定拓?fù)浣Y(jié)構(gòu)和轉(zhuǎn)移概率，比較復(fù)雜，后者可以參考最大熵訓(xùn)練的方法。貝葉斯網(wǎng)絡(luò)導(dǎo)出的模型是非常復(fù)雜的。

　　第二十五章《條件隨機(jī)場和句法分析》：句法分析是分析出一個(gè)句子的句子結(jié)構(gòu)，對(duì)于不規(guī)則的句子，對(duì)其進(jìn)行深入的分析是很復(fù)雜的，而淺層的句法分析在很多時(shí)候已經(jīng)可以滿足要求了。條件隨機(jī)場就是進(jìn)行淺層句法分析的有效的數(shù)學(xué)模型。條件隨機(jī)場與貝葉斯網(wǎng)絡(luò)很像，不用之處在于，條件隨機(jī)場是無向圖，而貝葉斯網(wǎng)絡(luò)是有向圖。條件隨機(jī)場的訓(xùn)練很復(fù)雜，簡化之后可以參考最大熵訓(xùn)練的方法。對(duì)于條件隨機(jī)場的詳細(xì)參數(shù)及原理還不理解。

　　第二十六章《維特比和他的維特比算法》：維特比算法是一個(gè)動(dòng)態(tài)規(guī)劃算法，凡是使用隱馬爾科夫模型描述的問題都可以用它來解碼。維特比算法采用逐步漸進(jìn)的方法，計(jì)算到每步的最短距離，到下步的最短距離只用接著本步的計(jì)算即可，相比窮舉法，大大縮短了計(jì)算的時(shí)間，并且基本可以實(shí)現(xiàn)實(shí)時(shí)的輸出，這看似簡單，但在當(dāng)時(shí)確是很了不起的。維特比并不滿足停留在算法本身，他將算法推廣出去，并應(yīng)用到了實(shí)際中，創(chuàng)立了高通公司，成為了世界上第二富有的數(shù)學(xué)家。高通公司在第二代移動(dòng)通信中并不占很強(qiáng)的市場地位，而其利用CDMA技術(shù)霸占了3G的市場，可見遠(yuǎn)見的洞察力是多么的重要。

　　第二十七章《再談文本分類問題——期望最大化算法》：該章講的其實(shí)就是K均值聚類問題，設(shè)置原始聚類中心，然后不斷迭代，直至收斂，將每個(gè)點(diǎn)分到一個(gè)類中。其實(shí)隱馬爾科夫模型的訓(xùn)練和最大熵的訓(xùn)練都是期望最大化算法（EM）。首先，根據(jù)現(xiàn)有的模型，計(jì)算各個(gè)觀測數(shù)據(jù)輸入到模型中的計(jì)算結(jié)果，這個(gè)過程稱為期望值計(jì)算過程，或E過程；接下來，重新計(jì)算模型參數(shù)，以最大化期望值，這個(gè)過程稱為最大化的過程，或M過程。優(yōu)化的目標(biāo)函數(shù)如果是個(gè)凸函數(shù)，則一定有全局最優(yōu)解，若不是凸函數(shù)，則可能找到的是局部最優(yōu)解。在以后的一些問題求解過程中，應(yīng)該考慮其是否是EM問題，也可以考慮參考這種思想，不斷迭代以優(yōu)化目標(biāo)的過程。

　　第二十八章《邏輯回歸和搜索廣告》：雅虎和百度的競價(jià)排名廣告并不比谷歌的根據(jù)廣告的預(yù)估點(diǎn)擊率來客觀的推送廣告收入多。點(diǎn)擊預(yù)估率有很多影響因素，一種有效的方法是邏輯回歸模型，邏輯回歸模型是一種將影響概率的不同因素結(jié)合在一起的指數(shù)模型。其訓(xùn)練方法和最大熵模型相似。同樣不是很理解其具體內(nèi)涵。

　　第二十九章《各個(gè)擊破和Google云計(jì)算的基礎(chǔ)》：分而治之，各個(gè)擊破是一個(gè)很好的方法，Google開發(fā)的MapReduce算法就應(yīng)用了該方法。將一個(gè)大任務(wù)分成幾個(gè)小任務(wù)，這個(gè)過程叫Map，將小任務(wù)的結(jié)果合并成最終結(jié)果，這個(gè)過程叫Reduce，該過程如何調(diào)度、協(xié)調(diào)就是工程上比較復(fù)雜的事情了�？梢姶罅坑玫降�、真正有用的方法往往簡單而又樸實(shí)。

　　附錄《計(jì)算復(fù)雜度》：計(jì)算機(jī)中復(fù)雜度是以O(shè)()來表示的，如果一個(gè)算法的計(jì)算量不超過N的多項(xiàng)式函數(shù)，則稱算法為多項(xiàng)式函數(shù)復(fù)雜度的（P問題），是可以計(jì)算的。若比N的多項(xiàng)式函數(shù)還高，則是非多項(xiàng)式問題，實(shí)際上是不可計(jì)算的。非多項(xiàng)式問題中一種非確定的多項(xiàng)式問題（簡稱NP），是科學(xué)家研究的焦點(diǎn)，因?yàn)楝F(xiàn)實(shí)中好多問題都是NP問題。另外還有NP-Complete問題（NP問題可以在多項(xiàng)式時(shí)間內(nèi)規(guī)約到該問題）和NP-Hard問題，對(duì)于這兩種問題，需要簡化找到近似解。

　　整體上，《數(shù)學(xué)之美》這本書讓我了解了很多文本處理，數(shù)據(jù)挖掘相關(guān)的知識(shí)，學(xué)到了很多。其中，簡單美以及一些科學(xué)家的大師風(fēng)范讓我印象深刻！書中提到的一些思想（即道）讓我受益匪淺！

《數(shù)學(xué)之美》讀書筆記4

　　我在想，為什么我們要學(xué)習(xí)數(shù)學(xué)?也許這個(gè)問題成年人有一萬個(gè)答案，可是當(dāng)我們第一次走進(jìn)教室，學(xué)習(xí)數(shù)學(xué)的時(shí)候，大概率還是個(gè)孩子，你怎么跟一個(gè)孩子解釋為什么要學(xué)習(xí)數(shù)學(xué)呢?我把這個(gè)問題拋給了一個(gè)朋友，他說：“為了提高思維邏輯能力，這是我初中老師在第一節(jié)數(shù)學(xué)課上告訴我們的”�；蛘咭晃�5歲的小朋友又會(huì)問：“什么是邏輯能力呢?”

　　也許從出生第一天，我們就一直在被動(dòng)的接收一些東西，父母的勸導(dǎo)，老師的傳授，可5歲的孩子還是會(huì)把玩具散落一地，6歲的孩子仍然會(huì)因?yàn)楦改覆唤o買玩具而嗷嗷大哭，無論你怎么勸導(dǎo)一個(gè)人，怎么勸誡一個(gè)人，他可能仍然會(huì)犯你認(rèn)為會(huì)出現(xiàn)的錯(cuò)誤。我記得有位教育專家這么說：“你告訴寶寶他把玩具弄壞了，就等于丟了10個(gè)棒棒糖”，從此以后這個(gè)寶寶可能會(huì)更加珍惜玩具。這個(gè)方法很簡單，但是貌似最有效。數(shù)學(xué)是什么?數(shù)學(xué)不就是把復(fù)雜的東西簡單化么?

　　現(xiàn)在我們?cè)倩卮鹎懊娴腵問題：為什么我要學(xué)習(xí)數(shù)學(xué)?我們可以這么跟5歲的小朋友說：“媽媽給你10元錢，讓你買醬油，醬油7元、棒棒糖1元一個(gè)，剩下的錢你可以買幾個(gè)棒棒糖?”或許想吃棒棒糖的就會(huì)苦思冥想一番，或許未來媽媽真的給他10元錢去買醬油，結(jié)果回來就變成了一瓶醬油和3個(gè)棒棒糖�；蛘咴龠^一段時(shí)間，這位小朋友會(huì)選擇6元的醬油，因?yàn)榭梢垣@得4個(gè)棒棒糖了。他這么計(jì)算著：7+3和6+4都可以等于10，那么如果要必須買醬油的情況下，1+9也可以等于10。我們都知道也有1元的袋裝醬油，于是9個(gè)棒棒糖到手了。任何知識(shí)的魅力都在于自我的發(fā)現(xiàn)，只有你對(duì)它產(chǎn)生了無限的興趣，你就會(huì)不斷的發(fā)現(xiàn)它的美，《數(shù)學(xué)之美》也可以變成《物理之美》。

　　有些人會(huì)說，上面的例子是利益驅(qū)動(dòng)型，不是興趣驅(qū)動(dòng)型，對(duì)于一個(gè)孩子來說，你能指望他向成人那樣：“我需要的不是物質(zhì)世界，我需要的是精神世界?”5歲寶寶最喜歡做得事情就是在吃和玩上面，請(qǐng)問，成年人不也是如此么?這就是天性。只不過成年人的自控能力足夠大罷了。

　　我們回到書本上，這本書是否合適自己?如果沒有專業(yè)的數(shù)學(xué)知識(shí)，很難讀懂。但是它又有著無限的魅力，讓你不自覺的讀下去，為什么?因?yàn)椤皵?shù)學(xué)之美”，雖然大多數(shù)人看不懂里面的公式，但是能夠明白數(shù)學(xué)能解決的問題：概率統(tǒng)計(jì)學(xué)能夠解決自然語言處理、布爾代數(shù)能解決搜索引擎的問題、有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃能解決地圖問題、向量+特征向量+余弦定理能解決自動(dòng)新聞分類問題、最大熵模型解決金融問題，看著看著我就莫名的產(chǎn)生了一種想要學(xué)習(xí)算法的沖動(dòng)，這不就是本書的意義所在么?

《數(shù)學(xué)之美》讀書筆記5

　　最近看了這本《數(shù)學(xué)之美》，不得不感嘆一句，可惜早已身不在起點(diǎn)。

　　我讀書的時(shí)候，數(shù)學(xué)成績一直都很好，雖然離開學(xué)校已經(jīng)10多年，自覺當(dāng)初的知識(shí)還是記得很多，6~7年前再考線性代數(shù)和概率論，還是得到了很高的分?jǐn)?shù)。不過我也和大部分人一樣，覺得數(shù)學(xué)沒有太多用處，特別是高中和大學(xué)里面學(xué)的，那些三角函數(shù)，向量，大數(shù)定律，解析幾何，除了在考試的題目里面用一下，平時(shí)又有什么地方可以用呢？

　　看了《數(shù)學(xué)之美》，驚嘆于數(shù)學(xué)的浩瀚和簡單，說它浩瀚，是因?yàn)樗姆种Шw了科學(xué)的方方面面，是所有科學(xué)的理論基礎(chǔ)，說它簡單，無論多復(fù)雜的問題，最后總結(jié)的數(shù)學(xué)公式都簡單到只有區(qū)區(qū)幾個(gè)符號(hào)和字母。

　　這本書介紹數(shù)學(xué)理論在互聯(lián)網(wǎng)上的運(yùn)用，平時(shí)我們?cè)谑褂没ヂ?lián)網(wǎng)搜索或者翻譯功能的時(shí)候，時(shí)常會(huì)感嘆電腦對(duì)自己的了解和它的聰明，其實(shí)背后的原理就是一個(gè)個(gè)精美的算法和大量數(shù)據(jù)的訓(xùn)練。那些或者熟悉或者陌生的數(shù)學(xué)知識(shí)（聯(lián)合概率分布，維特比算法，期望最大化，貝葉斯網(wǎng)絡(luò)，隱形馬爾可夫鏈，余弦定律，etc），一步步構(gòu)建了我們現(xiàn)在所賴以生存的網(wǎng)上世界。

　　之所以覺得自己早已身不在起點(diǎn)，是因?yàn)樯厦孢@些數(shù)學(xué)知識(shí)，早已經(jīng)不在我的知識(shí)框架之內(nèi)，就算曾經(jīng)學(xué)過，也不過是囫圇吞棗一樣的強(qiáng)記硬背，沒有領(lǐng)會(huì)過其中的真正意義。而今天想重頭在來學(xué)一次，其實(shí)已經(jīng)不可能了。且不說要花費(fèi)多少的精力和時(shí)間，還需要的是領(lǐng)悟力。而這一些，已經(jīng)不是我可以簡單付出的。

　　不像物理、化學(xué)需要復(fù)雜的實(shí)驗(yàn)來驗(yàn)證，很多數(shù)學(xué)的證明，幾乎只要有一顆聰明的頭腦和無數(shù)的草稿紙，可是光是這顆聰明的頭腦，就可以阻攔掉很多人。有人說多讀書就會(huì)聰明，我不否認(rèn)，書本的確會(huì)提供很多知識(shí)，可是不同的人讀同一本書也會(huì)有不同的收貨，這就限制于每個(gè)人的知識(shí)框架和認(rèn)知水平。就如一個(gè)數(shù)學(xué)功底好過我的人，看這本書，就會(huì)更容易理解里面的公式和推導(dǎo)出這些公式的其他運(yùn)用點(diǎn)，而我，只能站在數(shù)學(xué)的門口，感嘆一句，它真的好美吧。

　　當(dāng)然，我暫時(shí)無法在實(shí)際生活中運(yùn)用這些數(shù)學(xué)公式，可是書中提到的`一些方法論，還是很有幫助的

　　1）一個(gè)產(chǎn)業(yè)的顛覆或者創(chuàng)新，大部分來自于外部的力量，比如用統(tǒng)計(jì)學(xué)原理做自然語言處理。

　　2）基礎(chǔ)知識(shí)和基礎(chǔ)數(shù)據(jù)是很重要性，只有足夠多和足夠廣的數(shù)據(jù)，才可以提供有效的分析，和驗(yàn)證分析方法的好壞。

　　3）先幫用戶解決80%的問題，在慢慢解決剩下的20%的問題；

　　4）不要等一個(gè)東西完美了，才發(fā)布；

　　5）簡單是美，堅(jiān)持選擇簡單的做法，這樣會(huì)容易解釋每一個(gè)步驟和方法背后的道理，也便于查錯(cuò)。

　　6）正確的模型也可能受噪音干擾，而顯得不準(zhǔn)確；這時(shí)不應(yīng)該用一種湊合的修正方法加以彌補(bǔ)，而是要找到噪音的根源，從根本上修正它。

　　7）一個(gè)人想要在自己的領(lǐng)域做到世界一流，他的周圍必須有非常多的一流人物。

《數(shù)學(xué)之美》讀書筆記6

　　在網(wǎng)上看到有人推薦吳軍博士的《數(shù)學(xué)之美》，盡管我從事社會(huì)科學(xué)研究，但對(duì)數(shù)學(xué)的推崇一直如此，所以買來一讀，我的真切體驗(yàn)正如吳軍博士在書的后記中所說，把自己“境界提升了一個(gè)層次”。

　　那么，對(duì)我而言，到底提升了什么境界呢?

　　首要的肯定是思想境界。在未讀這本書之前，我知道對(duì)于這個(gè)世界的事件形成的信息集合，人類只有兩種方式可以表達(dá)，一個(gè)是數(shù)字，一個(gè)是語言。整個(gè)實(shí)數(shù)的集合是無窮個(gè)，而且每個(gè)數(shù)字都是唯一的;整個(gè)世界中的事件也是無窮個(gè)的，而且每個(gè)事件也時(shí)獨(dú)一無二的，這樣數(shù)學(xué)中的數(shù)字集合與世界中的事件集合就構(gòu)成一個(gè)一一對(duì)應(yīng)的關(guān)系，所以研究數(shù)字之間的關(guān)系，實(shí)際上就是在研究世界中事件之間的關(guān)系。語言中的概念和世界中的事件之間也是可以構(gòu)成一個(gè)對(duì)應(yīng)關(guān)系的，但問題是，語言中概念的集合是有限的，所以它和數(shù)字集合的對(duì)應(yīng)顯然只能是部分對(duì)應(yīng)。

　　計(jì)算機(jī)科學(xué)的發(fā)展，人類需要把語言處理成數(shù)字，因?yàn)橛?jì)算機(jī)只能識(shí)別數(shù)字信號(hào)，所以“語言的數(shù)字化”成為計(jì)算機(jī)產(chǎn)生以來發(fā)展最快、而且最有創(chuàng)新性的領(lǐng)域，而許多華人科學(xué)家成為了這個(gè)領(lǐng)域的頂尖專家，如李開復(fù)，吳軍博士是卓越的科學(xué)家之一。至此我才感到，在計(jì)算機(jī)主導(dǎo)的世界中，信息化就是數(shù)字化，而最難的數(shù)字化、也是最有成就的數(shù)字化，就是對(duì)人類自然語言的數(shù)字化，因?yàn)槿祟惖男畔缀?00%是用語言承載、傳播的，計(jì)算機(jī)要與人對(duì)話，變成智能化的機(jī)器，首先要解決的就是語言的數(shù)字化問題。但我們?cè)陔娔X上自如地輸入文字時(shí)、或者拿著手機(jī)通話時(shí)，我們跟本沒有意識(shí)到，那些卓越的語言科學(xué)家，早已經(jīng)把我們的語言，轉(zhuǎn)化成數(shù)字信號(hào)，通過輸入、處理、解碼的方式，讓我們無障礙地聯(lián)絡(luò)、工作。

　　我似乎感到，語言與數(shù)字的關(guān)系，就是人與自然關(guān)系的接口。套用古希臘畢達(dá)哥拉斯學(xué)派的觀點(diǎn)，加上我的理解，即是，數(shù)是萬物的本原，語言是人的本原!

　　吳軍博士似乎也在提升我對(duì)方法的認(rèn)識(shí)境界�？茖W(xué)研究的思考方式，習(xí)慣遵循本質(zhì)、規(guī)律、連續(xù)性思維，在語言學(xué)研究的早期，人類為了讓計(jì)算機(jī)識(shí)別語言，采用建立語言規(guī)則和語言規(guī)則數(shù)據(jù)庫的辦法，但最終以失敗告終(20世紀(jì)50—70年代)，70年代后科學(xué)家采用了語言統(tǒng)計(jì)模型，研究取得了突飛猛進(jìn)。語言統(tǒng)計(jì)模型的勝利，再一次證明了宇宙量子模型的信念，世界是不連續(xù)的隨機(jī)性的粒子構(gòu)成，人類數(shù)千年文明進(jìn)化出來的語言系統(tǒng)，就是動(dòng)態(tài)的隨機(jī)概率事件。其二，物理思維再也難逃牛頓的經(jīng)典本質(zhì)思維方法，即找尋到百分之百確定性的規(guī)律，而信息論思維是研究如何把握不確定性現(xiàn)象，利用概率統(tǒng)計(jì)是不二法門。其三，語言本質(zhì)上就是信息傳播，只有從通信模型視角才能真正理解計(jì)算機(jī)的功能，對(duì)語言的編碼、處理、傳輸、解碼是計(jì)算機(jī)的強(qiáng)項(xiàng)，計(jì)算機(jī)是永遠(yuǎn)不可能理解語言的`意思的。

　　在《數(shù)學(xué)之美》中，吳軍博士對(duì)他的老師、師兄弟、同事的經(jīng)歷、掌故進(jìn)行了敘述，讓我們了解到這些世界一流的學(xué)科家、技術(shù)精英們的為人處世品質(zhì)、鮮明個(gè)性、科學(xué)素養(yǎng)及其管理風(fēng)格。例如賈里尼克對(duì)博士生的嚴(yán)酷淘汰，馬庫斯對(duì)學(xué)生的寬宏大度，但我感到他們有一樣?xùn)|西是共同的，就是對(duì)科學(xué)創(chuàng)造、頂尖人才的識(shí)別和器重，甚至是無條件的包容。如此為人的境界才是根本，因?yàn)閭ゴ蟮目茖W(xué)創(chuàng)造畢竟是人做出來的，只有崇高的人文精神之下才能造就頂尖的人才、一流的科學(xué)和技術(shù)。

　　觀國內(nèi)的學(xué)說界，官風(fēng)盛行、人情充斥，與這些一流學(xué)說群對(duì)科學(xué)創(chuàng)造的賞識(shí)、對(duì)個(gè)性人才的包容，對(duì)科學(xué)探索的熱誠，可謂相去甚遠(yuǎn)。

　　看來，我們只能寄希望于年輕一代，但愿吳博士的《數(shù)學(xué)之美》，能讓我們的學(xué)子們，初步體驗(yàn)到科學(xué)精英們卓越的才智與情懷。

《數(shù)學(xué)之美》讀書筆記7

　　很多人都覺得，數(shù)學(xué)是一個(gè)太高深、太理論的學(xué)科，不接近生活，對(duì)我們大多數(shù)人來說平時(shí)也根本用不到，所以沒必要去理解數(shù)學(xué)。但事情真的是這樣嗎?

　　其實(shí)不然，數(shù)學(xué)一直滲透在我們生活的各個(gè)方面，尤其是在今天這個(gè)信息時(shí)代，很多簡單樸素的數(shù)學(xué)思想，能發(fā)揮一般人很難想象的巨大作用。比如，計(jì)算機(jī)處理自然語言，用到的最重要工具是統(tǒng)計(jì)學(xué)的思想;計(jì)算機(jī)對(duì)新聞內(nèi)容的分類，依靠的是數(shù)學(xué)里的余弦定理;而電子電路的基本邏輯，則來源于僅有0和1兩個(gè)數(shù)字的布爾代數(shù)。

　　在《數(shù)學(xué)之美》里，吳軍用自己在工作中使用數(shù)學(xué)的親身經(jīng)歷，為我們展現(xiàn)了數(shù)學(xué)的'重要性，以及他對(duì)數(shù)學(xué)之美的理解。吳軍是“得到”App專欄《吳軍的谷歌方法論》的主理人。曾先后供職于谷歌和騰訊，是著名的自然語言處理專家和搜索專家。同時(shí)，他還是位暢銷書作家，除了這本《數(shù)學(xué)之美》以外，還寫過《文明之光》《智能時(shí)代》《浪潮之巔》等多本暢銷書。

《數(shù)學(xué)之美》讀書筆記8

　　讀完本書，第一感受：次奧！原來數(shù)學(xué)如此多的原理模型概念都可以用去解決各種IT技術(shù)問題啊。特別是語言識(shí)別和自然語言處理這類問題完全就是建立在數(shù)學(xué)原理之上的�？傊�，這本書就是用非常深入淺出的話去說明如何用數(shù)學(xué)方法去解決計(jì)算機(jī)的各種工程問題。這是一本講道，而不是術(shù)的書。要完全讀懂這本書，我覺得至少需要掌握這三門課：高等數(shù)學(xué)，離散數(shù)學(xué)，還有概率論與數(shù)理統(tǒng)計(jì)。唉..我當(dāng)初數(shù)學(xué)學(xué)得太水了，還掛了高數(shù)啊...有好的概念沒看懂，以后有時(shí)間在好好看吧。如果想搞計(jì)算機(jī)研究的話，數(shù)學(xué)基礎(chǔ)必不可少，別總在抱怨各種數(shù)學(xué)課上的東西一輩子都用不著。

　　發(fā)現(xiàn)作者對(duì)人類自然發(fā)展的認(rèn)識(shí)非常深，其從語言，文字，數(shù)學(xué)的產(chǎn)生發(fā)展，信息的傳播記錄得出了這個(gè)結(jié)論：信息的產(chǎn)生傳播接收反饋，和今天最先進(jìn)的通信在原理上沒有任何差別。就算是科學(xué)上最高深的技術(shù)，那也是模擬我們生活中的一些基本原理。

　　我們今天使用的十進(jìn)制，就是我們扳手指扳了十次，就進(jìn)一次位。而瑪雅文明他們數(shù)完了手指和腳指才開始進(jìn)位，所以他們用的是二十進(jìn)制。實(shí)際上阿拉伯?dāng)?shù)字是古印度人發(fā)明的，只是歐洲人不知道這些數(shù)字的真正發(fā)明人是古印度，而就把這功勞該給了“二道販子”阿拉伯人。

　　語言的數(shù)學(xué)本質(zhì)

　　任何一種語言都是一種編碼方式，比如我們把一個(gè)要表達(dá)的意思，通過語言一句話表達(dá)出來，就是利用編碼方式對(duì)頭腦中的信息做了一次編碼，編碼的結(jié)果就是一串文字，聽者則用這語言的解碼方法獲得說話者要表達(dá)的信息。

　　自然語言處理模型

　　計(jì)算機(jī)是很笨的，他們唯一會(huì)做的就是計(jì)算。自然語言處理在數(shù)學(xué)模型上是基于統(tǒng)計(jì)的，說一個(gè)句子是否合理，就看看他出現(xiàn)的可能性大小如何，可能性就是用概率來衡量，比如一個(gè)句子，出現(xiàn)的概率為1/10^10,另一個(gè)句子出現(xiàn)的概率為1/10^20,那么我們就可以說第一個(gè)句子比第二個(gè)句子更加合理。當(dāng)然這要求有足夠的觀測值，他有大數(shù)定理在背后支持。

　　最早的中文分詞方法

　　這句話：“同學(xué)們呆在圖書館看書”，如何分詞？應(yīng)該是這樣：同學(xué)們/呆在/圖書館/看書.最先的方法是北航一老師提出的查字典方法，就是把句子從左道右掃描一遍，遇到字典里面出現(xiàn)的詞就標(biāo)示出來，遇到復(fù)合詞如（北京大學(xué)）就按照最長的分詞匹配，遇到不認(rèn)識(shí)的字串就分割成單個(gè)字，于是中文的分詞就完成了。但是這只能解決78成的分詞問題，但是“像發(fā)展中國家”這種短語它是分不出來的。后來大陸用基于統(tǒng)計(jì)語言模型方法才解決了。

　　隱含馬可夫模型（沒這么看懂）

　　一直被認(rèn)為是解決打多數(shù)自然語言處理問題最為快速有效的方法，大致意思是：隨機(jī)過程中各個(gè)狀態(tài)的概率分布，只與他的前一個(gè)狀態(tài)有關(guān)。比如對(duì)于天氣預(yù)報(bào)，我們只假設(shè)今天的氣溫只與昨天有關(guān)而與前天沒有關(guān)系，這雖然不完美，但是以前不好解決的問題都可以給出近視值了。

　　一個(gè)讓我印象深刻的觀點(diǎn)：

　　小學(xué)生和中學(xué)生其實(shí)沒有必要花那么多時(shí)間去讀書，其覺得最主要的是孩子們的社會(huì)經(jīng)驗(yàn)，生活能力，和那時(shí)候樹立起來的志向，這將幫助他們一生。而中學(xué)生階段花很多時(shí)間比同伴多讀的課程，在大學(xué)以后可以用非常短的時(shí)間就可以讀完。因?yàn)樵诖髮W(xué)階段，人的理解能力要強(qiáng)很多，比如中學(xué)要花500小時(shí)才能搞明白的內(nèi)容，大學(xué)可能花100小時(shí)就搞定了。學(xué)習(xí)和教育是一個(gè)人一輩子的事情，很多中學(xué)成績好的人進(jìn)入大學(xué)后有些就表現(xiàn)不太好了，要有不斷學(xué)習(xí)的動(dòng)力才行。

　　余弦定理和新聞分類

　　我在新浪干過一年多新聞，這篇認(rèn)真看了一篇，很吃驚原理cos x與新聞分析也有關(guān)系啊。google的新聞服務(wù)是由計(jì)算機(jī)自動(dòng)整理分類的。而傳統(tǒng)的媒體如門戶網(wǎng)站是讓編輯讀懂新聞，找到主題，再分類分級(jí)別的，真苦逼啊...計(jì)算機(jī)自動(dòng)分類原理是這樣：如一篇新聞?dòng)?0000個(gè)詞，組成一個(gè)萬維向量，這個(gè)向量就代表這篇新聞，可以通過某種算法表達(dá)這個(gè)新聞主題的`類型，如果兩個(gè)向量的方向一致，說明對(duì)應(yīng)的新聞?dòng)迷~一致，方向可用夾角表示，夾角可用余弦定理表示，所以當(dāng)夾角的余弦值接近于1時(shí)，這兩篇新聞就可以歸為一類了。

　　沒看懂的東西：

　　布爾代數(shù)：布爾代數(shù)把邏輯學(xué)和數(shù)學(xué)合二為一，給了我們一個(gè)全新的視角看世界...

　　網(wǎng)絡(luò)爬蟲的基本原來是利用了圖論的廣度優(yōu)先搜索和深度優(yōu)先搜索...

　　搜索引擎的結(jié)果排名用了稀疏矩陣的計(jì)算...

　　地圖最基本的計(jì)算是利用了有限狀態(tài)機(jī)和圖論的最短路徑...

　　密碼學(xué)原理，最大熵模型，拼音輸入法的數(shù)學(xué)模型，布隆過濾器，貝葉斯網(wǎng)絡(luò)等等...

　　任何事物都有它的發(fā)展規(guī)律，當(dāng)我們認(rèn)識(shí)了規(guī)律后，應(yīng)當(dāng)在生活工作中遵循規(guī)律，希望大家透過IT規(guī)律的認(rèn)識(shí)，可以舉一反三的總結(jié)學(xué)習(xí)認(rèn)識(shí)規(guī)律，這樣有助于自己的境界提升一個(gè)層次。

　　任何問題總是能找到相應(yīng)的準(zhǔn)確數(shù)學(xué)模型，一個(gè)正確的數(shù)學(xué)模型在形式上應(yīng)當(dāng)是簡單的，一個(gè)好的方法在形式上應(yīng)當(dāng)也是簡單的。簡單才是美。

【《數(shù)學(xué)之美》讀書筆記】相關(guān)文章：

《雕塑之美》教學(xué)反思11-19

《四季之美》教案06-18

《四季之美》教學(xué)設(shè)計(jì)08-25

《四季之美》教學(xué)設(shè)計(jì)03-20

《四季之美》教學(xué)反思06-08

四季之美教學(xué)設(shè)計(jì)11-19

四季之美優(yōu)秀教學(xué)設(shè)計(jì)09-20

初中美術(shù)《靜物之美》教學(xué)設(shè)計(jì)03-24

《詩經(jīng)》讀書筆記之“芣苢”02-18

部編版《四季之美》教學(xué)設(shè)計(jì)07-15