中國數學會是中國數學工作者的學術性法人社會團體,是中國科學技術協會的組成部分。中國數學會的宗旨是團結廣大數學工作者,為促進數學的發展,繁榮我國的科學技術事業,促進科學技術人才的成長與提高...
“全國科普日”陳松蹊院士網絡科普報告:數據實驗與統計分析—從大氣污染到女士品茶
發布時間:2022-09-20


當今時代,大數據的獲得越來越容易,但其也附帶許多混雜因素。要想從大數據中提煉出科學的結果需要使用統計學技術,因此如何使用統計學技術剔除、調整、建模大數據中的混雜因素是數據實驗與統計分析中的重要問題。
2022年全國科普日的主題是“喜迎二十大、科普向未來”, 側重圍繞大數據、人工智能等科技發展前沿,讓更多公眾深刻感知前沿科技魅力。為此,中國數學會聯合中國工業與應用數學學會、中國運籌學會和中國現場統計研究會特別邀北京大學陳松蹊院士,為廣大科技工作者和數學愛好者獻上了精彩的網絡科普報告:“數據實驗與統計分析—從大氣污染到女士品茶”。中國數學會副理事長周愛輝研究員主持了報告,一起出席的還有中國工業與應用數學學會副理事長王兆軍教授、中國運籌學會科普工作委員會主任劉歆研究員。
9月18日上午9點,在大家的熱切期待中,報告正式開始。陳院士的報告用三個例子說明了為何從大數據中提煉出科學的結果需要使用統計學技術。這三個例子分別是:(1)從大氣污染監測網絡數據提取污染排放信息,介紹團隊八年來分析、追蹤北方地區大氣污染變化的實證研究,給出大氣污染評估的統計學思路和方法; (2)女士品茶及充分隨機實驗;(3)吸煙對壽命影響的大樣本觀測研究。
陳院士從一封與朋友來往的郵件講起他和大氣污染研究的淵源,強調對大氣污染的研究關系到人民的生命健康及生活質量。
目前我國已建立包括污染物思維時空數據、氣象思維時空數據、人口與經濟數據、衛星數據、遙感數據在內的生態環境檢測數據,真正進入了環境大數據時代。而如何使用監測大數據度量污染物排放量是大氣管理的關鍵科學問題。陳院士首先對比了用“排放源清單”監測的傳統方法和用“環境大數據”監測的新方法,接著詳細闡述了用統計學方法剔除氣象因素干擾后能更準確地度量污染物排放以及在最理想的情況下用充分隨機實驗Treatment Effect檢驗方法(t-檢驗方法)能很好地解決“如何評判今年的污染低于去年”的問題。最后,陳院士通過對比隨機化實驗和觀測實驗,說明充分隨機實驗的有效性和理想性。
“女士品茶”案例是充分隨機試驗的范例,它描述了Ronald A. Fisher的實驗和隨機化的想法,是隨機試驗數據分析的兩大支柱之一,更是20世紀最偉大的科學思想之一。
1920年,英國的Bristol女士聲稱可以只通過品嘗就能區分一杯奶茶是茶先倒進杯子還是奶先倒進杯子?!艾F代統計學之父”Ronald Fisher和生物學家William Roacb用充分隨機試驗的方法(隨機給出八杯其它條件一樣而僅倒茶倒奶順序相反的茶,兩類各四杯,隨機從八杯中挑選四杯讓Bristol猜,結果Bristol全部猜對)檢驗了Bristol女士是真有“能區分出來是茶先倒進杯子還是奶先倒進杯子”的能力,該試驗被稱為最著名的“八杯牛奶”充分隨機試驗。
陳院士強調“女士品茶”說明了充分隨機試驗的強大。隨后在農業中(如育種、種子的產量等)也做了相關隨機化的試驗,但此方法并未在社會學中進行試驗。而1948年美國用定額抽樣方法進行大選預測,結果大選預測失敗。這說明在人群中存在隱性偏差,而充分隨機試驗能消除各種隱性偏差。因此現在的民意測驗包括市場研究、營銷的基本理論都是用隨機抽樣法進行。
陳院士總結在對大數據研究時做充分隨機實驗和進行統計偏差調整這兩種方法要選其一進行。
陳院士首先介紹對吸煙是否有害這個問題的數據研究不能在充分隨機化實驗的條件下進行。所以將選定的三組實驗人群(英國醫生加拿大退休人員、美國25個州的男性)分三類:(1)不抽煙;(2)只抽香煙;(3)抽雪茄、煙斗。根據人群中每1000人死亡率可知:(1)抽雪茄、煙斗的吸煙者應該放棄吸煙,因為死亡率高;(2)如果戒不掉吸煙,那抽雪茄、煙斗的人可以考慮只抽香煙,因為抽香煙的死亡率明顯低于抽雪茄、煙斗組,甚至與不抽煙組差別不大。為什么會出現上面的結論,陳院士解釋結論里面有混雜因素:年齡,如果按年齡分層就能消除不同吸煙組間的年齡差異,結果會得到相反的結論。
最后陳院士總結(1)大氣污染是“觀測研究”。如果要評估今年大氣污染是否低于去年,需要Control氣象因素,且兩年的簡單平均值是不可比的,因為氣象分布不一樣。(2)大氣環境研究是“統計觀測研究”。因為它不能在大氣中隨機化氣象條件,而且每年氣象變量分布有變異(氣象變異),氣象變異造成的bias需通過統計調整去掉。因此對大氣污染PM2.5的研究要去除風向及平均氣象密度的干擾。通過構造基準氣象分布和調整均值的辦法來調整氣象,并且可以很好的反映排放的變化,這也是統計學因果推斷的思想。陳院士還介紹了團隊八年來分析、追蹤北方地區大氣污染的變化的實證研究,給出大氣污染評估的統計學思路和方法,并提出了“人努力-天幫忙”指數,該指數分解了“氣象因素”與“人為因素”對污染的影響。
報告結束后,周愛輝研究員主持提問環節。嘉賓們代表網友提出三個問題,分別是:面向未來大數據、萬物互聯等新場景,統計分析要面臨哪些新挑戰以及如何展望未來的發展趨勢?深度學習在很多領域都有卓越的性能表現,相信深度學習也可以用于“從大數據中提煉出科學的結果”,陳院士是如何看待這個方向?以及如何看待這個過程中模型的可解釋性與可信問題;因果推斷被譽為下一代AI的核心,因果推斷在未來統計分析中將會扮演怎樣的角色?這三個問題是通過中國數學會官方微信公眾號收集遴選。陳院士對這些問題做了詳細的回答。
數學會獎項
鐘家慶獎
鐘家慶教授生前對祖國數學事業的發展極其關切
鐘家慶教授生前對祖國數學事業的發展極其關注,并為之拚搏一生。為了紀念并實現他發展祖國數學事業的遺愿,數學界有關人士于1987年共同籌辦了鐘家慶基金,并設立了鐘家慶數學獎,委托中國數學會承辦。

關注微信
掃描二維碼關注
