社會觀察 . 獨立評論 . 多元觀點 . 公共書寫 . 世代翻轉

  • Home
  • English
  • 評論
  • 民意
  • 時事
  • 生活
  • 國際
  • 歷史
  • 世代
  • 轉載
  • 投稿須知

偽陽性誤判太多,調降p值門檻就好?

  • 時事
  • 民意

p值顯著門檻該不該降,並非是非黑白,而是考量不同的問題,它不適合定為一個死的標準,而該根據不同需求調整。

「p值(p value)」是統計時常用的值,用於判斷結果是否顯著。p值本身是一個計算出的數字,常見的顯著標準是0.05;對研究人員而言,它常常也是決定生或死的那條界限,若是千辛萬苦得到的數據低於0.05,意謂結果顯著,人生也跟著有了意義。反之,假如超過0.05,那就是實驗失敗,生命變成灰色。

p值在統計上決定結果是否顯著。 圖片來源:3quarksdaily
p值在統計上決定結果是否顯著。 圖片來源:3quarksdaily

近年來,卻有許多學者認為p值並不好用,常常無法反映真實的狀況。更激進的建議是,p值顯著門檻太高,應該調降,比方說降低為0.005(《’One-size-fits-all’ threshold for P values under fire》 [連結] )。p值是科學研究方法上,非常重要的議題,本文整理最近的爭議,希望帶給讀者一些想法。

降低顯著門檻最大的好處是,可以減少偽陽性(false positive)的誤判。什麼是偽陽性?例如檢驗吸毒,若是真的有吸,測試得到的結果也有,就是真陽性;反之,假如沒有吸毒,檢驗卻是有吸,則稱作偽陽性,亦即「實際上沒有,算出來卻有,假的!」。

順帶一提,在學校內進行全面吸毒篩檢,科學上不可行的理由,正是由於偽陽性太高,將導致誤判過多。(詳見《全面尿液篩檢的統計陷阱》 [連結] )

前面提過,研究人員生死時常決定於p值,因此不乏有人操弄實驗變數,讓p值越過門檻,例如由0.057「調整」後降低為0.049,使不顯著變成顯著,讓論文得以發表。若是降低數字,的確可以遏止此類歪風。然而,學界卻也有很多反對意見。為什麼,難道降低誤判率不好嗎?

我們回到統計與研究。究竟計算p值或是其他指標,對科學有什麼意義?在門檻0.05之下,我們不能說p值算出來0.049是寶,0.050是沒意義的垃圾。p值本身不過是個工具,單看一個值,不足以決定結果有沒有價值。

顯著值不是固定門檻,會根據研究對象改變。例如研究基因組尺度的「全基因組關聯分析(GWAS)」,顯著標準往往非常小,遠遠低於0.05;這非常合理,因為以人類來說,一共有60億個DNA位置,若是門檻設在0.05,偽陽性少說會造成幾百萬個誤判;若是門檻不設小一點,根本無法得到有意義的結果,遑論進一步研究。

實驗結果有沒有科學意義,取決於研究的整體脈絡、研究對象、問的問題、分析方法的設計,以及進一步的發展等等,而不是單一統計指標。在科學上,p值是幫助判斷的指標之一,絕非p值不顯著,結果就沒有意義。

舉個例子,有強烈論文壓力的博士班四年級生,實驗結果p值是0.087,離0.050沒差太遠,那麼合理判斷是:大方向應該對了,微調實驗細節或許有用(喂,不是直接改參數喔!),繼續拼拼看吧!可是如果p值是0.87?差這麼多,搞不好還沒吱吱射飛鏢準確,如此不趕快放棄這個實驗,另謀出路,被當北七怨不得人。而曠日費時又花錢的新藥研發,道理類似。

要讓分析有意義,關鍵在於要用來做什麼、怎麼用、解釋什麼,而不是顯著門檻多少。也有專家建議,下有意義的判斷,光看p值不夠,至少要加上信心區間(confidence intervals)輔助,可以參考以下兩篇文章:
《p 值的陷阱(上):p 值是什麼?又不是什麼?》[連結]
《p 值的陷阱(下):「摘櫻桃」問題》[連結]

假如硬性規定讓顯著門檻降低,例如改為0.001,有什麼問題?可能的負面影響是,帳面上失敗率會大增,降低偽陽性的同時,也殺掉許多有潛力的真陽性候選人;本來或許只要調整配方、步驟,就能見效的實驗,就這樣被過度嚴厲的標準在無形中扼殺了。更慘的是,標準更嚴苛,對資源不足的研究團隊影響更大,將對整個學界不利。

p值顯著門檻該不該降,並非是非黑白,而是考量不同的問題,它不適合定為一個死的標準,而該根據不同需求調整。這也是為什麼,不少主張更嚴格標準的支持者,是不做實驗、甚至是不在乎生物意義、有沒有因果關係,只接觸數據的統計學家;或是資源豐厚的大老。而許多質疑、反對者,是與有限預算奮鬥的艱苦人,以及重視生物意義,勝於玩弄數字的生物學家。

作者 / 寒波

Share this:

  • Facebook
  • Twitter
  • Email
  • More
  • Tumblr
  • Pocket
  • Pinterest
  • LinkedIn

Related

社會 統計
2017-09-24 寒波

Post navigation

柯先生,「媽媽牌」玩不得! → ← 從「籌建海巡艦艇發展計畫」看第二海軍

Related Posts

咆哮之獅與史詩怒火:以伊新衝突將重塑中東新秩序或動搖全球政經格局?

       當2026年2月28日凌晨的火光照亮德黑蘭上空,這場被以色列稱為「咆哮之獅」(Operation Lion’s Roar)、美國稱為「史詩怒火」(Operation Epic Fury)的聯合軍事行動,正式宣告了中東維持數十年的「影子戰爭」走入終結,取而代之的是赤裸裸的正面衝突。這不僅是一次局部的軍事突擊,更是國際體系中現實主義與權力平衡邏輯的極致展現。該衝突反映以、美兩國試圖先發制人,與大國在多極化趨勢下如何利用區域衝突重塑勢力範圍。 劍指德黑蘭:以色列「先發制人」的戰略         該衝突源於2026年初中東核談判決裂,儘管阿曼等國極力斡旋,但伊朗在核濃縮技術上的突破已觸及以色列的戰略紅線。對於以色列而言,一個擁有核威懾能力的伊朗等同於對猶太國家的生存威脅。以色列必須在威脅尚未完全成形前,利用技術優勢發動預防性打擊。此次攻擊目標不僅限於核設施,更精確鎖定了伊朗最高領袖哈米尼的官邸及革命衛隊的高層,旨在透過「斬首行動」癱瘓敵方的指揮中樞,瓦解其遠程導彈的發射鏈條。       此外,以色列選擇此時動手,亦是看準美國川普政府重返白宮後對伊朗採取高壓政策。相較於前任政府的克制,川普政府展現了更強烈的軍事介入意圖,為以色列提供一個千載難逢的「安全傘」。以色列深知,單憑自身力量難以應對伊朗的全面報復,但若能與美國同步行動,則可將原本的雙邊衝突升級為區域秩序的重整,藉此一舉削弱伊朗在黎巴嫩、敘利亞及葉門的代理人布署。 戰火蔓延:伊朗的絕地反擊與區域擴張        惟伊朗迅速與超乎預期的回應,竟對以美陣營開火。在革命衛隊指揮體系受損的情況下,伊朗立即啟動「對稱報復」與「不對稱戰爭」策略,企圖維持區域霸權。從巴林的美軍第五艦隊總部到科威特、卡達及阿聯酋的軍事基地,伊朗的彈道飛彈與自爆無人機多點開花。伊朗試圖透過打擊駐中東美軍,迫使阿拉伯鄰國撤回對美軍的支持,並以此要挾全球能源供應安全,故該攻擊不能純粹解讀成一場報復。        從「攻勢現實主義」來看,伊朗目前展戰略擴張跡象,係為確保自身生存而採取的「邊緣政策」。透過攻擊荷姆茲海峽周邊的美軍資產,伊朗試圖將這場戰爭成本全球化。當波斯灣的油輪航道受威脅時,國際油價的飆升將成為伊朗手中最強大的外交籌碼,試圖藉此換取國際社會對美以施壓,迫使其停止軍事進攻。 大國博弈:權力真空下的利用與盤算 在這場震驚世界的衝突中,全球各大國恐各懷鬼胎地利用此次危機。對美國而言,川普政府顯然希望透過軍事手段達成「政權更迭」或至少徹底去核化,試圖藉此重振美國在中東威望,並對國內選民展示強硬姿態。然而,這也讓美國陷入了長期消耗戰的風險。       […]

善意與現實之間:檢視蔣萬安育兒減工時政策的挑戰     

  當蔣萬安市府宣布推動「育兒減少工時」試辦政策時,社會第一時間多半給予肯定。允許家長在不影響工作權的前提下,每日減少一小時工時,用來接送與陪伴十二歲以下子女,確實回應了雙薪家庭長期以來「時間不夠用」的焦慮。在少子化壓力沉重的當下,任何試圖鬆動僵固工時制度的嘗試,都具有象徵與政策意義。 然而,政策的價值不只在於理念,而在於能否真正發揮實質效果。從目前規劃來看,市府編列的試辦預算有限,可補助的企業家數與勞工人數相當稀少。相較於臺北市龐大的就業人口與企業數量,受惠比例極低。當政策覆蓋率僅止於極小樣本時,它較像是一項示範計畫,而難以對整體勞動環境產生結構性改變。對多數家長而言,這項措施仍然是「看得到、用不到」。 更現實的困境來自企業端。雖然市府補助部分薪資差額,但企業仍需承擔排班調整、人力重分配與行政申請成本。對人力本就緊繃的中小企業與服務業來說,一人每天少一小時,累積下來就是實質產能減損。若沒有配套協助,例如更彈性的勞動規範、稅務負擔誘因或即時補貼機制,企業未必有足夠動機參與。當政策設計過於理想化,而忽略產業實況,最終可能讓企業選擇觀望,家長也難以真正受惠。 此外,育兒困境並非單一工時問題。家長之所以需要彈性時間,是因為托育時間與職場制度長期脫節。公共托育延時服務不足、寒暑假照顧缺口明顯、臨時托育彈性有限,這些結構性問題並不會因每天減少一小時工時而自然消失。如果孩子下午四點放學,但父母五點才能下班,即便減少一小時,仍可能面臨照顧斷層。換言之,減工時只是「止痛藥」,卻還談不上根治方案。 再者,政策的公平性也值得討論。公部門或大型企業較有餘裕配合彈性工時安排,但基層勞工、輪班工作者、時薪族群,往往最需要育兒彈性,卻最難適用這類制度。若政策無法涵蓋這些族群,反而可能擴大職場階層差距,讓「友善育兒」成為部分職業的專利。 當然,這並不代表育兒減工時政策毫無價值。相反地,它至少傳遞出一個重要訊號:政府願意正視「時間」本身就是育兒資源。長期以來,育兒政策多半著重補貼金額與津貼發放,但真正困住父母的,往往不是金錢,而是工時與家庭責任的拉扯。若市府能在試辦過程中誠實檢討執行困難,擴大預算規模,簡化行政流程,並與托育體系改革同步推進,這項政策仍有成為制度創新的可能。 少子化時代,家庭最缺的不是口號,而是可持續的制度支持。育兒不應是個別家庭自行承擔的風險,而應是整體社會共同分擔的責任。蔣萬安市府這一步,走出了方向,但距離真正改變家長日常生活,還有一段不短的路要走。真正的挑戰,不在於提出政策,而在於如何讓每一位需要的人,都能實際用得到。 作者:林政武

228事件是什麼?從歷史創傷到今日台灣公共討論的核心議題

228事件是台灣現代史上最深的政治創傷之一。事件起於1947年2月台北查緝私菸衝突,隨後迅速擴大為全台性的抗議與鎮壓,最終造成大規模死傷與失蹤。官方與研究界長年多以「數千至數萬人」描述其規模,而行政院早年研究報告曾估計死亡人數約在18,000至28,000之間。228事件之後,台灣又進入長期戒嚴與白色恐怖年代,讓這段歷史不只是單一事件,而是整個威權體制的起點。 今天回顧228,已不能只停留在「歷史悲劇」四個字。它之所以持續被討論,是因為228同時牽動台灣對國家暴力、族群記憶、轉型正義與民主價值的理解。政府自1990年代起陸續推動研究、公開道歉、設立紀念基金會、建立紀念館與補償制度,2月28日也成為和平紀念日。總統李登輝於1995年代表政府正式道歉,之後國家持續以紀念、補償與教育等方式處理228留下的傷痕。 但現今對228的討論,早已從「要不要紀念」進入「如何紀念、如何詮釋、如何落實轉型正義」的新階段。一方面,受難者家屬與民間團體持續要求更完整的真相追查,認為補償與道歉並不足以取代歷史責任的釐清;另一方面,社會也在爭論威權象徵是否應持續留在公共空間,例如蔣介石銅像、紀念堂禮兵與相關命名。近年台灣針對威權象徵的移除與重置動作加快,正顯示228討論已從回憶受害者,延伸到如何重塑公共空間的價值秩序。 228在2026年的公共討論還出現另一個明顯特徵,就是它不再只是家屬或學者的議題,而被更多公民社會團體與年輕世代重新放回民主防衛的脈絡中。今年228前夕,台北有超過70個公民團體參與紀念遊行,主軸之一就是把記憶保存與抵抗外來威脅連結起來;總統賴清德也公開表示,面對228真相有助於強化台灣民主,顯示官方論述已把228視為民主教育與轉型正義持續工程的一部分。 因此,現今對228的討論,本質上有三個層次。第一,是歷史層次:如何讓更多人知道事件經過與受難者處境。第二,是制度層次:如何透過檔案、教育、補償與紀念館,讓國家真正承認並處理過去的暴力。第三,是價值層次:228不只是過去發生過什麼,而是今天的台灣要不要持續警惕威權、保護人權、維持民主。228之所以仍重要,不是因為仇恨要被延續,而是因為遺忘往往比記憶更危險。對今天的台灣而言,228已不只是歷史課本上的一頁,而是衡量這個社會是否真正理解自由與民主代價的一面鏡子。 作者:林凱西

解析台股萬人空巷:透視台灣人投資狂熱背後的深層心理與產業結構

2026 年初台灣證券開戶總人數一舉突破 1,385 萬,這項數據不僅是一個冰冷的金融指標,更宣告了台灣正式進入「全民皆股」的實體 AI 投資新紀元。從台南永康的咖啡廳到台北信義區的辦公室,股票市場的波動已成為台灣人日常對話的核心。這種近乎瘋狂的投資熱度,並非單純的投機行為,而是深植於經濟轉型、產業領先地位以及社會安全感缺失所共構的必然現象。 台灣人對股市的熱情,首要驅動力來自於「半導體霸權」所帶來的集體榮譽感與資訊近便性。身處全球科技供應鏈的心臟,台灣投資人對台積電及其後續「護國群山」的理解,不再僅限於財報數字,更是對周遭產業脈動的直觀感受。當 NVIDIA 最新的 Rubin 架構與先進封裝技術在台灣落地,這種「近水樓台」的科技紅利,讓台灣投資人比全球任何地區都更早嗅到算力時代的紅利。股市不僅是財富槓桿,更像是一場全民參與的國家級產業慶典,讓國人透過持有股票,直接共享台灣在 AI 半導體領域的統治力。 其次,長期以來「實質低利率」與「通膨壓力」的夾擊,迫使資金尋求更具效益的避風港。在傳統定存與儲蓄險無法滿足資產增值需求的前提下,高股息 ETF 的興起成為了全民理財的關鍵推手。透過「月月配」或「季季配」的機制,投資人將股票視為一種「數位房地產」,試圖在變動的職場環境外,創造另一份穩定流動的「第二收入」。 這種從 Z 世代到銀髮族皆認同的「被動收入哲學」,不僅改寫了台灣人的退休規劃,更讓投資股市從一種風險性行為轉變為一種生存必需的「普惠金融」。 最後,這種狂熱也源自於一種深層的社會焦慮與競爭意識。面對房價居高不下與薪資成長放緩,股市成為許多年輕族群實現階級翻轉的唯一出口。當同儕間討論的不再是儲蓄金額,而是持有的 AI 概念股或 ETF 份額時,這種社交壓力進一步推升了開戶數與成交量的噴發。 台灣人的投資熱潮,實質上反映了在科技強國的光環下,個人對於未來財務保障的迫切渴望。隨著 2026 年實體 AI 與機器人產業鏈的全面啟動,這股資金狂潮預計將持續引領台股航向新的維度。 作者:寧為渣

Recent Posts

咆哮之獅與史詩怒火:以伊新衝突將重塑中東新秩序或動搖全球政經格局?

咆哮之獅與史詩怒火:以伊新衝突將重塑中東新秩序或動搖全球政經格局?

       當2026年2月28日凌晨的火光照亮德黑蘭上空,這場被以色列稱為「咆哮之獅」(Operation Lion’s Roar)、美國稱為「史詩怒火」(Operation Epic [...]

More Info
善意與現實之間:檢視蔣萬安育兒減工時政策的挑戰     

善意與現實之間:檢視蔣萬安育兒減工時政策的挑戰     

  當蔣萬安市府宣布推動「育兒減少工時」試辦政策時,社會第一時間多半給予肯定。允許家長在不影響工作權的前提下,每日減少一小時工時,用來接送與陪伴十二歲以下子女,確實回應了雙薪家庭長期以來「時間不夠用」的焦慮。在少子化壓力沉重的當下,任何試圖鬆動僵固工時制度的嘗試,都具有象徵與政策意義。 [...]

More Info
以色列與伊朗戰爭升高:核議題、先制打擊與中東區域戰爭風險的最新評論

以色列與伊朗戰爭升高:核議題、先制打擊與中東區域戰爭風險的最新評論

2026年2月28日,以色列宣布對伊朗發動先制打擊,理由是伊朗核計畫與飛彈能力已構成迫切威脅;路透與美聯社同日報導也指出,美國已加入對伊朗的軍事行動,伊朗隨後對以色列發射飛彈與無人機報復,使中東局勢從高張對峙正式跨入新一輪熱戰。 [...]

More Info
228事件是什麼?從歷史創傷到今日台灣公共討論的核心議題

228事件是什麼?從歷史創傷到今日台灣公共討論的核心議題

228事件是台灣現代史上最深的政治創傷之一。事件起於1947年2月台北查緝私菸衝突,隨後迅速擴大為全台性的抗議與鎮壓,最終造成大規模死傷與失蹤。官方與研究界長年多以「數千至數萬人」描述其規模,而行政院早年研究報告曾估計死亡人數約在18,000至28,000之間。228事件之後,台灣又進入長期戒嚴與白色恐怖年代,讓這段歷史不只是單一事件,而是整個威權體制的起點。 [...]

More Info

搜尋

精選文章

川習會的中美矛盾是戰略,不是貿易!

2017-04-08 韓非

八仙樂園爆炸案:缺乏常識造成的災難

2015-06-28 異想

彰化縣民輪替後的哀與愁

2016-03-06 許家瑋

新文明病:儲物症(Hoarding disorder)似正在增加

2015-04-13 楊庸一

訂閱本站

輸入你的電子郵件訂閱新文章並接收新通知。

Powered by WordPress | theme Dream Way
Powered by WordPress | theme Dream Way