題:
從工程的角度來看,過於精確的模型有哪些弊端?
TheGuest
2017-11-29 22:31:23 UTC
view on stackexchange narkive permalink

從工程學的角度來看,我想知道是什麼原因會導致建模的準確性太高?

從科學的角度來看,除了幾乎總是一種好處當您需要減少計算時間時。

那麼從工程角度來看,除了時間(或計算能力)之外,為什麼還要避免這種情況?

請在此定義“準確性”和“太多”。您可以使用一個模型來預測不確定性範圍,以達到極高的準確性,或者使用一個模型將所述不確定性本身降低到非常小的值。等等。
“一切都應該盡可能簡單,但不要簡單。”愛因斯坦
“除了時間(或計算能力)之外”似乎所有答案都錯過了這一點。
-1
精度!=精度。這是我在物理課上教的第一件事。 3 Pi的比3.5794.Given這種分化更精確的表示,我不認為你是在假設過精確的模型是有史以來有害正確的。準確意味著接近地面真理。
@user247243 *我認為您認為正確的模型有害無益。*如果一種統計模型告訴我們我們需要11.5杯咖啡機,而另一種統計模型需要十倍的時間才能告訴我們我們需要11.46124杯咖啡製造商,因為我們的杯子比正常情況要小一些,所以我們浪費了很多時間得出相同的結論(我們將購買一台12杯子的機器)。
@Myles問題是,您列出的有害案例純粹是時間/計算能力問題。使用這樣的模型沒有其他危害。 OP還明確表示,此處不考慮時間和計算。
@JMac這就是為什麼它是評論而不是答案。
這是我所見過的最糟糕的“最高投票率”問題。完全令人困惑。
十一 答案:
Scott
2017-11-30 10:19:30 UTC
view on stackexchange narkive permalink

當心過度擬合。從系統中收集數據的更準確的模型可能無法更好地預測系統的未來行為。

Overfitting Example

上圖顯示了一些數據的兩個模型。

線性線在訓練數據(圖形上的點)上有些準確,並且(有人會期望)在測試數據上(其中點可能是x < 5和x> -5的點。)

相反,多項式對於訓練數據是100%準確的,但是(除非您沒有任何理由相信9次多項式出於某種物理原因是合理的),您會認為對於x> 5和x < -5來說,這將是非常差的預測指標。

基於誤差的任何比較,線性模型的準確性都不高我們收集的數據。

此外,工程師們不必擔心他們的模型,而更多地擔心人們將如何使用該模型。

如果我告訴您我們在炎熱的天氣中散步,預計持續426分鐘。您帶來的水量可能少於我告訴您的步行將持續7個小時的時間,甚至少於我說的步行將持續4-8小時的時間。這是因為您是在回應我對我的預測的隱含信心水平,而不是我陳述的時間的中點。

如果給人們一個準確的模型,人們會減少他們的誤差幅度。這會帶來更大的風險。

以炎熱的天氣為例,如果我知道在95%的情況下步行將花費4-8個小時,並且導航和步行速度存在一些不確定性。完全知道我們的步行速度將減少4-8身材的不確定性,但不會顯著影響“我們花很長時間使水成為問題的機會”,因為這幾乎完全是由不確定的航行所驅動,而不是不確定的步行速度。

是的,儘管我想說一個度數為$ N $的多項式是一個行為異常的例子;絕對不應該使用這種模型。明智的模型,即使過度擬合,也不應那樣爆炸,除非您實際上未將測量範圍覆蓋在內。實際上,在給定這些數據的情況下,即使是8級多項式也將使擬合更為平滑。
鏈接的Wikipedia文章的主要語錄:“當模型開始“記憶”訓練數據而不是“學習”趨勢的概括時,就會發生過度擬合。
我們真的會認為過度擬合會導致“模型中的準確性過高”嗎?這不是“模型太精確”的缺點。這是有太多準確點和建模不佳的缺點。用準確的數據製作一個不好的模型不是一個準確的模型。
@JMac:過度擬合可以在機器學習環境中自然發生,而不必故意在訓練集中投入太多數據來建立一個不好的模型。我不確定“太準確”是描述這種結果的正確方法,但也不是“簡單建模錯誤”。
Chris Johns
2017-11-29 23:13:13 UTC
view on stackexchange narkive permalink

最明顯的不利因素是成本,所有工程項目的預算都有限,花費的錢超過了您的需要,這顯然是一件壞事,更不用說浪費時間了。

還可能存在更細微的問題。諸如有限元分析之類的東西總是近似的,有時添加不必要的細節會引入偽像,使對模型進行故障排除更加困難。例如,您可能會導致不連續性,從而導致壓力增加

還有一個考慮因素,即使您具有計算能力來舒適地處理大量數據供應商,客戶也可能無法這樣做,而且在許多情況下,轉移大筆費用是可能的。文件仍然是一個瓶頸。

類似地,如果您有更多的參數,則可能會在管理和調試文件中進行額外的工作。

即使您現在有足夠的時間和資源,也很可能是某人走下坡路需要使用該模型而沒有同樣的奢侈,尤其是當它最終成為您所使用的產品的一部分時向客戶銷售。

查詢:第二段應顯示為“ ...添加必要的細節...”或“添加*不必要的細節”
是的,應該沒有必要
我不確定FE示例在這裡是否運作良好。在這種情況下,FE是模型。使用更準確的_data_可能會出現問題;但是,如果您的FE _model_是準確的,那麼顯然您不必擔心這些偽像;因為您的模型沒有它們。我們已經將其定義為準確的。也許是在使用其他模型插入有限元分析的情況下;但這只是使用該模型“深入人心”的要點。
Wasabi
2017-11-29 23:42:42 UTC
view on stackexchange narkive permalink

有幾個原因。

從純粹的務實角度來看,這是由於時間限制。求解模型所需的時間比精度水平提高了很多,遠快得多,無論採用哪種水平都是主觀的。

這還受到以下事實的影響:過度的準確性通常是沒有用的。畢竟,對於給定的輸入值,您的模型可能準確度高達99.999%,但實際情況並不精確。例如,鋼的彈性模量的公差為$ \ pm5 $-$ 15 \%$。那麼,如果您的關鍵輸入之一可以減少10%,為什麼還要打擾一個超級準確的模型呢? (毋庸置疑,其他材料(例如混凝土或土壤)和其他變量(例如荷載)的誤差幅度要高得多。

因此,沒有必要太精確。但是確實,甚至不嘗試變得過於精確也可能是有益的。但是,這樣做的原因主要是心理上的。主要是,您不想讓模型過於精確,也不想以小數點後七個位來輸出結果,因為您不想引起錯誤的信心。

人類的大腦硬性認為1.2393532697是比1.2更準確的值。但是實際上並非如此。由於現實世界中的所有不確定因素,您的模型可能無法考慮(特別是在當前硬件限制的情況下),因此1.2幾乎可以肯定與1.2393532697一樣有效。因此,不要掩飾自己或任何看到您模型的人。只需輸出1.2,就可以清楚地表明您實際上不知道第二個數字之後的情況。

Nuclear Wang
2017-11-29 23:07:43 UTC
view on stackexchange narkive permalink

一個非常準確的模型可能需要大量的輸入數據。例如,通過輸入大氣中每個氣體分子的位置和速度作為輸入,可能會生成一個出色的天氣系統模型。在實踐中,這樣的模型將無用,因為沒有現實的方法來生成正確的輸入。在這種情況下,最好使用不太準確的模型,該模型只需要有限的輸入數據。

您回答了一個不同的問題,即:“多少輸入數據太多”
我可能會在此處添加一條註釋,說明問題是如何提及“除了需要更少的計算時間時”,因為這也是建立精度較低的模型的一個很好的理由。如果您的模型過於精確,則實際情況所需的時間可能比宇宙的熱死時間要長。
Cort Ammon
2017-11-30 06:59:49 UTC
view on stackexchange narkive permalink

“太準確”不是單調的。實際上,它可能會產生一種逼真的錯覺,使您認為值得在仿真中投入更多的資金。當您從混合逼真度模型中顯示數據時,這一點變得非常重要,在該模型中,某些部分非常詳細,而其他部分則非常粗糙。該小組決定對1024個地形進行採樣,以使保真度最大化。我們的客戶想要一個ReallyGood(tm)答案。

現在,我對這種特殊算法導致的運行時命中率感到困擾,而且我想了解我實際上在支付多少保真度。我沒有看到任何地形數據,所以我問他們如何加載。答案是“哦,我們沒有地形。它只是平坦的。”

所以聽起來我有一個很棒的高保真模型,採樣了1024點。我實際上擁有的是一個低保真度模型,該模型沒有比1024點採樣1點更好,但是運行速度卻慢了整整一噸,並被偽裝成高保真度模型!

在真實的工程世界中,領導者並不總是有機會學習模型的整個架構。實際上,我會說他們永遠沒有時間。我們的領導層是在假設我們擁有出色的1024點模型的情況下做出決策的。沒有人犯錯,這就是當您在模型的一部分上將保真度調得過高而在另一部分上保真度低時會發生的情況。它具有混合保真度的野獸性質。

關於如何減少為有效數字的比喻並不總是僅僅消除尾隨零。
mathreadler
2017-11-30 01:04:54 UTC
view on stackexchange narkive permalink

實際上,我們有數據,而我們沒有。幾乎總是,由於實際或經濟原因,我們所沒有的數據量遠遠超過了我們希望收集的數據量。

通過嘗試將數據令人討厭地很好地擬合到我們擁有的幾個樣本中,因此冒著風險,使我們的模型對我們誠實地沒有線索(由於缺乏數據)的區域進行了錯誤的估計。然後我們的模型會給我們一種錯誤的安全感。

Myles
2017-11-30 22:53:21 UTC
view on stackexchange narkive permalink

所以從工程學的角度來看,除了時間(或計算能力)之外,為什麼還要避免這種情況

從機械工程學角度來看,最大的原因是您只承諾如果產生明顯不同的結果,則需要額外的努力。

如果模型中的精度水平比精度水平高幾個數量級,那麼您在執行設計時將能夠提供的精度就是您的工作。如果模型中描述的準確性水平高於對客戶有影響的要求水平。你在浪費錢。例如,如果您指定的精度比設計要求的精度更高(例如,排氣管的長度為+/- .00001mm),那是在浪費客戶金錢,因為350mm的排氣孔與350.0005mm的排氣孔差不多到大氣層,但後者的生產成本要高得多。

在大學裡,我們都學會了使用牛頓物理學對物理世界進行建模,儘管眾所周知,後牛頓物理學可以提供更精確的物理模型。行為。儘管如此,我知道沒有任何一個機械工程程序默認情況下會避免牛頓模型過於不准確。如果我們使用更準確的模型,並且得出的答案與理論真理相差0.1%,那麼在大多數情況下不會影響我們的最終設計。如果我們的屈服應力相差0.1%,那麼我們所需的橫截面就不會有顯著差異,這使我們可以根據兩種方法選擇完全相同大小的工字梁。在這種情況下,付出額外努力的成本不會帶來任何額外收益。

現在,在某些情況下,需要精確才能產生可行的設計,例如對某些相對論物理學需要的衛星進行建模。在這種情況下,我們需要找到能夠提供所需精度水平的模型,並且需要對模型進行設計。如果我們需要將尺寸計算為+/- 0.0001%,那麼如果我們的零件尺寸為+/- 0.1%,那就完全是浪費了精力。在實際應用中,後者精度等級的零件尺寸比前者更為常見。

Solar Mike
2017-11-29 23:01:46 UTC
view on stackexchange narkive permalink

成本:時間成本或計算能力成本以及準確性成本-如果其他變量的容差為5%,例如,為什麼計算結果為1%...

Katarina
2017-11-29 23:33:59 UTC
view on stackexchange narkive permalink

在前面的答案中,提到了輸入和成本。如果您想要準確性,例如。在優化生產參數時,您可能需要更多的測量,首先您需要分析可以減少多少成本與多少工作時間,因此增加費用是為了增加測量頻率或自動化系統的成本,它將取代手動數據收集。例如,如果您獲得了非常精確的沖銷,您花費了時間和其他資源來獲得沖銷,那麼您是否具有用於質量控制,工業測量等甚至技術的足夠設備。如果您的結果是徒勞的,那麼花費的時間就是錯的。

guuusst
2017-11-30 14:46:16 UTC
view on stackexchange narkive permalink

您是否需要以厘米為分辨率的衛星圖像,以便通過顏色識別森林?一定不。我將是有害的,因為您必須決定任何非綠色的10平方厘米的補丁。建模相同:細節分辨率應適合您目標特徵的分辨率。如果沒有,您將失去精簡的時間。

Spehro Pefhany
2017-12-03 13:11:11 UTC
view on stackexchange narkive permalink

大多數實際答案都被人為約束所排除,即不考慮計算能力和計算時間。需要花費數小時或數天的時間進行評估的模型無法進行快速的設計迭代,並且會降低人員操作的速度,增加成本並可能導致結果不佳。巧妙地簡化模型而又不會損失太多準確性可能是一種非常有用的方法,然後可以使用蠻力模型來驗證最終迭代。

過於復雜的模型可能掩蓋了模型中的基本錯誤,或者收集信息以最大限度地實際使用模型所需的工作將超過任何潛在的好處。例如,如果您需要以比供應商所能控制的精度更高的精度來了解材料的特性,則可以接受誤差帶,也可以去測試每一批材料以調整模型。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...