So interpolieren Sie Zwischenwerte für beliebige Daten in Excel

Question 1

Kurze Antwort

Die Interpolation basiert auf einer Gleichung, die X- und Y-Werte in Beziehung setzt. Wenn Sie die eigentliche Gleichung kennen, können Sie alle gewünschten Zwischenwerte direkt berechnen. Wenn Sie sie nicht kennen, interpolieren Sie mithilfe einer Näherung. Die Qualität der Näherung bestimmt, wie genau Ihre Zwischenwerte sein werden. Die lineare Interpolation ist grob, wenn Sie eine Kurve mit einer begrenzten Anzahl von Punkten approximieren. Es gibt mehrere andere Ansätze, die Ihnen bessere Ergebnisse liefern, und integrierte Analysetools, die den Großteil der Arbeit übernehmen.

Lange Antwort

Sie suchen nach einer „allgemeinen Formel“ oder Lösung, die die Interpolation von Zwischenwerten automatisiert. Sie können die lineare Interpolation für so ziemlich alle Daten verwenden, aber die Ergebnisse werden grob sein, wenn es nur eine begrenzte Anzahl von Datenpunkten und eine signifikante Krümmung in der Form der Daten gibt. Es gibt keine „Einheitslösung“, wenn Sie Genauigkeit wollen. Die beste Lösung für einen bestimmten Datensatz hängt von den Eigenschaften der Daten ab.

Die gleichung

Egal wie Sie es machen, die Interpolation erfolgt mithilfe einer Gleichung, die die Beziehung zwischen X und Y definiert. Die Gleichung ist entweder die tatsächliche Gleichung oder eine Schätzung. Wenn es sich um eine Schätzung handelt, gibt es eine Reihe unterschiedlicher Ansätze, die von der Art der Daten und dem, was Sie erreichen möchten, abhängen.

In Ihrer anderen Frage haben Sie Daten verwendet, die auf der Gleichung basieren Y=2^X. Wenn Sie die eigentliche Gleichung haben, können Sie genau interpolieren. Wählen Sie einen neuen Wert für entweder Xoder Yund die Gleichung gibt Ihnen den anderen Wert. Wenn Sie die eigentliche Gleichung nicht kennen, müssen Sie eine finden, die sie annähert. Ich werde diese Antwort verwenden, um mich auf Interpolationsansätze zu konzentrieren. Diese verwenden im Allgemeinen integrierte Analysetools, die den Großteil der Arbeit erledigen. Wenn Sie weitere Einzelheiten zur Mechanik der Verwendung eines bestimmten Tools oder eines automatisierteren Ansatzes benötigen, können wir das in einer anderen Antwort näher erläutern.

Versuchen Sie, die eigentliche Gleichung zu finden

Die beste Lösung besteht darin, zu versuchen, die tatsächliche Gleichung zu ermitteln. Wenn Sie den Prozess kennen, der die Daten generiert hat, kann Ihnen das Aufschluss über die Art der Gleichung geben. Viele Prozesse folgen unter kontrollierten Bedingungen, d. h. wenn Sie mit einer einzigen treibenden Variable und keinem zufälligen Rauschen arbeiten, einer einfachen Kurve, deren Art der Gleichung bekannt ist. Der erste Schritt besteht also darin, sich die Form der Daten anzusehen und zu prüfen, ob sie einer dieser Gleichungen ähnelt.

Eine einfache Möglichkeit hierfür besteht darin, die Daten grafisch darzustellen und eine Trendlinie hinzuzufügen. In Excel stehen eine Reihe gängiger Kurven zur Verfügung, die Sie anpassen können.

Versuchen wir dies mit den 2^NDaten aus Ihrer anderen Frage. Wenn Sie das Zahlenmuster nicht erkannt und den Trendlinienansatz ausprobiert hätten, würden Sie die Symbole unterschiedlich geformter Kurven sehen. Die Exponentialkurve hat im Allgemeinen dieselbe Form und würde Ihnen Folgendes liefern:

Excel verwendet als Basis eund nicht , was nur eine Übersetzung ist (e ^0,693 ist ). Visuell können Sie sehen, dass die Trendlinie genau den Daten folgt. Das R ² sagt Ihnen das auch. R ² ist ein statistisches Maß dafür, wie viel der Variation in den Daten Sie mit Ihrer Gleichung berücksichtigen. Der Wert bedeutet, dass die Gleichung 100 % der Variation berücksichtigt oder eine perfekte Anpassung darstellt.221

Das Beispiel in dieser Frage hat ebenfalls eine Art Exponentialform. Wenn Sie denselben Ansatz versuchen, erhalten Sie dieses Ergebnis:

Diese Daten sind also nicht exponentiell. Wir können es mit einem Polynom versuchen, das einige natürliche Prozesse beschreibt und in der Lage ist, eine Vielzahl von Kurven nachzubilden (darüber werde ich später mehr sprechen):

Als Annäherung an den Prozess, der den Daten zugrunde liegt, ist dies keine gute Übereinstimmung. In der dritten Ordnung (eine Gleichung mit Potenzen von X bis X^3) hat sie mehr große Wendepunkte als die Daten und passt trotzdem nicht. Die zugrundeliegende Gleichung sieht also nicht wie eine einfache, gemeinsame Kurve aus, was bedeutet, dass die Gleichung angenähert werden muss.

Lineare Interpolation

Dies ist der Ansatz, den Sie in Ihren Kommentaren beschreiben. Er ist unkompliziert, verwendet eine einfache Formel und lässt sich relativ einfach automatisieren. Er kann ausreichend sein, wenn Sie viele Punkte haben und die geraden Linien zwischen ihnen nahe genug beieinander liegen. Auf vielen Kurven werden kurze Abschnitte einiger Bereiche nahe an geraden Linien liegen. Für eine gekrümmte Linie ist dies jedoch eine schlechte Annäherung, und Ihre Ergebnisse werden in Bereichen mit einer signifikanten Krümmung ungenau sein. In Ihrem Beispiel würde der Bereich zwischen den X-Werten 7 und 8 eine starke Krümmung aufweisen. In diesem Bereich würde eine gerade Linie im Vergleich zur tatsächlichen Kurve folgendermaßen aussehen:

Sie suchen nach einer allgemeinen Lösung, die auf alle Daten anwendbar ist. Möglicherweise stellen Sie fest, dass die lineare Interpolation für einige Daten zu grob ist.

Regression

Hier und in anderen Beiträgen wurde Regression als Ansatz vorgeschlagen. Dies kann mithilfe von Trendlinien oder den ihnen zugrunde liegenden Arbeitsblattfunktionen oder den Analysetools erfolgen (ich glaube, das könnte im Analyse-Toolkit enthalten sein, was möglicherweise das Laden dieser Option in Excel erfordert, da sie möglicherweise nicht standardmäßig geladen ist).

Bei der Regression wird versucht, eine Kurve an Ihre Daten anzupassen, um den Gesamtfehler zwischen den Daten und der Kurve zu minimieren. Normalerweise ist dies nicht das richtige Werkzeug für diese Aufgabe (es ist die Methode, die zum Anpassen der Trendlinien verwendet wird, und Sie haben gesehen, wie diese im Vergleich zu dem, was Sie benötigen, abschneidet).

Es ist für Situationen gedacht, in denen Ihr Ziel darin besteht, den Prozess hinter den Daten zu modellieren. Die Daten werden als ungenau angenommen und die Regression legt nahe, was sie wirklich sein sollen. Die durch die Regression gefundene Kurve verläuft möglicherweise nicht durch einen der tatsächlichen Datenpunkte. In Ihrem Fall sind die Daten gegeben und werden als genau angenommen. Die Kurve muss durch jeden Punkt verlaufen.
Bei der Regression wird versucht, eine einzige Gleichung auf alle Daten anzuwenden. Dies ist jedoch nicht effektiv, wenn der Prozess, der die Daten erstellt hat, nicht durch die verfügbaren Gleichungstypen beschrieben wird. Bei vielen Datenpunkten kann die lineare Interpolation jedes Segments eine bessere Annäherung sein als eine Regressionskurve für alle Daten.

Anstatt sie jedoch auf die übliche Weise einzusetzen, kann die Regression als Workaround für das, was Sie wollen, „missbraucht“ werden, und das wird normalerweise funktionieren. Wenn Sie versuchen, einen Prozess zu modellieren, ist normalerweise die einfachste Formel von Nutzen (Ockhams Rasiermesser). Andererseits können Sie mit einer ausreichend komplexen Gleichung alles anpassen. Sie können immer eine Skizze zeichnen, die durch jeden Punkt verläuft. Mit NPunkten können Sie eine N-1polynomische Gleichung der Ordnung finden, die durch alle Punkte verläuft (Worst-Case-Szenario).

Ich sage „normalerweise“, weil es in manchen Fällen eine ziemlich verdrehte Linie ist, die für Ihren Zweck unbrauchbar wäre. Und beachten Sie, dass dieser Ansatz nicht wirklich etwas „modelliert“ in dem Sinne, dass die resultierende Gleichung ein Verhalten außerhalb des Datenbereichs vorhersagen würde.

Hier ist eine Analyse Ihrer Daten mithilfe einer polynomischen Regression mit Gleichungen sukzessive höherer Ordnung (der erste Screenshot umfasst die Ordnungen 3 bis 5):

(Klicken Sie auf das Bild, um es in lesbarer Größe anzuzeigen.) Beachten Sie, dass das Analysetool die Art der Interpolation enthält, die Sie durchführen möchten; es hat die Zwischenwerte generiert. Für jede Analyse a(n)sind die Werte die Koeffizienten der gefundenen Gleichung. a(0)ist eine Konstante, a(1)ist der Koeffizient für den X^1-Term usw. Es zeigt den R ² -Wert der Anpassung. Er muss praktisch sein, 1um für Ihren Zweck nahe genug zu sein.

Ich habe die ursprünglichen Datenwerte mit den größten Unterschieden hervorgehoben. In diesem Ordnungsbereich wird die Übereinstimmung mit jeder weiteren Ordnung etwas besser, aber welche spezifischen Punkte genauer beschrieben werden, kann sich ändern. Hier ist ein Diagramm dieser drei:

Wenn wir zum Polynom 6. und 7. Ordnung kommen, sieht es folgendermaßen aus:

Wenn wir für Ihre 9 Werte ein Polynom 8. Ordnung verwenden würden, wäre es perfekt, aber die 7. Ordnung ist wahrscheinlich nah genug dran. Zur Veranschaulichung sei angemerkt, dass die Gleichung 7. Ordnung ein R ² von .99999 hat und trotzdem nicht perfekt ist.

Wenn Sie das Regressionsanalysetool verwenden, um eine geeignete Anpassung zu finden (in diesem Fall die Gleichung 7. oder 8. Ordnung), erhalten Sie die gewünschten Zwischenwerte. Es ist jedoch eine gute Idee, das Ergebnis in einem Diagramm darzustellen und die Kurve zu mustern, um sicherzustellen, dass es sich nicht um eine Skizze handelt.

Splines

Wenn Sie Ihre Daten in einem Diagramm darstellen und die Option für glatte Linien auswählen, verwendet Excel zur Erstellung dieser Linien Splines. Tatsächlich basiert fast jede Anwendung der Computergrafik (einschließlich Schriftdefinitionen) auf Splines für glatte Kurven und Kurvenübergänge. Der Name geht auf die flexible Regel zurück, die Zeichner früher verwendeten, um beliebige Punkte mit einer Kurve zu verbinden.

Splines erstellen die Kurve für jeden Abschnitt, Abschnitt für Abschnitt, unter Berücksichtigung der angrenzenden Punkte. Die Kurve verläuft durch jeden Punkt und es gibt keine abrupten Änderungen auf beiden Seiten des Punkts, wie dies beim Verbinden der Punkte mit geraden Linien der Fall ist.

Die für Splines verwendeten Gleichungen versuchen nicht, den Prozess zu modellieren, der die Daten erzeugt hat; sie dienen lediglich der Optik. Die meisten Prozesse folgen jedoch einer Art kontinuierlicher, glatter Kurve. Wenn Sie mit einem einzelnen Kurvensegment arbeiten, erzeugen viele verschiedene Gleichungen, die Kurven mit im Allgemeinen ähnlicher Form erzeugen, sehr ähnliche Werte innerhalb des Segments. In den meisten Fällen erzeugen Splines also eine gute Annäherung an das, was Sie wollen (und sie verlaufen natürlich durch jeden Punkt, im Gegensatz zur Regression, die durch jeden Punkt gezwungen werden muss).

Auch hier sage ich „in den meisten Fällen“. Splines funktionieren hervorragend bei Daten, die ziemlich einheitlich und regelmäßig sind und den „Regeln“ für eine Kurve folgen. Bei ungewöhnlichen Daten können sie einige unerwartete Dinge bewirken. Zum Beispiel einvorherige SU-Frageging es um diesen merkwürdigen negativen „Einbruch“ im von Excel aus den Daten erstellten Diagramm:

Splines sind ein bisschen wie Wackelpudding. Stellen Sie sich einen großen Klumpen Wackelpudding vor und Sie begrenzen bestimmte Stellen, wo Sie sie haben möchten. Der Rest des Wackelpuddings wölbt sich an den erforderlichen Stellen. Eine Gleichung kann bestimmte Arten von Kurven definieren. Wenn Sie die Kurve durch bestimmte Punkte zwingen, passiert dasselbe. Bei Splines ist der Effekt auf eine seltsame Wölbung oder ein unnatürlich aussehendes Kurvensegment beschränkt; Regressionsgleichungen höherer Ordnung können einem wilden Pfad folgen.

So stellen Splines die Kurve Ihrer Daten dar:

Wenn Sie dies mit den Regressionskurven höherer Ordnung vergleichen, reagieren die Splines stärker auf lokale Variationen.

Ich habe diese Analyse mit LibreOffice Calc durchgeführt, das über ein Analyse-Add-In verfügt, das Splines enthält. Wie Sie sehen, werden damit auch für Splines die interpolierten Ergebnisse erzeugt, nach denen Sie suchen. Ich habe keinen direkten Zugriff auf das Analyse-Toolkit von Excel und weiß daher nicht, ob Excel Splines enthält. Falls nicht, läuft LO Calc unter Windows und ist kostenlos.

Endeffekt

Dies umfasst die Ansätze, die Sie zum Interpolieren der Zwischenwerte verwenden können. Es kann sein, dass unterschiedliche Ansätze bei unterschiedlichen Daten besser funktionieren. Oder Ihre Anforderungen können ungefähr, schnell und einfach sein. Entscheiden Sie, welche Art von Interpolation Sie benötigen. Wenn Sie weitere Einzelheiten dazu benötigen, wie dies erreicht werden kann, können wir die Mechanik in einer anderen Antwort behandeln.

Answer

Kurze Antwort

Die Interpolation basiert auf einer Gleichung, die X- und Y-Werte in Beziehung setzt. Wenn Sie die eigentliche Gleichung kennen, können Sie alle gewünschten Zwischenwerte direkt berechnen. Wenn Sie sie nicht kennen, interpolieren Sie mithilfe einer Näherung. Die Qualität der Näherung bestimmt, wie genau Ihre Zwischenwerte sein werden. Die lineare Interpolation ist grob, wenn Sie eine Kurve mit einer begrenzten Anzahl von Punkten approximieren. Es gibt mehrere andere Ansätze, die Ihnen bessere Ergebnisse liefern, und integrierte Analysetools, die den Großteil der Arbeit übernehmen.

Lange Antwort

Sie suchen nach einer „allgemeinen Formel“ oder Lösung, die die Interpolation von Zwischenwerten automatisiert. Sie können die lineare Interpolation für so ziemlich alle Daten verwenden, aber die Ergebnisse werden grob sein, wenn es nur eine begrenzte Anzahl von Datenpunkten und eine signifikante Krümmung in der Form der Daten gibt. Es gibt keine „Einheitslösung“, wenn Sie Genauigkeit wollen. Die beste Lösung für einen bestimmten Datensatz hängt von den Eigenschaften der Daten ab.

Die gleichung

Egal wie Sie es machen, die Interpolation erfolgt mithilfe einer Gleichung, die die Beziehung zwischen X und Y definiert. Die Gleichung ist entweder die tatsächliche Gleichung oder eine Schätzung. Wenn es sich um eine Schätzung handelt, gibt es eine Reihe unterschiedlicher Ansätze, die von der Art der Daten und dem, was Sie erreichen möchten, abhängen.

In Ihrer anderen Frage haben Sie Daten verwendet, die auf der Gleichung basieren Y=2^X. Wenn Sie die eigentliche Gleichung haben, können Sie genau interpolieren. Wählen Sie einen neuen Wert für entweder Xoder Yund die Gleichung gibt Ihnen den anderen Wert. Wenn Sie die eigentliche Gleichung nicht kennen, müssen Sie eine finden, die sie annähert. Ich werde diese Antwort verwenden, um mich auf Interpolationsansätze zu konzentrieren. Diese verwenden im Allgemeinen integrierte Analysetools, die den Großteil der Arbeit erledigen. Wenn Sie weitere Einzelheiten zur Mechanik der Verwendung eines bestimmten Tools oder eines automatisierteren Ansatzes benötigen, können wir das in einer anderen Antwort näher erläutern.

Versuchen Sie, die eigentliche Gleichung zu finden

Die beste Lösung besteht darin, zu versuchen, die tatsächliche Gleichung zu ermitteln. Wenn Sie den Prozess kennen, der die Daten generiert hat, kann Ihnen das Aufschluss über die Art der Gleichung geben. Viele Prozesse folgen unter kontrollierten Bedingungen, d. h. wenn Sie mit einer einzigen treibenden Variable und keinem zufälligen Rauschen arbeiten, einer einfachen Kurve, deren Art der Gleichung bekannt ist. Der erste Schritt besteht also darin, sich die Form der Daten anzusehen und zu prüfen, ob sie einer dieser Gleichungen ähnelt.

Eine einfache Möglichkeit hierfür besteht darin, die Daten grafisch darzustellen und eine Trendlinie hinzuzufügen. In Excel stehen eine Reihe gängiger Kurven zur Verfügung, die Sie anpassen können.

Versuchen wir dies mit den 2^NDaten aus Ihrer anderen Frage. Wenn Sie das Zahlenmuster nicht erkannt und den Trendlinienansatz ausprobiert hätten, würden Sie die Symbole unterschiedlich geformter Kurven sehen. Die Exponentialkurve hat im Allgemeinen dieselbe Form und würde Ihnen Folgendes liefern:

Excel verwendet als Basis eund nicht , was nur eine Übersetzung ist (e ^0,693 ist ). Visuell können Sie sehen, dass die Trendlinie genau den Daten folgt. Das R ² sagt Ihnen das auch. R ² ist ein statistisches Maß dafür, wie viel der Variation in den Daten Sie mit Ihrer Gleichung berücksichtigen. Der Wert bedeutet, dass die Gleichung 100 % der Variation berücksichtigt oder eine perfekte Anpassung darstellt.221

Das Beispiel in dieser Frage hat ebenfalls eine Art Exponentialform. Wenn Sie denselben Ansatz versuchen, erhalten Sie dieses Ergebnis:

Diese Daten sind also nicht exponentiell. Wir können es mit einem Polynom versuchen, das einige natürliche Prozesse beschreibt und in der Lage ist, eine Vielzahl von Kurven nachzubilden (darüber werde ich später mehr sprechen):

Als Annäherung an den Prozess, der den Daten zugrunde liegt, ist dies keine gute Übereinstimmung. In der dritten Ordnung (eine Gleichung mit Potenzen von X bis X^3) hat sie mehr große Wendepunkte als die Daten und passt trotzdem nicht. Die zugrundeliegende Gleichung sieht also nicht wie eine einfache, gemeinsame Kurve aus, was bedeutet, dass die Gleichung angenähert werden muss.

Lineare Interpolation

Dies ist der Ansatz, den Sie in Ihren Kommentaren beschreiben. Er ist unkompliziert, verwendet eine einfache Formel und lässt sich relativ einfach automatisieren. Er kann ausreichend sein, wenn Sie viele Punkte haben und die geraden Linien zwischen ihnen nahe genug beieinander liegen. Auf vielen Kurven werden kurze Abschnitte einiger Bereiche nahe an geraden Linien liegen. Für eine gekrümmte Linie ist dies jedoch eine schlechte Annäherung, und Ihre Ergebnisse werden in Bereichen mit einer signifikanten Krümmung ungenau sein. In Ihrem Beispiel würde der Bereich zwischen den X-Werten 7 und 8 eine starke Krümmung aufweisen. In diesem Bereich würde eine gerade Linie im Vergleich zur tatsächlichen Kurve folgendermaßen aussehen:

Sie suchen nach einer allgemeinen Lösung, die auf alle Daten anwendbar ist. Möglicherweise stellen Sie fest, dass die lineare Interpolation für einige Daten zu grob ist.

Regression

Hier und in anderen Beiträgen wurde Regression als Ansatz vorgeschlagen. Dies kann mithilfe von Trendlinien oder den ihnen zugrunde liegenden Arbeitsblattfunktionen oder den Analysetools erfolgen (ich glaube, das könnte im Analyse-Toolkit enthalten sein, was möglicherweise das Laden dieser Option in Excel erfordert, da sie möglicherweise nicht standardmäßig geladen ist).

Bei der Regression wird versucht, eine Kurve an Ihre Daten anzupassen, um den Gesamtfehler zwischen den Daten und der Kurve zu minimieren. Normalerweise ist dies nicht das richtige Werkzeug für diese Aufgabe (es ist die Methode, die zum Anpassen der Trendlinien verwendet wird, und Sie haben gesehen, wie diese im Vergleich zu dem, was Sie benötigen, abschneidet).

Es ist für Situationen gedacht, in denen Ihr Ziel darin besteht, den Prozess hinter den Daten zu modellieren. Die Daten werden als ungenau angenommen und die Regression legt nahe, was sie wirklich sein sollen. Die durch die Regression gefundene Kurve verläuft möglicherweise nicht durch einen der tatsächlichen Datenpunkte. In Ihrem Fall sind die Daten gegeben und werden als genau angenommen. Die Kurve muss durch jeden Punkt verlaufen.
Bei der Regression wird versucht, eine einzige Gleichung auf alle Daten anzuwenden. Dies ist jedoch nicht effektiv, wenn der Prozess, der die Daten erstellt hat, nicht durch die verfügbaren Gleichungstypen beschrieben wird. Bei vielen Datenpunkten kann die lineare Interpolation jedes Segments eine bessere Annäherung sein als eine Regressionskurve für alle Daten.